http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
전유전체 서열 분석과 가시화를 위한 워크벤치 개발과 응용
최정현,진희정,김철민,장철훈,조환규 한국유전학회 2002 Genes & Genomics Vol.24 No.2
An increasing number of genome sequencing projects results in explosive growth of whole genome sequences. Furthermore the number of studies on the functions of individual genes has also been rapidly increased. However on-memory algorithms are not applicable to the analysis of whole genome sequences, since the size of individual whole gene a ranges from several million base pairs to hundreds billion base pairs. In order to effectively manipulate the huge sequence data, it is necessary to use the indexed data structure for external memory. In this paper, we introduce the development and application of the workbench for the analysis and visualization of whole genome sequences using string B-tree that is suitable for the analysis of huge data. This system consists of two main parts, the analysis query part and the visualization part. The query system supports various transactions such as pattern matching, k-occurrence, and k-mer analysis. The visualization system helps biologists to easily understand whole genome structure and specificity by various kinds of visualization such as whole genome sequence viewer, annotation viewer, CGR (Chaos Game Representation) viewer, k-mer viewer, RWP (Random Walk Plot) viewer, and map viewer. We can find the relationships among organisms, support gene prediction in a genome, and study the function of junk DNA using our workbench. In this paper, we apply our workbench to investigating specific sequence such as avoided sequence, common sequence, and classifiable sequence.
조환규(Hwan-Gue Cho) 한국정보과학회 1995 한국정보과학회 학술발표논문집 Vol.22 No.2B
지금까지 딜로니(delauney) 삼각분할과 그리디 삼각분할의 특성에 따라서 많은 개별적인 연구결과가 알려져 있다. 특히 평균복잡도와 그 특성에 관한 연구가 다양한 확률적인 분석에 의해서 제시되었다[1, 3]. 그러나 두 방식으로 생성되는 결과가 어느 정도 유사한지에 관한 연구는 아직 없다. 본 논문에서는 위 두 삼각분할의 유사도에 대하여 설명한다. 즉 같은 평면상의 점의 분포로부터 만들어지는 두 삼각분할에서 공통적으로 존재하는 에지의 수를 두 삼각분할의 유사도라고 정의한다. 만일 n개의 점들이 일양분포(uniform distribution)로 생성되었다면 대략 1.0n개의 에지가 공통적으로 존재함을 간단한 기하학적 특징을 이용하여 증명한다. 본 논문의 결과는 딜로니 삼각분할이 주어져 있을 때 실제적으로 보다 빠른 그리디 삼각분할을 만드는 데 이용될 수 있고, 그리고 병렬 삼각분할 알고리즘에도 응용될 수 있을 것이다.
확장된 버로우즈-휠러 변환을 이용한 개선된 한글 초성 탐색
김성환(Sung-Hwan Kim),조환규(Hwan-Gue Cho) 한국정보과학회 2014 정보과학회 컴퓨팅의 실제 논문지 Vol.20 No.12
한글 초성 질의는 내비게이션 시스템이나 모바일 기기와 같이 입력 환경에 제약이 있어 오류가 빈번한 인터페이스 상에서 사용자 편의성 향상을 위하여 제공되는 중요한 기능이다. 본 논문에서는 한글 문자열을 자소 단위로 분해하여 재배열하여 환형 문자열로 변환한 후, 확장된 버로우즈-휠러 변환을 이용하여 색인함으로써 초성 질의 탐색을 위한 시공간 효율적인 자료구조를 제안한다. 또한 실험을 통하여 기존 기법에 비하여 더 적은 공간만을 사용하면서도 보다 다양한 형태의 질의를 처리할 수 있으며, 특히 질의어의 길이가 짧고, 초성의 비율이 높을수록 탐색 속도가 향상됨을 확인하였다. First phoneme queries are important functionalities that provide an improvement in the usability of interfaces that produce errors frequently due to their restricted input environment, such as in navigators and mobile devices. In this paper, we propose a time-space efficient data structure for Korean first phoneme queries that disassembles Korean strings in a phoneme-wise manner, rearranges them into circular strings, and finally, indexes them using the extended Burrows-Wheeler Transform. We also demonstrate that our proposed method can process more types of query using less space than previous methods. We also show it can improve the search time when the query length is shorter and the proportion of first phonemes is higher.
반전역(Semi-Global) 문자 정열을 이용한 비속어 수집 기법
김성환 ( Sung-hwan Kim ),조환규 ( Hwan-gue Cho ) 한국정보처리학회 2011 한국정보처리학회 학술대회논문집 Vol.18 No.2
단어 필터링 기법의 개발에 있어서 가장 큰 난제는 정상단어를 금지어로 인식하여 이를 차단하는 오탐지 문제이다. 이를 방지하기 위하여 다양한 문장에 대한 면밀하고 광범위한 검사가 필수적이나 일반적으로 쉽게 접근할 수 있는 데이터는 주로 단어 위주로 구성된 검증 데이터로 문장 또는 구절로 구성된 데이터의 양은 실제 검증에 활용하기에는 충분하지 못하다. 본 논문에서는 웹에서 수집한 방대한 양의 말뭉치 데이터에 반전역정열(Semi-Global Alignment)을 적용하여 주어진 금지어가 사용되거나 금지어와 유사한 단어가 존재하는 구간을 탐색함으로써 단어 필터링 시스템에서 범용적으로 사용될 수 있는 문장형 평가 데이터를 수집하는 시스템을 제안하고 해당 기법을 통하여 수집한 문장 단위 데이터를 분석하고 단어 필터링 시스템이 오탐지 방지를 위해 가져야할 요소들에 대하여 검토해 본다.