http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
심광섭(Kwangseob Shim),양재형(Jaehyung Yang) 한국정보과학회 2004 정보과학회논문지 : 소프트웨어 및 응용 Vol.31 No.10
본 논문에서는 자질 기반 구 구조 문법 형식의 자연어 문법 개발에 필요한 환경을 제공하는 GrammE를 소개한다. 문법 개발 단계에서는 텍스트 형식의 문법을 인터프리트하여 구문 분석을 하기 때문에 문법 수정 후 바로 문법을 테스트할 수 있어 문법 개발이 용이해 진다. 일단 문법 개발이 끝나면 GrammE에 포함된 문법 컴파일러를 이용하여 C++로 쓰여진 구문 분석기 프로그램을 생성할 수 있다. 이렇게 해서 만들어진 구문 분석기는 구문 분석을 필요로 하는 여러 가지 자연어 처리 시스템에 활용할 수 있다. GrammE는 언어 독립적인 시스템이며, 현재까지 한국어 문법과 중국어 문법을 개발하는 데 사용되었다. This paper presents GrammE, a grammar development environment for feature-based APSG. At the stage of a grammar development, analysis are be done by interpreting the grammar under development, given in a text format, it is relatively easy to diagnose the grammar. Once developed, the grammar is compiled, by using the embedded grammar compiler, into a parser program written in C++. The parser program can be used in various types of natural language processing systems requiring syntactic analysis. GrammE is language-independent, and so far has been used for the development of Korean and Chinese grammars.
심광섭(Kwangseob Shim) 한국인지과학회 2011 인지과학 Vol.22 No.2
본 논문에서는 띄어쓰기가 전혀 되어 있지 않은 한국어 문장을 입력받아 자동으로 띄어쓰기를 해 주는 시스템을 제안한다. 띄어쓰기 문제는 주어진 문장의 각 음절에 대하여 띄어쓰기 여부를 나타내는 레이블을 부착하는 일종의 레이블링 문제이므로, 본 논문에서는 레이블링 문제 해결에 띄어난 성능을 보이는 것으로 알려진 CRF를 이용하여 자동 띄어쓰기를 시도하였다. 약 112만 음절 규모의 학습용 데이터로 학습을 하고, 2,114 문장(약 9.3만 음절)의 평가용 데이터로 띄어쓰기 정확도에 대한 평가를 하였다. 평가 결과 음절 단위의 정확도는 98.84%, 어절 단위의 정확도는 95.99%인 것으로 나타났다. In this paper, an automatic word spacing system is proposed, which assumes sentences with no spaces between the words and segments them into proper words. Segmentation is regarded as a labeling problem in that segmentation can be done by attaching appropriate labels to each syllables of the given sentences. The system is based on Conditional Random Fields, which were reported to show excellent performance in labeling problems. The system is trained with a corpus of 1.12 million syllables, and evaluated with 2,114 sentences, 93 thousand syllables. The best results obtained are 98.84% of syllable-based accuracy and 95.99% of word-based accuracy.
기분석 어절 사전과 음절 단위의 확률 모델을 이용한 한국어 형태소 분석기 복제
심광섭(Kwangseob Shim) 한국정보과학회 2016 정보과학회 컴퓨팅의 실제 논문지 Vol.22 No.3
본 논문에서는 어절 단위의 기분석 사전과 음절 단위의 확률 모델을 이용하는 한국어 형태소 분석기가 실용성이 있는지를 검증한다. 이를 위해 기존의 한국어 형태소 분석기 MACH와 KLT2000을 복제하고, 복제된 형태소 분석기의 분석 결과가 MACH와 KLT2000 분석 결과와 얼마나 유사한지 정밀도와 재현율로 평가하는 실험을 하였다. 실험은 1,000만 어절 규모의 세종 말뭉치를 10개의 세트로 나누고 10배수 교차 검증을 하는 방식으로 하였다. MACH의 분석 결과를 정답 집합으로 하고 MACH 복제품의 분석 결과를 평가한 결과 정밀도와 재현율이 각각 97.16%와 98.31%였으며, KLT2000 복제품의 경우에는 정밀도와 재현율이 각각 96.80%와 99.03%였다 분석 속도는 MACH 복제품의 경우 초당 30.8만 어절이며, KLT2000 복제품은 초당 43.6만 어절로 나타났다. 이 실험 결과는 어절 단위의 기분석 사전과 음절 단위의 확률 모델로 만든 한국어 형태소 분석기가 실제 응용에 사용될 수 있을 정도의 성능을 가진다는 것을 보여준다. In this study, we verified the feasibility of a Korean morphological analyzer that uses a pre-analyzed Eojeol dictionary and syllable-based probabilistic model. For the verification, MACH and KLT2000, Korean morphological analyzers, were cloned with a pre-analyzed eojeol dictionary and syllable-based probabilistic model. The analysis results were compared between the cloned morphological analyzer, MACH, and KLT2000. The 10 million Eojeol Sejong corpus was segmented into 10 sets for cross-validation. The 10-fold cross-validated precision and recall for cloned MACH and KLT2000 were 97.16%, 98.31% and 96.80%, 99.03%, respectively. Analysis speed of a cloned MACH was 308,000 Eojeols per second, and the speed of a cloned KLT2000 was 436,000 Eojeols per second. The experimental results indicated that a Korean morphological analyzer that uses a pre-analyzed eojeol dictionary and syllable-based probabilistic model could be used in practical applications.
심광섭 ( Kwangseob Shim ) 성신여자대학교 인문과학연구소 2016 人文科學硏究 Vol.34 No.-
Statistical Korean morphological analysis is a brand-new approach in that it does not require a manually built machine-readable morphology dictionary. Instead, it uses statistical information that is acquired from POS-tagged corpus. The acquisition of statistical information is fully automated, so that no human intervention is required in the process. This is a good side of the statistical approach to Korean morphological analysis. The bad side of the approach is its low precision, meaning that the number of false positives is relatively high. In order to improve the precision, this paper proposes a method of filtering false positives. The proposed method introduces two types of dictionaries, one-syllable-morpheme dictionary and josa-eomi dictionary, which are automatically constructed when statistical information is collected from the POS-tagged corpus. To evaluate the performance of the proposed method, 10-fold cross-validation is performed with 10 million eojeol Sejong POS-tagged corpus. The experimental results show that the precision has been improved by 5%.
형태소 분석기 사용을 배제한 음절 단위의 한국어 품사 태깅
심광섭(Kwangseob Shim) 한국인지과학회 2011 인지과학 Vol.22 No.3
본 논문에서는 형태소 분석기를 사용하지 않는 음절 단위의 한국어 품사 태깅 방법론을 제안한다. 기존 연구에서 한국어 품사 태거는 형태소 분석기가 생성한 결과 중에서 문맥에 가장 잘 맞는 형태소/품사 열을 결정하는 데 반하여, 본 논문에서 제안한 방법론에서는 품사열을 결정할 뿐만 아니라 형태소도 생성한다. 398,632 어절의 학습 데이터로 학습을 하고 33,467 어절의 평가 데이터로 성능 평가를 한 결과 어절 단위의 정확도가 96.31%인 것으로 나타났다. In this paper, a new approach to Korean POS (Part-of-Speech) tagging is proposed. In previous works, a Korean POS tagger was regarded as a post-processor of a morphological analyzer, and as such a tagger was used to determine the most likely morpheme/POS sequence from morphological analysis. In the proposed approach, however, the POS tagger is supposed to generate the most likely morpheme and POS pair sequence directly from the given sentences. 398,632 eojeol POS-tagged corpus and 33,467 eojeol test data are used for training and evaluation, respectively. The proposed approach shows 96.31% of POS tagging accuracy.
품사 태깅 말뭉치에서 추출한 n-gram을 이용한 음절 단위의 한국어 형태소 분석
심광섭(Kwangseob Shim) 한국정보과학회 2013 정보과학회논문지 : 소프트웨어 및 응용 Vol.40 No.12
본 논문에서는 품사 태깅 말뭉치로부터 자동 추출된 음절 n-gram 정보, 음절 복원 정보, 태그 바이그램 정보를 이용하는 음절 단위의 한국어 형태소 분석 모델을 제안한다. 본 논문에서 제안한 모델에서는 원형 복원을 하기 전에 주어진 어절의 각 음절에 대한 품사 태깅을 먼저 하는데, 이는 원형 복원을 먼저 하는 기존 확률 모델에 비하여 형태소 분석 과정이 훨씬 효율적이고 간결하다. 그 결과 정답 제시율은 98.9%로 기존 모델과 크게 차이가 나지 않으면서도 처리 속도가 초당 수백 어절에서 32만 어절로 크게 향상되었다. This paper presents a syllable-based Korean morphological analysis model that uses three types of information: syllable n-gram, syllable restoration and tag bigram information. They are automatically extracted from a POS tagged corpus. In our model, syllable restoration is performed after POS tags are attached to each syllable. With this approach, the morphological analysis phase becomes much simpler and more efficient than the previous probabilistic models for Korean morphology. As a result, the analysis speed reaches up to 322K eojeols per second, while the answer inclusion rate (AIR) maintained up to 98.9%.
심광섭(Kwangseob Shim),양재형(Jaehyung Yang) 한국정보과학회 2004 정보과학회논문지 : 소프트웨어 및 응용 Vol.31 No.1
본 논문에서는 코드 변환 과정과 축약, 탈락, 불규칙 활용 등으로 변형된 형태소의 원형을 복원하고 분석 후보를 생성하는 등의 과정을 거치지 않고 형태소 사전에서 제공되는 인접 조건에 대한 검사만으로 형태소 분석을 하는 방법을 제안한다. 인접 조건 검사는 복잡한 연산을 하지 않고 단순한 비트 연산만으로 할 수 있기 때문에 제안된 방법은 초고속 형태소 분석기 구현에 적합하다. 본 논문에서 제안한 방법에 따라 구현된 한국어 형태소 분석기 MACH는 1.13 GHz Pentium III 개인용 컴퓨터에서 대략 5분 /GB의 분석 속도를 보였으며, 분석 정확도는 99.2 %로 기존의 다른 분석기와 큰 차이가 없었다. This paper proposes a morphological analysis method that enables morphological analysis by checking conditions between two adjacent morphemes. These conditions are fed from a dictionary. This method eliminates a code conversion module and the application of transformational rules for candidate generation. The method claims that very high speed morphological analysis is attainable through simple bit operations for adjacency condition check. MACH, an implementation of the proposed method, is a supersonic Korean morphological analyzer which is able to analyze a document of 1 GB in 5 minutes on a PC with 1.13 GHz Pentium III CPU. The analysis accuracy of MACH is 99.2 %.
심광섭(Kwangseob Shim) 한국정보과학회 1997 정보과학회논문지(B) Vol.24 No.11
본 논문에서는 합성된 상호 정보를 이용하여 띄어쓰기가 되어 있지 않은 한국어 복합 명사를 단위 명사로 분리하는 알고리즘을 제시한다. 합성된 상호 정보는 네 가지 유형의 음절간 상호 정보를 합성한 것으로서 주어진 복합 명사에서 단위 명사로 분리 가능한 지점을 선택하는데 사용된다. 본 논문에서 제시한 알고리즘의 정확도를 평가하기 위하여 약 110만 어절(490만 음절)로 이루어진 말뭉치로부터 합성된 상호 정보를 습득하여 4,322 어절로 이루어진 평가용 복합 명사를분리하는 실험을 하였다. 실험 결과에 의하면 미등록어가 없는 상태에서 측정된 복합 명사 분리의 정확도는 최대 98.6%에 이르는 것으로 나타났다. A compound noun segmentation algorithm is proposed in this paper, The algorithm uses Composite Mutual Information in segmenting compound nouns. Composite Mutual Information is the composition of four types of mutual information between two adjacent syllables. Experiments were performed to evaluate the accuracy of the proposed segmentation algorithm. Composite Mutual Information acquired from a text corpus of 1,1 million words (4.9 million syllables) was used in the experiments of segmenting the compound nouns of 4,322 words. The accuracy was 98.6% when it was evaluated with no missing noun in the dictionary.
심광섭 ( Kwangseob Shim ) 한국인터넷정보학회 2007 인터넷정보학회논문지 Vol.8 No.4
본 논문은 실용적인 한국어 형태소 분석기 개발에 사용될 수 있는 도구인 MADE를 소개한다. MADE는 형태소 사전에서 제공되는 인접 조건만을 사용하여 형태소 분석을 수행한다. 이것은 형태소 분석기를 개발하기 위해 별도의 프로그래밍은 전혀 하지 않고 단지 형태소 사전만 구축하면 된다는 것을 의미한다. MADE는 형태소 사전을 구축하고 검증하는 데 필요한 기능들을 제공한다. 일단 형태소 사전이 구축되고 나면 MADE는 독립된 형태소 분석기로서 사용될 수도 있고 형태소 분석기를 필요로 하는 다른 응용 소프트웨어에 내장되어 사용될 수도 있다. This paper proposes a software tool MADE that is useful to develop a practical Korean morphological analyzer. A morphological analysis is performed by using adjacency conditions provided by a morphological dictionary. This means that developing a morphological analyzer is reduced merely to constructing a morphological dictionary. No programming skill is required in this process. MADE provides with useful functions that facilitate the construction of a dictionary. Once a dictionary is constructed, the morphological analysis engine embedded in MADE may be used as a stand-alone morphological analyzer or be integrated into an application software which requires a Korean morphological analysis module.