http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
황명권(Myunggwon Hwang),최동진(Dongjin Choi),김판구(Pankoo Kim) 한국정보과학회 2010 한국정보과학회 학술발표논문집 Vol.37 No.1C
다양한 분야에 소속된 사람들이 사용하고 있는 개념들을 기존의 워드넷과 같은 지식베이스가 모두 포함하지 못한다는 한계점이 지적되었다. 본 연구에서는 이를 해결하기 위해 위키피디아 문서집합의 분석을 통하여 해결하고자 한다. 위키피디아는 현재 320만개 이상의 유/무형의 개체에 대한 상세한 설명을 포함하고 있으며, 현재도 해당 분야의 전문가들에 의해 지속적으로 제목(주제) 생성 및 내용 작성이 수행되고 있다. 이에, 위키피디아 문서는 지식베이스의 개념 확장을 위해 아주 유용한 자원이 될 수 있으며, 본 논문에서는 이러한 위키피디아 문서 제목의 개념화를 통해 기존의 지식베이스와 연결하는 의미적인 방법을 기술한다. 이를 이용한 간단한 실험을 통하여 본 연구가 우월한 가능성이 있음을 파악하였다.
황명권(Myunggwon Hwang),정유나(Yuna Jeong),성원경(Wonkyung Sung) 한국정보과학회 2020 정보과학회논문지 Vol.47 No.12
본 연구는 자동적이고 지능적인 AI 개발에 요구되는 human-in-the-loop (HITL) 과정의 단축을 위한 것으로, 학습에 긍정적 영향을 미치는 데이터 선정 방법을 다룬다. 이를 위해 학습 데이터의 유사성을 중심으로 2차원 분포를 형성하고, 일정한 비율로 격자를 형성한다. 각 격자 내에서 동일한 클래스 데이터의 분포 일관성을 기준으로 데이터를 선정하기 위하여 LSTRf 기법을 응용하여 적용한다. 이를 통해 선정된 데이터는 CNN 기반의 분류기를 통해 학습하고 그 성능을 평가한다. CIFAR-10을 활용하여 실험하였으며, 격자의 크기, 1회 연산에서의 선택되는 데이터 수를 다양화하여 학습에 미치는 효과를 평가하였다. 선정된 학습 데이터는 임의로 선정한 동일한 크기의 데이터와 비교하였다. 그 결과 격자의 크기가 작을수록(0.008과 0.005 크기) 학습에 긍정적으로 영향을 미치는 것을 확인하였고, 1회 연산에서 선정된 개수가 많을수록 전체적으로 우수해짐을 확인할 수 있었다. This paper presents a data selection method that has a positive effect on learning for an efficient human-in-the-loop (HITL) process required for automated and intelligent artificial intelligence (AI) development. Our method first maps the training data onto a 2D distribution based on similarity, and then grids are laid out with a fixed ratio. By applying Least Slack Time Rate first (LSTRf) techniques, the data are selected based on the distribution consistency of the same class data within each grid. The finally selected data are used as convolutional neural network (CNN)-based classifiers to evaluate the performance. We carried out experiments on the CIFAR-10 dataset, and evaluated the effect of grid size and the number of data selected in one operation. The selected training data were compared to randomly selected data of the same size. The results verified that the smaller the grid size (0.008 and 0.005) and the greater the number selected in the single operation, the better the learning performance.
황명권(Myunggwon Hwang),최동진(Dongjin Choi),이효갑(Hyogap Lee),최창(Chang Choi),고병규(Byeongkyu Ko),김판구(Pankoo Kim) 한국정보과학회 2010 한국정보과학회 학술발표논문집 Vol.37 No.2C
본 연구는 구글에서 제공하는 n-gram 정보들의 규모가 너무 방대하여 어플리케이션에서 사용하기 어려운 점을 극복하기 위한 방법을 제공하고 있다. 이를 위해 사용자가 관심을 갖는 특정 도메인에 해당하는 n-gram을 형성하는 방법을 제안하고 있으며, 형성된 데이터의 실효성을 평가하기 위해 텍스트 에디터에 반영하였다. 또한 사람의 타이핑 속도에 따라 얻을 수 있는 효과를 다양하게 평가하고 있으며, 이를 기존에 수행된 연구와 비교함으로써 그 성능을 분석하고 있다. 본 논문에서는 단순히 타이핑에 적용한 결과만을 포함하지만, n-gram 데이터의 활용범위가 넓은 점을 고려할 때, 본 연구는 n-gram 데이터의 실효성을 미리 예측해 볼 수 있다는 점에서 큰 의미를 갖는다.
황명권(Myunggwon Hwang),김판구(Pankoo Kim) 한국정보기술학회 2009 한국정보기술학회논문지 Vol.7 No.5
This paper contains the enrichment method on semantic relation network of WordNet which is a fundamental for semantic information processing. The WordNet constructively defines the relations among the concepts so that it is utilized in various fields. However, it is grasped that several real-world relations are omitted. In order to minimize this semantic gap, we propose the enrichment method which extracts noun types from the glossaries in the WordNet, assigns the exact sense to glossary noun, and constructs relation between the glossary noun and its owner concept. For the performance evaluation, we apply the enriched WordNet to WSD-SemNet algorithm, try to disambiguate Senseval-3 Gloss, and compare the result with other enrichment methods.
황명권 ( Myunggwon Hwang ),정도헌,성원경 ( Do-heon Jeong ) 한국정보처리학회 2011 한국정보처리학회 학술대회논문집 Vol.18 No.2
자연어 처리에서 큰 걸림돌 중의 하나는 용어의 표현 다양성이라 할 수 있다. 용어들은 시제, 단수/복수 형태, 경우에 따라서는 동일한 의미의 다른 용어로 대체되어 사용될 수 있으며, 이러한 용어의 사용은 동일한 의미를 다르게 해석하는 원인이 되기도 한다. 이에 본 연구에서는 다양한 형태의 용어들을 하나의 표준화된 형태로 정규화 하는 방법을 제안한다.
위키피디아 카테고리 유사도와 부트스트래핑 기법을 이용한 전문용어 정제
황명권(Myunggwon Hwang),정도헌(Do-Heon Jeong),이승우(Seungwoo Lee),정한민(Hanmin Jung),성원경(Won-Kyung Sung) 한국정보과학회 2011 한국정보과학회 학술발표논문집 Vol.38 No.2C
본 연구는 대용량의 문서집합에서 추출한 전문용어 후보군들의 정제 방법을 다룬다. 유용한 정보를 효과적으로 추출하기 위한 텍스트 마이닝의 목표가 이제는 전문가 또는 일반인들의 삶에 직접적으로 영향을 줄 수 있는 방향으로 흐름이 바뀌어 가고 있다. 기술 기회 발굴(Technology Opportunity Discovery) 연구 또한 이를 위한 것으로 시대의 흐름에 따른 전문용어의 생명주기 파악 그리고 그들 사이의 관계를 추출하기 위한 것에 집중하고 있다. 이러한 목표들을 성공적으로 달성하기 위해 잘 정제된 전문용어의 추출이 가장 우선시 되어야 하며 본 연구에서는 이를 위해 위키피디아의 카테고리 유사도 측정 방법에 기반한 부트스트래핑 방법을 제안한다. 측정된 카테고리 유사도를 전문용어의 정제에 적용함으로써 본 연구의 가능성을 도출한다.