http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
역인덱스 기반 상향식 군집화 기법을 이용한 대규모 학술 핵심어 분석
오흥선(Heung-Seon Oh),정유철(Yuchul Jung) 한국산학기술학회 2018 한국산학기술학회논문지 Vol.19 No.11
특허(patent), 학술 논문(scholarly paper)과 연구 보고서(research report)와 같은 디지털 문서(digital document)에는 주제(topic)를 요약하는 저자 키워드(author keyword)가 있다. 서로 다른 문서가 동일한 키워드를 공유하고 있다면 두 문서가 동일한 주제의 내용을 기술하고 있을 가능성이 매우 높다. 문서 군집화(document clustering)는 비슷한 주제를 가지는 문서들을 비지도 학습 방법(unsupervised learning)을 이용하여 같은 군집으로 그룹(group)화 하는 것이다. 문서 군집화는 다양한 분석에 이용되지만 대용량의 문서 데이터에 적용하기 위해서는 많은 계산량이 필요함으로 쉽지 않다. 이러한 경우, 문서의 내용을 이용하는 것보다 문서의 키워드를 이용하여 군집화하면 더욱 효율적으로 대용량의 데이터를 연결할 수 있다. 기존의 상향식 군집화 방법(bottom-up hierarchical clustering)은 대용량의 키워드 군집화(keyword clustering)를 수행하는데 있어서 많은 시간이 필요하다는 문제점이 있다. 본 논문에서는 정보검색(information retrieval)에서 널리 사용되는 역인덱스(inverted-index) 구조를 상향식 군집화에 적용한 효율적인 군집화 방법을 제안하고, 제안 방법을 대용량의 키워드 데이터에 적용하였으며, 그 결과를 분석하였다. Digital documents such as patents, scholarly papers and research reports have author keywords which summarize the topics of documents. Different documents are likely to describe the same topic if they share the same keywords. Document clustering aims at clustering documents to similar topics with an unsupervised learning method. However, it is difficult to apply to a large amount of documents event though the document clustering is utilized to in various data analysis due to computational complexity. In this case, we can cluster and connect massive documents using keywords efficiently. Existing bottom-up hierarchical clustering requires huge computation and time complexity for clustering a large number of keywords. This paper proposes an inverted index based bottom-up clustering for keywords and analyzes the results of clustering with massive keywords extracted from scholarly papers and research reports.
자동 트렌드 탐지를 위한 속성의 정의 및 트렌드 순위 결정 방법
오흥선(Heung-Seon Oh),최윤정(Yoonjung Choi),신욱현(Wookhyun Shin),정윤재(Yoonjae Jeong),맹성현(Sung-Hyon Myaeng) 한국정보과학회 2009 정보과학회논문지 : 소프트웨어 및 응용 Vol.36 No.3
특허, 뉴스, 블로그와 같이 시간 정보가 있는 문서들로부터의 자동적인 트렌드 분석(trend analysis)은 토픽탐지 및 추적 기술(TDT: Topic Detection and Tracking)과 더불어 중요한 연구 분야로 대두되고 있다. 과거 연구들은 대부분 트렌드과 관련된 단어의 출현 빈도 정보를 이용하여 주어진 개념의 중요도를 측정하고 이 개념의 시간에 따른 트렌드 라인을 보여주는 것에 초점을 맞췄다. 신출 트렌드(emerging trend)를 탐지하기 위해서는 주어진 개념의 출현 빈도수 변화와 같은 간단한 방법이나 학습 데이타와 비교하여 차이를 탐지하여 제시하는 방법이 사용되었다. 그러나 여러 트렌드 중에서 특징적인 트렌드를 찾아서 사용자에게 제공하기 위해서는 트렌드 순위 결정 함수가 필요하다. 본 논문은 트렌드의 다양한 측면을 정량화하기 위하여 출현 빈도로 구성된 트렌드 곡선으로부터 네 가지 속성 (변동성, 지속성, 안정성, 누적량) 을 정의하고 이를 활용한 트렌드 순위 결정 방법을 제안한다. 일련의 실험을 통하여 각 속성의 유용성을 검증하고 속성들의 조합이 순위 결정에 어떤 영향을 미치는지 분석하였다. 실험결과로부터 네 가지 속성을 모두 조합할 경우 특징적인 트렌드 탐지에 더욱 기여하는 것을 알 수 있다. With advances in topic detection and tracking(TDT), automatic trend analysis from a collection of time-stamped documents, like patents, news papers, and blog pages, is a challenging research problem. Past research in this area has mainly focused on showing a trend line over time of a given concept by measuring the strength of trend-associated term frequency information. For detection of emerging trends, either a simple criterion such as frequency change was used, or an overall comparison was made against a training data. We note that in order to show most salient trends detected among many possibilities, it is critical to devise a ranking function. To this end, we define four properties(change, persistency, stability and volume) of trend lines drawn from frequency information, to quantify various aspects of trends, and propose a method by which trend lines can be ranked. The properties are examined individually and in combination in a series of experiments for their validity using the ranking algorithm. The results show that a judicious combination of the four properties is a better indicator for salient trends than any single criterion used in the past for ranking or detecting emerging trends.
이선훈 ( Seon Hoon Lee ),오흥선 ( Heung-seon Oh ) 한국정보처리학회 2019 한국정보처리학회 학술대회논문집 Vol.26 No.1
일반적으로 멀티 온라인 배틀 게임은 게임의 참가자들이 팀을 이루어 전략을 짜고 협력하여 주어진 목적을 성취하면 승리한다. 게임에서는 승리를 판가름 할 수 있는 다양한 요소(e.g. 골드, 아이템, 캐릭터의 레벨 등)들이 있다. 본 논문에서는 게임 플레이 중에 다양한 요소를 분석하여 실시간으로 승률을 예측할 수 있는 딥러닝 기반의 모델을 제안하고 이를 리그오브레전드 게임에 적용하여 그 결과를 분석하였다.
딥 앙상블을 이용한 딥러닝 기반의 항공 이미지 객체 탐지
박주찬(Joo-Chan Park),손성빈(Sung-Bin Son),이선훈(Seon-Hoon Lee),정준욱(Jun-Uk Jung),박용준(Yong-Jun Park),오흥선(Heung-Seon Oh) 제어로봇시스템학회 2021 제어·로봇·시스템학회 논문지 Vol.27 No.12
Object detection in aerial images is continuously studied for various purposes such as national security, disaster monitoring, and meteorological observation. It is difficult to improve recent object detection methods based on a single model using deep learning due to severe class imbalance. This paper proposes a deep ensemble method combining two models with different strengths and a class-dependent thresholding method by considering the object distribution. We demonstrate the superiority of our methods in a series of experiments. In addition, we take 1st place in both public and private scores in the Arirang satellite image AI object detection contest.
의료 문헌에서의 절차적 지식 추출을 위한 단위 절차 추출 연구
송사광(Sa-kwang Song),오흥선(Heung-Seon Oh),최윤정(Yoonjung Choi),장혜주(Heju Jang),맹성현(Sung-Hyon Myaeng),최성필(Sung-pil Choi),최윤수(Yunsoo Choi) 한국정보과학회 2011 한국정보과학회 학술발표논문집 Vol.38 No.1A
본 연구는 2인의 전문의와 함께 의료 문헌의 초록을 분석하여 의료문서에서의 절차적 지식을 모델링하고 텍스트 마이닝 기법을 적용하여 절차적 지식을 추출하는 방법론에 대해 기술한다. 절차적 지식은 목적과 해법의 묶음으로, 해법은 다시 단위 절차 지식의 네트워크로 정의 하였고, 목적과 해법 정보 추출과 단위, 절차 지식의 구성요소인 대상/행위/방법 개체를 인식하기 위해, 품사태깅, 구문분석, 술어-논항구조(Predicate-Argument Structure), 온톨로지 용어 매핑 정보 등에 기반한 기계학습 방법을 사용하였다. 실험을 위해 전문의와 함께 위암과 척추질환에 대한 1309 문서에 절차적 지식 태깅을 수행하였고, 이 문서 집합을 기반으로 목적/해법 추출 작업과 단위 절차 지식(대상질병/행위/적용방법) 추출 실험을 수행하여, 각각 82%와 63%의 F-measure 값을 얻을 수 있었다.
불확실성을 이용한 딥러닝 기반의 항공 이미지 객체 탐지
박주찬(Joo-Chan Park),이선훈(Seon-Hoon Lee),정준욱(Jun-Uk Jung),손성빈(Sung-Bin Son),오흥선(Heung-Seon Oh),정유철(Yuchul Jung) 제어로봇시스템학회 2020 제어·로봇·시스템학회 논문지 Vol.26 No.11
Object detection in aerial images is an important task because it is used in various applications such as land management, disaster monitoring, national security, and map production, However, owing to the characteristics of aerial images, such as high resolution, data imbalance between classes, lack of data, and densely appearing objects, it is difficult to improve the performance even with the recent deep learning-based object detection models. To overcome these challenges, this paper proposes an uncertainty-based max-margin learning method and a data augmentation method based on attribute transformation specialized for aerial images. The superiority of the proposed methods based on a deep learning-based object detection model is revealed by it winning the aerial image object detection contest 2020.
반도체 불량원인 분석을 위한 딥뉴럴네트워크 기반의 패치 이미지 병합 시스템
손성빈(Sung-Bin Son),이선훈(Seon-Hoon Lee),박주찬(Joo-Chan Park),정준욱(Jun-Uk Jung),박용준(Yong-Joon Park),오흥선(Heung-Seon Oh) 제어로봇시스템학회 2021 제어·로봇·시스템학회 논문지 Vol.27 No.8
In the integrated circuit/chip manufacturing process, failure analysis performed to find defects utilizes high-resolution chip images obtained through auto-shot scope equipment, which combines microscopy and automatic photography. However, due to the incorrect focus and the unexpected overlap size depending on the distance between the microscope and the chip, these systems are noisy. Thus, failure analysis cannot be performed effectively because the individual conduction the examination is exposed to noisy images, thereby taking a long time. We proposed a system called DeepMerge that utilizes deep learning-based learning-based features such as pint extraction and feature matching to overcome the aforementioned challenges. We will be indicating the effectiveness and efficiency of our system by obtaining practical image data from the industry.
송사광(Sa-Kwang Song),최윤수(Yun-Soo Choi),최성필(Sung-Pil Choi),오흥선(Heung-Seon Oh),맹성현(Sung-Hyon Myaeng),전홍우(Hong-Woo Chun),정창후(Chang-Hoo Jeong) 한국정보과학회 2012 정보과학회 컴퓨팅의 실제 논문지 Vol.18 No.2
본 연구는 전문의와 함께 의료 문헌의 초록을 분석하여 의료문서에서의 절차적 지식을 모델링하고 텍스트 마이닝 기법을 적용하여 절차적 지식을 추출하는 방법론에 대해 기술한다. 절차적 지식은 목적과 해법의 묶음으로, 해법은 다시 단위 절차 지식의 네트워크로 정의 하였고, 목적과 해법 문장 추출과 해당 문장에서 절차적 지식 추출을 위해, 품사태깅, 구문분석, 술어-논항 구조, 온톨로지 용어매핑 정보 등에 기반한 기계학습 방법을 사용하였다. 실험을 위해 전문의와 함께 위암과 척추질환에 대한 1309 문서에 절차적 지식 태깅을 수행하였고, 이 문서 집합을 기반으로 목적/해법 추출, 절차의 개체(대상질병/행위/적용방법)추출, 단위 절차 구성, 그리고 개체간 관계 추출 등의 실험을 수행하여, 단계 별로 62%에서 82%의 F-measure 값을 얻었다. We propose a procedural knowledge extraction on medical abstracts including procedural knowledge modeling. Procedural knowledge in medical documents consists of two main sections, purpose and solution sections. The purpose and solution section is considered as combinations of one or more unit processes which are triples of Target, Action, and Method. In order to extract procedural knowledge in those sections, we applied machine learning approaches like CRFs and SVMs, and utilized part-of-speech tagging, parsing, predicate-argument structuring, and terminology mapping information as their features. In the end, we achieved 62%-82% Fscores in the internal steps.