http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
권오욱,최승권,노윤형,김영길,박전규,이윤근,Kwon, O.W.,Choi, S.K.,Roh, Y.H.,Kim, Y.K.,Park, J.G.,Lee, Y.K. 한국전자통신연구원 2015 전자통신동향분석 Vol.30 No.4
모바일 혁명 빅데이터와 사물인터넷 시대에 접어들면서 인간의 음성과 말로 다양한 장치와 서비스를 제어하고 이용하는 것은 당연시되고 있다. 음성대화처리 기술은 인간 중심의 자유로운 발화를 인식하고 이해 및 처리하는 방향으로 발전하게 될 것이다. 본고에서는 현재 음성대화처리 기술 국내외 기술 및 산업 동향과 지식재산권 동향을 살펴보고, 인간 중심의 자유발화형 음성대화처리 기술 개념과 발전방향에 대해 기술한다.
Korean automatic spacing using pretrained transformer encoder and analysis
황태욱,정상근,노윤형 한국전자통신연구원 2021 ETRI Journal Vol.43 No.6
Automatic spacing in Korean is used to correct spacing units in a given input sentence. The demand for automatic spacing has been increasing owing to frequent incorrect spacing in recent media, such as the Internet and mobile networks. Therefore, herein, we propose a transformer encoder that reads a sentence bidirectionally and can be pretrained using an out‐of‐task corpus. Notably, our model exhibited the highest character accuracy (98.42%) among the existing automatic spacing models for Korean. We experimentally validated the effectiveness of bidirectional encoding and pretraining for automatic spacing in Korean. Moreover, we conclude that pretraining is more important than fine‐tuning and data size.
김성렬,황태욱,정상근,노윤형 한국정보과학회 2023 정보과학회논문지 Vol.50 No.3
데이터셋이 모델이나 특정 분야에 적합한지, 혹은 데이터에 오류가 어느 정도인지 판단하는 것은 매우 어렵다. 이에 본 논문은 시드만 다른 하이퍼파라미터를 통한 수차례 학습을 통해 얻은 오답 데이터들을 활용하여 해당 샘플의 학습 난이도를 점수로 나타내는 에폭 스코어(Epoch Score)를 제안한다. 이를 통해 KLUE의 Topic Classification 데이터셋을 검증하였고, 오류가 있다고 판단되는, 점수가 높은 데이터를 수정함으로써 약 0.8%의 성능 향상을 이끌어 냈다. 에폭 스코어는 자연어, 이미지 등 데이터의 종류에 상관없이 모든 지도학습 데이터에 활용할 수 있으며, 에폭 스코어의 AUC(Area Under the Curve)를 통해 모델의 성능을 유추할 수 있다.
권오욱,이기영,이요한,노윤형,조민수,황금하,임수종,최승권,김영길,Kwon, O.W.,Lee, K.Y.,Lee, Y.H.,Roh, Y.H.,Cho, M.S.,Huang, J.X.,Lim, S.J.,Choi, S.K.,Kim, Y.K. 한국전자통신연구원 2021 전자통신동향분석 Vol.36 No.1
In this study, we introduce trends in and the future of digital personal assistants. Recently, digital personal assistants have begun to handle many tasks like humans by communicating with users in human language on smart devices such as smart phones, smart speakers, and smart cars. Their capabilities range from simple voice commands and chitchat to complex tasks such as device control, reservation, ordering, and scheduling. The digital personal assistants of the future will certainly speak like a person, have a person-like personality, see, hear, and analyze situations like a person, and become more human. Dialogue processing technology that makes them more human-like has developed into an end-to-end learning model based on deep neural networks in recent years. In addition, language models pre-trained from a large corpus make dialogue processing more natural and better understood. Advances in artificial intelligence such as dialogue processing technology will enable digital personal assistants to serve with more familiar and better performance in various areas.
권오욱,홍택규,황금하,노윤형,최승권,김화연,김영길,이윤근,Kwon, O.W.,Hong, T.G.,Huang, J.X.,Roh, Y.H.,Choi, S.K.,Kim, H.Y.,Kim, Y.K.,Lee, Y.K. 한국전자통신연구원 2019 전자통신동향분석 Vol.34 No.4
In this study, we introduce trends in neural-network-based deep learning research applied to dialogue systems. Recently, end-to-end trainable goal-oriented dialogue systems using long short-term memory, sequence-to-sequence models, among others, have been studied to overcome the difficulties of domain adaptation and error recognition and recovery in traditional pipeline goal-oriented dialogue systems. In addition, some research has been conducted on applying reinforcement learning to end-to-end trainable goal-oriented dialogue systems to learn dialogue strategies that do not appear in training corpora. Recent neural network models for end-to-end trainable chit-chat systems have been improved using dialogue context as well as personal and topic information to produce a more natural human conversation. Unlike previous studies that have applied different approaches to goal-oriented dialogue systems and chit-chat systems respectively, recent studies have attempted to apply end-to-end trainable approaches based on deep neural networks in common to them. Acquiring dialogue corpora for training is now necessary. Therefore, future research will focus on easily and cheaply acquiring dialogue corpora and training with small annotated dialogue corpora and/or large raw dialogues.
PatentQ&A: 트랜스포머 모델을 이용한 신경망 검색 시스템 제안
이윤민,황태욱,정상근,서혜인,노윤형 한국정보과학회 2023 정보과학회논문지 Vol.50 No.4
Recent neural network search has enabled semantic search beyond search based on statistical methods, and finds accurate search results even with typos. This paper proposes a neural network-based patentQ&A search system that provides the closest answer to the user's question intention when a general public without patent expertise searches for patent information using general terms. A patent dataset was constructed using patent customer consultation data posted on the Korean Intellectual Property Office website. Patent-KoBERT (Triplet) and Patent-KoBERT (CrossEntropy) were fine-tuned as patent datasets were used to extract similar questions to questions entered by the user and re-rank them. As a result of the experiment, values of Mean Reciprocal Rank (MRR) and Mean Average Precision (MAP) were 0.96, confirming that answers most similar to the intention of the user input were well selected. 최근 신경망 검색은 통계적 방법에 기반한 검색을 뛰어넘어 의미에 기반한 검색을 가능하게 하며 오타가 있어도 정확한 검색 결과를 찾을 수 있게 한다. 본 논문에서는 특허에 전문 지식이 없는 일반인이 일반 용어를 사용하여 특허 정보를 검색할 경우 사용자 질문 의도에 가장 근접한 답변을 보여주는 신경망 기반 특허 Q&A 검색 시스템을 제안한다. 특허청 홈페이지에 게시된 특허고객 상담 데이터로 특허 데이터 셋을 구축하였다. 사용자가 입력한 질문에 대한 유사한 질문을 추출하고 우선순위를 다시 지정하기 위해 특허 데이터 셋으로 미세조정한 Patent-KoBERT(Triplet)과 Patent-KoBERT(CrossEntropy)를 사용하였다. 실험 결과 Mean Reciprocal Rank(MRR)과 Mean Average Precision(MAP)의 수치는 0.96으로 사용자가 입력한 질문 의도와 가장 유사한 답변을 잘 선정한다는 것을 확인할 수 있다.
도메인 특화 방법에 의한 영한 특허 자동 번역 시스템의 구축
최승권(Sung-Kwon Choi),권오욱(Oh-Woog Kwon),이기영(Ki-Young Lee),노윤형(Yoon-Hyung Roh),박상규(Sang-Kyu Park) 한국정보과학회 2007 정보과학회논문지 : 소프트웨어 및 응용 Vol.34 No.2
This paper describes an English-to-Korean automatic translation system for patent documents which is constructed by a method customizing from a general domain to a specific domain. The customizing method consists of following steps: 1) linguistically studying about characteristics of patent documents, 2) extracting unknown words from large patent documents and terminologically constructing, 3) customizing the target language words of existing terms, 4) extracting and constructing patent translation patterns peculiar to patent documents, 5) customizing existingtranslation engine modules according to linguistic study about characteristics of patent documents, 6) evaluation of automatic translation results. The English-to-Korean patent machine translation system implemented by these customization steps shows a translation accuracy of 81.03% and is improving. 본 논문은 웹과 같은 일반적인 도메인의 영한 자동 번역기를 특정 도메인으로 특화하는 방법에 의해 구축된 영한 특허 자동번역 시스템을 기술하는 것을 목표로 한다. 특정 도메인으로서의 특허 자동번역기를 위한 특화 방법은 다음과 같은 단계로 이루어진다: 1) 대용량 특허 문서의 수집 및 언어학적 특성 분석, 2) 전문용어 추출 및 대역어 구축, 3) 기보유한 용어의 대역어 특화, 4) 특허 고유의 번역 패턴추출 및 구축, 5) 언어학적 특성 분석에 따른 기보유 번역 엔진 모듈의 특화 및 개선, 6) 특화된 번역 지식 및 번역 엔진 모듈에 따른 번역률 평가. 이와 같은 특화 절차에 따른 특허 영한 자동 번역기는 특허 전문번역가의 평가에 의해 전분야 평균 81.03%의 번역률을 내었으며, 분야별로는 기계(80.54%), 전기전자(81.58%), 화학일반(79.92%), 의료위생(80.79%), 컴퓨터(82.29%)의 성능을 보였으며 계속 개선 중에 있다.