http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
절차적 정보검색을 위한 서비스팩 개념 도출과 기반 프레임웍 설계
정의석(Euisok Chung),임수종(Soojong Lim),왕지현(JiHyun Wang),임명은(Myung-Eun Lim),윤보현(Bo-Hyun Yun) 한국정보과학회 2001 한국정보과학회 학술발표논문집 Vol.28 No.1B
기존 인터넷 정보 검색 환경에서 사용자는 특정 목적을 달성하기 위해 비연속적이며 다단계의 정보 검색 과정을 경험해 왔다. 본 논문은 다단계로 구성된 정보 검색 과정을 절차적 정보 검색으로 규정하고 이를 위한 서비스팩(ServicePack) 개념을 정립한다. 또한 모바일 환경에서의 정보검색, 정보 검색 경험들의 축적, 공유, 개인화, 확장 및 재사용의 개념을 서비스팩 개념에 결합한다. 그리고 서비스팩 환경 구축을 위한 프레임웍을 설계하여 제시한다.
워드 임베딩과 품사 태깅을 이용한 클래스 언어모델 연구
정의석(Euisok Chung),박전규(Jeon-Gue Park) 한국정보과학회 2016 정보과학회 컴퓨팅의 실제 논문지 Vol.22 No.7
음성인식 성능 개선을 위한 언어모델의 기술적 진보는 최근 심층 신경망을 기반으로 한 접근방법으로 한 단계 더 진보한 모양새다. 그러나 연구되고 있는 심층 신경망 기반 언어모델은 대부분 음성인식 이후 리스코링 단계에서 적용할 수 있는 한계를 지닌다. 또한 대규모 어휘에 대한 심층 신경망 접근방법은 아직 시간이 필요하다고 본다. 따라서 본 논문은 심층 신경망 언어 모델의 단순화된 형태인 워드임베딩 기술을 음성인식 후처리가 아닌 기반 N-gram모델에 바로 적용할 수 있는 접근 방법을 찾는다. 클래스 언어모델이 한 접근 방법이 될 수 있는데, 본 연구에서는 워드 임베딩을 우선 구축하고, 해당 어휘별 벡터 정보를 클러스터링하여 클래스 언어모델을 구축 방법을 제시한다. 이를 기존 어휘기반 N-gram 모델에 통합한 후, 언어모델의 성능 개선 여부를 확인한다. 클래스 언어모델의 타당성 검증을 위해 다양한 클래스 개수의 언어모델 실험과 RNN LM과의 비교 결과를 검토한 후, 모든 언어모델의 성능 개선을 보장하는 품사 부착 언어모델 생성 방법을 제안한다. Recurrent neural network based language models (RNN LM) have shown improved results in language model researches. The RNN LMs are limited to post processing sessions, such as the N-best rescoring step of the wFST based speech recognition. However, it has considerable vocabulary problems that require large computing powers for the LM training. In this paper, we try to find the 1st pass N-gram model using word embedding, which is the simplified deep neural network. The class based language model (LM) can be a way to approach to this issue. We have built class based vocabulary through word embedding, by combining the class LM with word N-gram LM to evaluate the performance of LMs. In addition, we propose that part-of-speech (POS) tagging based LM shows an improvement of perplexity in all types of the LM tests.
음성워드프로세서 개발을 위한 한국어 텍스트 코퍼스 구축 및 정제 기술 : 한국어 딕테이션용 LM 개발용 워드 세그멘테이션 및 도메인 텍스트 구성
정의석(Euisok Chung),전형배(Hyung-Bae Jeon),이윤근(Yunkeun Lee) 한국HCI학회 2012 한국HCI학회 학술대회 Vol.2012 No.1
음성 워드프로세서를 위한 한국어 딕테이션 시스템 개발은 대용량 언어모델을 기반으로 구축된다. 본 논문은 해당 언어모델 구축을 위한 텍스트 코퍼스 수집 및 정제에 대한 절차 및 방법에 대하여 기술한다. 텍스트 코퍼스 수집은 일반적으로 어플리케이션 도메인에 의존하고 있으나, 음성 워드프로세서의 경우 특정 도메인이 없다는 문제점이 있다. 따라서, 기본 보유한 텍스트 코퍼스 및 관련 업체로부터 수집 그리고, 웹으로부터 크롤링을 통하여 텍스트 코퍼스를 구축하였다. 정제기술은 웹문서 노이즈 제거와 언어모델의 단어 목록을 결정하는 워드 세그멘테이션 기술 두가지로 구성된다. 웹문서 노이즈 제거의 경우 URL 및 불필요한 기호, 숫자 표현의 제거이고, 워드 세그멘테이션은 일종의 표층형태를 유지하는 형태소 분석기술이다. 특히, 웹문서의 경우 띄어쓰기 오류가 다수 포함되어 있어, 띄어쓰기 오류에 강인한 워드 세그멘테이션 기술은 필수적이다. 본 논문은 띄어쓰기 오류에 강인한 워드 세그멘테이션 기술을 제시한다. 마지막으로 워드 세그멘테이션 성능 개선과 음성인식 성능 인식의 관계에 대한 실험을 제시한다. Korean dictation system depends on the large corpus based language model, which is basic component of speech word processor. We suggest text corpus construction and refinement for building lauguage model. In general, the building of text corpus is related with the domain of application, but there is no specific domain in a speech word processor. Therefore, we used all of the corpus accessibe to us and have crawled text from web. The technique of text processing is composed of two techniques; the first is text normalization and the second is word segmentation. In the case of word segmentation, it can solve the problem of the error of segmentation in the noisy web text. Finally, we will show the result of the performance of word segmentation and speech recognition.