http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
박규봉(Park Gyu-Bong),박전규(Park Jeon-Gue),황두성(Hwang Doosung),한문성(Han Mun-Sung) 한국정보과학회 1997 한국정보과학회 학술발표논문집 Vol.24 No.2Ⅱ
널리 알려진 N-best 후보 추정 알고리즘들 중에 AT&T에서 나온 2-best 탐색 기법과 N-best 탐색 기법이 있다. 전자에는 전방향 탐색만 있고 탐색시 문법을 적용한다. 후자에는 전후방향 탐색이 모두 존재하고 문법은 후처리 과정에서 적용된다. 그러나 본 논문에서는 전방향 탐색 도중 문법을 적용하는 데 따른 잘못을 지적하고 이에 대한 대안으로 후방향 문법 적용 방안을 소개한다. 새 안은 후처리에서 문법을 고려하는 것보다 훨씬 효율적이다. 실험에 따르면 효율이 50% 정도 높아졌다.
효과적인 2차 최적화 적용을 위한 Minibatch 단위 DNN 훈련 관점에서의 CNN 구현
송화전(Song, Hwa Jeon),정호영(Jung, Ho Young),박전규(Park, Jeon Gue) 한국음성학회 2016 말소리와 음성과학 Vol.8 No.2
This paper describes some implementation schemes of CNN in view of mini-batch DNN training for efficient second order optimization. This uses same procedure updating parameters of DNN to train parameters of CNN by simply arranging an input image as a sequence of local patches, which is actually equivalent with mini-batch DNN training. Through this conversion, second order optimization providing higher performance can be simply conducted to train the parameters of CNN. In both results of image recognition on MNIST DB and syllable automatic speech recognition, our proposed scheme for CNN implementation shows better performance than one based on DNN.
Proposal of speaker change detection system considering speaker overlap
박지수,윤영선,차신,박전규,Park, Jisu,Yun, Young-Sun,Cha, Shin,Park, Jeon Gue The Acoustical Society of Korea 2021 韓國音響學會誌 Vol.40 No.5
Speaker Change Detection (SCD) refers to finding the moment when the main speaker changes from one person to the next in a speech conversation. In speaker change detection, difficulties arise due to overlapping speakers, inaccuracy in the information labeling, and data imbalance. To solve these problems, TIMIT corpus widely used in speech recognition have been concatenated artificially to obtain a sufficient amount of training data, and the detection of changing speaker has performed after identifying overlapping speakers. In this paper, we propose an speaker change detection system that considers the speaker overlapping. We evaluated and verified the performance using various approaches. As a result, a detection system similar to the X-Vector structure was proposed to remove the speaker overlapping region, while the Bi-LSTM method was selected to model the speaker change system. The experimental results show a relative performance improvement of 4.6 % and 13.8 % respectively, compared to the baseline system. Additionally, we determined that a robust speaker change detection system can be built by conducting related studies based on the experimental results, taking into consideration text and speaker information.
워드 임베딩과 품사 태깅을 이용한 클래스 언어모델 연구
정의석(Euisok Chung),박전규(Jeon-Gue Park) 한국정보과학회 2016 정보과학회 컴퓨팅의 실제 논문지 Vol.22 No.7
음성인식 성능 개선을 위한 언어모델의 기술적 진보는 최근 심층 신경망을 기반으로 한 접근방법으로 한 단계 더 진보한 모양새다. 그러나 연구되고 있는 심층 신경망 기반 언어모델은 대부분 음성인식 이후 리스코링 단계에서 적용할 수 있는 한계를 지닌다. 또한 대규모 어휘에 대한 심층 신경망 접근방법은 아직 시간이 필요하다고 본다. 따라서 본 논문은 심층 신경망 언어 모델의 단순화된 형태인 워드임베딩 기술을 음성인식 후처리가 아닌 기반 N-gram모델에 바로 적용할 수 있는 접근 방법을 찾는다. 클래스 언어모델이 한 접근 방법이 될 수 있는데, 본 연구에서는 워드 임베딩을 우선 구축하고, 해당 어휘별 벡터 정보를 클러스터링하여 클래스 언어모델을 구축 방법을 제시한다. 이를 기존 어휘기반 N-gram 모델에 통합한 후, 언어모델의 성능 개선 여부를 확인한다. 클래스 언어모델의 타당성 검증을 위해 다양한 클래스 개수의 언어모델 실험과 RNN LM과의 비교 결과를 검토한 후, 모든 언어모델의 성능 개선을 보장하는 품사 부착 언어모델 생성 방법을 제안한다. Recurrent neural network based language models (RNN LM) have shown improved results in language model researches. The RNN LMs are limited to post processing sessions, such as the N-best rescoring step of the wFST based speech recognition. However, it has considerable vocabulary problems that require large computing powers for the LM training. In this paper, we try to find the 1st pass N-gram model using word embedding, which is the simplified deep neural network. The class based language model (LM) can be a way to approach to this issue. We have built class based vocabulary through word embedding, by combining the class LM with word N-gram LM to evaluate the performance of LMs. In addition, we propose that part-of-speech (POS) tagging based LM shows an improvement of perplexity in all types of the LM tests.