http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
미디어 접근편의성 향상을 위한 음향 데이터 삽입 및 색인 기술 동향
성종모,백승권,이미숙,이태진,Sung, J.,Beack, S.,Lee, M.,Lee, T. 한국전자통신연구원 2017 전자통신동향분석 Vol.32 No.3
오디오 워터마크, 음향 데이터 전송 및 오디오 핑거프린트 등으로 대표되는 음향 데이터 삽입 및 색인 기술은 최근 다양한 미디어 활용 인프라의 보급과 새로운 형태의 미디어 생태계가 등장함에 따라 중요성이 더욱 커지고 있으며, 콘텐츠 제어 및 식별을 비롯한 다양한 응용 서비스의 기반 기술로 활용될 수 있다. 본고에서는 음향 신호 기반 데이터 삽입 및 색인 기술 개발 현황과 관련 서비스 동향에 대해서 소개한다.
성종모,김형순,Sung, Jong-Mo,Kim, Hyung-Soon 한국음향학회 1997 韓國音響學會誌 Vol.16 No.5
본 논문에서는 한국어 음성 데이터베이스 구축을 위하여 자동으로 음소경계를 추출하는 자동 음성분할 및 레이블링 시스템을 구현하였다. 기존의 음성분할 및 레이블링 기술을 근간으로 본 시스템을 구현하였으며, 또한 사용자가 자동분할된 음소경계를 확인하여 그 경계를 쉽게 수정할 수 있도록 한글 모티프 환경에서 그래픽 사용자 인터페이스를 개발하였다. 개발된 시스템은 16kHz로 샘플링된 음성을 대상으로 하고 있으며, 레이블링 단위는 45개의 유사음소와 하나의 묵음으로 구성하였다. 그리고 언어학적 정보의 입력방식으로는 음소표기와 철자표기를 사용하였으며, 패턴매칭 방법으로는 hidden Markov model(HMM)을 이용하였다. 개발된 시스템의 각 음소 모델은 수작업에 의해서 음소단위로 분할한 음성학적으로 균형잡힌 445 단어 데이터베이스를 이용해서 훈련되었다. 그리고 본 시스템의 성능평가를 위해 훈련에 사용되지 않는 문장 데이터베이스에 대해서 자동 음성분할 실험을 수행하였다. 실험결과, 수작업에 의해서 분할된 음소경계위치와의 오차가 20ms 이내인 것이 74.7%였으며, 40ms이내에는 92.8%가 포함되었다. In this paper, we implement an automatic speech segmentation and labeling system which marks phone boundaries automatically for constructing the Korean speech database. We specify and implement the system based on conventional speech segmentation and labeling techniques, and also develop the graphic user interface(GUI) on Hangul $Motif^{TM}$ environment for the users to examine the automatic alignment boundaries and to refine them easily. The developed system is applied to 16kHz sampled speech, and the labeling unit is composed of 46 phoneme-like units(PLUs) and silence. The system uses both of the phonetic and orthographic transcription as input methods of linguistic information. For pattern-matching method, hidden Markov models(HMM) is employed. Each phoneme model is trained using the manually segmented 445 phonetically balanced word (PBW) database. In order to evaluate the performance of the system, we test it using another database consisting of sentence-type speech. According to our experiment, 74.7% of phoneme boundaries are within 20ms of the true boundary and 92.8% are within 40ms.
ITU-T G.711.1 및 G.722 슈퍼와이드밴드 확장 후보 코덱 알고리즘
성종모(Jongmo Sung),김현우(Hyun Woo Kim),김도영(Do Young Kim),이병선(Byung Sun Lee),고윤호(Yun-Ho Ko) 大韓電子工學會 2010 電子工學會論文誌-SP (Signal processing) Vol.47 No.5
본 논문은 ITU-T SG16 Q.10에서 표준화 진행 중인 G.711.1 및 G.722 슈퍼와이드밴드 확장 코덱의 후보 코덱 알고리즘에 대한 것으로, 제안된 후보 코덱은 기존 ITU-T 광대역 코덱 G.711.1 및 G.722와 비트스트림 호환성을 지원함과 동시에 슈퍼와이드밴드 확장 계층을 통해 50-14,000 ㎐에 해당하는 슈퍼와이드밴드 신호를 부호화한다. 본 후보 코덱 알고리즘은 기존 광대역 코덱과 비트스트림 호환성을 위한 핵심 계층 부호화 알고리즘과 선형 예측 기반 정현파 코딩을 이용한 슈퍼와이드밴드 확장 알고리즘으로 이루어져 있다. 제안된 슈퍼와이드밴드 확장 코덱은 5 ms의 프레임에서 동작하며 핵심 코덱에 따라 64, 80, 96 및 112 kbit/s로 이루어진 네 개의 슈퍼와이드밴드 비트율을 제공한다. 각 비트율에 해당하는 비트스트림들은 내장형 구조를 가지고 있어 별도의 상호부호화 과정 없이 간단한 비트스트림 절단을 통해 핵심 코덱 비트스트림으로 변환할 수 있다. 제안된 코덱 알고리즘은 짧은 알고리즘 지연과 낮은 복잡도를 가지며, ITU-T에서 실시된 G.711.1/G.722 슈퍼와이드밴드 확장 코덱 자격 시험을 통과하였다. In this paper we proposed a candidate algorithm on G.711.1 and G.722 superwideband extension codec which is under standardization by ITU-T. The proposed codec not only provides an interoperable bitstream with ITU-T G.711.1 and G.722, but also encodes a superwideband signal with a bandwidth of 50-14,000 Hz using superwideband extension layer. The candidate codec consists of a core layer to provide an interoperability with conventional wideband codecs and superwideband extension layer using linear prediction-based sinusoidal coding. The proposed extension codec operates on 5ms frame and provides four superwideband bitrates of 64, 80, 96, and 112 kbit/s depending on the core codec. Since the resulting bitstream has an embedded structure, it can be converted into core bitstream by simple truncation without transcoding. The proposed codec has a short algorithmic delay and low complexity and passed the qualification test of G.711.1 and G.722 superwideband extension codec performed by ITU-T.
김도영,성종모,이미숙,배현주,이병선,Kim, D.Y.,Sung, J.M.,Lee, M.S.,Bae, H.J.,Lee, B.S. 한국전자통신연구원 2009 전자통신동향분석 Vol.24 No.5
본 논문에서는 통신과 방송서비스가 하나의 기기 또는 단말장치 안에서 결합되고 단말 내부에서는 디바이스의 통합에 따라 코덱의 개수를 최소화하기 위한 음성기반 오디오 융합코덱의 기술동향에 대해 기술한다. 하지만 기술적으로 완전히 태생이 다른 음성과 오디오 코덱을 진정한 의미에서 융합할 수 있는 기술적 모델과 기법은 아직 개발되지 않고 있다. 본 고에서는 이러한 시도의 일환으로 ITU-T SGl6을 중심으로 진행되고 있는 음성기반 코덱을 점진적 대역폭 확장 기술을 사용하여 광대역 음성, 슈퍼와이드 밴드 및 향후 오디오 대역까지 커버할 수 있는 임베디드 가변비트율 코덱기술을 중심으로 기술동향의 분석을 시도한다.