http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
장달원,이재원,이종설 한국방송∙미디어공학회 2022 방송공학회논문지 Vol.27 No.4
본 논문에서는 영상 편집이 익숙하지 않은 시니어 동영상 크리에이터를 위한 동영상 편집 시스템을 설명한다. 영상분석 기술을 이용하여 편집소스 동영상을 분석하여 각종 정보를 제공하고, 자동으로 일부 장면을 삭제한다. 사용자가 다수의 소스 콘텐츠를 입력하였을 때, RNN(Recurrent Neural Network) 기술을 기반으로 샷 단위로 분할하고, 이 중 동영상 편집에서 배제할 부분을 구분한다. 각 샷별로 중요도를 계산하여 샷 단위로 자동 삭제가 가능하도록 한다. 중요도 계산을 위해서 동영상 초점 정보를 추출하여 활용하는데, 이는 초점이 맞지 않는 영상 또는 흔들린 영상을 배제할 수 있도록 한다. 이후 시스템은 객체 인식을 수행하고, 얼굴이 나온 영상에 대해서 감정, 나이, 성별 등의 정보를 추출하여 사용자에게 제공한다. 사용자는 이런 정보를 활용하여 동영상을 제작한다. 동영상에 자막을 삽입하는 등 동영상을 꾸미기 위한 기능들도 포함되어 있으며, 이런 기능들을 활용할 시, 사용자의 과거 정보를 이용해서 선호 디자인을 쉽게 찾을 수 있도록 앞서 배치하고 있다. 시니어 동영상 크리에이터들이 본 시스템을 통해서 쉽고 빠르게 동영상 콘텐츠를 제작할 수 있다.
G.729A와 SMV 음성부호화기를 위한 파라미터 직접 변환 방식의 상호부호화 알고리듬
장달원,서성호,이선일,유창동 대한전자공학회 2003 電子工學會論文誌-SP (Signal processing) Vol.40 No.6
본 논문에서는 G.729A와 SMV 음성부호화기를 위한 새로운 파라미터 직접 변환 방식의 상호부호화 알고리듬을 제안한다. 상호부호화를 위하여 부가적인 복호화, 부호화 과정을 거쳐야하는 기존의 Tandem 방식과 달리 제안된 파라미터 직접 변환 방식에서는 양 음성부호화기가 음성을 부호화하기 위하여 공통적으로 사용하는 파라미터들이 직접 변환된다. SMV 에서 G.729A로의 트랜스코딩에서는 LSP 변환, 피치 지연 변환, 낮은 전송률에서의 트랜스코딩 등의 알고리듬을 제안하고, G.729A에서 SMV로의 트랜스코더에서는 LSP 변환, 피치 지연 변환, 전송률 결정 등의 알고리듬을 제안한다 제안된 알고리듬을 다양한 방법으로 평가해본 결과 기존의 Tandem 방식과 비교하여 계산량과 지연 시간을 줄이면서도 동등한 음질 또는 향상된 음질을 구현함을 확인할 수 있었다. In this paper, a novel transcoding algorithm for the G.729A and the Selectable Mode Vocoder(SMV) vocoders via direct parameter transformation is proposed. In contrast to the conventional tandem transcoding algorithm, the proposed algorithm converts the parameters of one coder to the other without going through the decoding and encoding processes. In transcoder from SMV to G.729A, LSP conversion algorithm, pitch delay conversion algorithm and transcoding algorithm in lower rate are proposed, and in transcoder from G.729A to SMV, LSP conversion algorithm, pitch delay conversion algorithm and rate selection algorithm are proposed. Evaluation results show that while exhibiting better computational and delay characteristics, the proposed algorithm produces equivalent or Improved speech quality to that produced by the tandem transcoding algorithm.
G.729A와 SMV 음성부호화기를 위한 파라미터 직접 변환 방식의 상호부호화 알고리듬
張達源,徐晟豪,李善一,유창동 대한전자공학회 2003 電子工學會論文誌-SP (Signal processing) Vol.40 No.11
In this paper, a novel transcoding algorithm for the G.729A and the Selectable Mode Vocoder (SMV) vocoders via direct parameter transformation is proposed. In contrast to the conventional tandem transcoding algorithm, the proposed algorithm converts the parameters of one coder to the other without going through the decoding and encoding processes. In transcoder from SMV to G.729A, LSP conversion algorithm, pitch delay conversion algorithm and transcoding algorithm in lower rate are proposed, and in transcoder from G.729A to SMV, LSP conversion algorithm, pitch delay conversion algorithm and rate selection algorithm are proposed. Evaluation results show that while exhibiting better computational and delay characteristics, the proposed algorithm produces equivalent or improved speech quality to that produced by the tandem transcoding algorithm. 본 논문에서는 G.729A와 SMV 음성부호화기를 위한 새로운 파라미터 직접 변환 방식의 상호부호화 알고리듬을 제안한다. 상호부호화를 위하여 부가적인 복호화, 부호화 과정을 거쳐야하는 기존의 Tandem 방식과 달리 제안된 파라미터 직접 변환 방식에서는 양 음성부호화기가 음성을 부호화하기 위하여 공통적으로 사용하는 파라미터들이 직접 변환된다. SMV에서 G.729A로의 트랜스코딩에서는 LSP 변환, 피치 지연 변환, 낮은 전송률에서의 트랜스코딩 등의 알고리듬을 제안하고, G.729A에서 SMV로의 트랜스코더에서는 LSP 변환, 피치 지연 변환, 전송률 결정 등의 알고리듬을 제안한다. 제안된 알고리듬을 다양한 방법으로 평가해본 결과 기존의 Tandem 방식과 비교하여 계산량과 지연 시간을 줄이면서도 동등한 음질 또는 향상된 음질을 구현함을 확인할 수 있었다.
크로마 레벨 표현, 동적 시간 왜곡, 꺾인 거리함수에 기반한 멜로디 사이의 유사도 개발
장달원(Jang, Dalwon),박성주(Sung-Ju Park),장세진(Sei-Jin Jang),이석필 (Seok-Pil Lee) 한국방송·미디어공학회 2011 한국방송공학회 학술발표대회 논문집 Vol.2011 No.7
이 논문에서는 쿼리-바이-싱잉/허밍 (Query-by-singing/humming, QbSH) 시스템 또는 커버 노래 인식 (cover song identification) 시스템에서 사용 가능한 멜로디 유사도를 제안한다. QbSH 또는 커버 노래 인식은 디지털 음악의 사용이 보편화되면서 음악 검색의 방법으로 많은 연구가 진행되어 오고 있다. 멜로디 유사도는 이런 시스템을 구현하는데 필수적인 요소이며, 두 개의 음악에서 멜로디가 추출되었다고 가정하고, 추출된 멜로디 사이의 유사한 정도를 수치로 표현한다. QbSh 시스템이나 커버 노래 인식 시스템은 멜로디 유사도에 기반하여 입력 노래와 유사한 노래를 데이터베이스에서 검색하는 작업을 수행한다. 이 논문에서 제안하는 멜로디 유사도 방식은 기존의 많이 연구되던 동적 시간 왜곡 (dynamic time warping, DTW) 방법과 크로마 표현 방법 (chroma representation)을 사용하였다. DTW방법은 비대칭적으로 사용하고 미디 노트 영역에서 표현된 멜로디 특징은 0이상 12 미만의 크로마 레벨로 표현하였다. 기존의 방법에서는 정수값을 많이 사용하였으나 이 논문에서는 실수값을 사용한다. DTW 에 사용하는 거리 함수를 기존에 사용하던 차이의 절대값 대신 꺾인 함수 형태를 사용함으로써 성능을 높였다. QbSH 시스템에서의 실험을 통해서 성능을 검증하였다. 본 논문에서는 10-12초 길이의 1000번의 쿼리(Query)에 대해서 28시간 정도의 데이터베이스에서 실험한 결과, 순위 역의 평균 (Mean reciprocal rank, MRR) 값이 0.713을 보였다.
쿼리-바이-싱잉/허밍 시스템의 매칭 엔진의 강인성 테스트
장달원(Dalwon Jang),장세진(Sei-Jin Jang),이석필(Seok-Pil Lee) 한국방송·미디어공학회 2012 한국방송공학회 학술발표대회 논문집 Vol.2012 No.7
이 논문에서는 실험을 통해서, 기존에 제안하였던 쿼리-바이-싱잉/허밍 (Query-by-singing/humming, QbSH) 시스템의 매칭 엔진의 강인성을 검증하고 그 결과를 제시한다. QbSH 시스템은 디지털 음악의 사용이 보편화되면서 음악 검색의 방법으로 많은 연구가 진행되어 오고 있다. QbSH 시스템은 입력으로부터 멜로디의 특징을 추출하는 부분과 추출된 특징을 매칭하는 부분으로 나눌 수 있는데, 매칭 단계에서 특징이 추출된 두 개의 멜로디 사이의 유사도 또는 거리를 계산하여 가장 유사한 멜로디를 데이터베이스에서 찾게 된다. 이 논문에서는 이 중, 기존에 제안하였던 매칭 엔진 부분의 강인성을 알아보기 위해서 입력으로부터 멜로디의 피치 시퀀스를 추출하는 과정을 간략히 하여 그 결과를 살펴보았다. 즉, 기존에 제안한 매칭 엔진이 특정한 피치 시퀀스 추출 과정에서만 좋은 성능을 보이는 게 아님을 실험을 통해서 살펴보았다. 실험 결과, 피치 시퀀스를 추출하는 과정이 극도로 간략해지더라도, 매칭 엔진을 좋은 성능을 보여주었다.