RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 학위유형
        • 주제분류
        • 수여기관
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 지도교수
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 다단계 문자인식 방법의 연구

        김녹환 檀國大學校 大學院 1997 국내석사

        RANK : 247757

        본 논문에서는 높은 인식률을 보장하는 다단계 인식기 모델을 제안한다. 인식기에 사용된 데이타는 오프라인 필기체 숫자로 하였으며, 서로 다른 세가지 인식기를 결합하였다. 인식기의 구조는 1차 인식기에서 결정되지 못한 데이타는 2차와 3차 인식기를 거쳐서 인식하도록 하였다. 그 결과 다단계 인식기에서는 96.25%의 인식률을 보이고 있다. In this thesis a multi-stage character recognition method with high recognition rate is proposed. The proposed classifier consists of three classifiers. If the result of the first classifier does not support a class dominantly, the second and the third classifier classify the same data and the results are voted. An example is given with hand written numerals, and the result of the experiment shows the recognition rate of 96.26%.

      • RIS판독을 위한 연속음성 인식기 구현에 관한 연구

        김대섭 동신대학교 대학원 2006 국내석사

        RANK : 247741

        본 논문에서는 의료영상을 위한 연속음성 인식기를 구현하기 위해 의료영상 DB 구축, 언어모델 적용, 2-pass 알고리듬 기반의 연속음성 인식기를 연구하였다. 의료영상 DB구축에서는 의료영상을 진단하는 RIS(Radiology Information System)에서 방사선 전문의가 구술하는 진단의 내용을 의료진단 전용의 연속음성 인식엔진을 사용하여 판독의 신속 및 신뢰성을 꾀하고, 자동화를 실현하여 판독 비용을 절감하고자 한다. 언어 모델에서는 교정학습 방법을 사용하여 연속음성 인식기의 인식성능을 향상시키고 연속음성 인식기에서는 인식기의 성능개선을 위하여 1-pass, 2-pass 알고리듬을 구현하여 1-best의 unigram tree를 적용한 경우, 32.6%의 WER를 보였으며, bigram tree의 경우는 27.1%의 WER를 보였다. 이를 통해 1-pass 알고리듬에 비해서 2-pass 알고리듬을 적용하였을 때 인식 성능이 향상됨을 확인하였다. 따라서 본 논문에서 확인된 인식결과를 근거로 인식기의 성능향상과 음성판독을 위한 시나리오의 연구가 필요할 것으로 사료된다. In this paper we discuss the implementation of a continuous speech recognition system for reading images of Radiology Information System (RIS). We implemented the two-pass algorithm based speech recognition system based on RIS speech database and n-gram language model. The purpose of this paper is the automation and the cost reduction of reading RIS images. The documentation of RIS images is usually performed by human dictator. For language model we apply corrective training based language model and two-pass algorithm for the enhancement of the speech recognizer. The experimental results show that the recognition ratio is 32.6% WER (word error rate) for unigram tree and 27.1% WER for bigram. Also we verify that two-pass algorithm outperforms one-pass method. For further works we will study scenarios of our speech recognizer for applying it to the real service domain.

      • 발음 사전의 음소 집합 변환을 통하여 영어의 지역별 상이성에 대응할 수 있는 음성 인식기 연구 : 확률 기반의 인식기를 중심으로

        김위백 고려대학교 대학원 2020 국내석사

        RANK : 247740

        음성 인식은 음향 모델, 언어 모델, 발음 사전 세 가지 부분으로 구성되며, 각각이 체계화된 형식 속에서 상호작용하며 인간의 음성을 기계로 하여금 이해, 처리, 반응하도록 설계된 고도의 인공지능 시스템을 뜻한다. 이러한 음성 인식기는 이미 우리의 일상에 깊이 자리하고 있고, 그 성능도 괄목한 만한 수준이지만 문제점 역시 존재한다. 그 중 하나가 바로 지역별로 상이한 발음에 대한 대응력이 부족하다는 것이다. 인간도 자신이 사용하는 언어가 아닌 외국어를 듣거나, 혹은 같은 언어이더라도 다른 지역의 방언을 들으면 이해에 혼선이 오기 마련이다. 마찬가지의 문제점이 인공지능 음성 인식기에도 존재한다. 본 연구에서는 이러한 문제점을 해결하기 위한 효율적인 대안으로서 발음 사전의 수정을 제시한다. 그리고 이를 검증하기 위해 각 지역의 발음을 반영할 수 있도록 발음 사전의 일부를 소량 수정하고, 각 지역별로 다르게 발음되는 어절들에 대해서 음성 인식기의 성능을 평가 한다. 결과를 바탕으로 발음 사전 수정이라는 방향성을 더욱 확장해 나가야 할지 논의한다. ASR (Automatic Speech Recognition) is a highly complicated system that understands, analyses, and reacts to human speech act. This model consists of AM (Acoustic Model), LM (Language Model), and lexicon. ASR is already deeply involved in our society, and its performance is far better than good. But there is a problem where ASR system fails in processing diverse pronunciations from region to region. Humans too, have problem understanding different languages other than their respective mother tongues, or, even in a single language unit, have difficulty understanding different versions of dialects. AI (Articifial Intelligence) has exactly same type of problem in ASR. This paper proposes an efficient way to resolve this issue, which is modifying the lexicon. To prove this, the paper alters small subset of lexicon and input words which are different in pronunciation, from region to region, of ASR. Based on the results, this paper further discusses whether 'proposed lexicon changing' method should be expanded in near future.

      • 유전자 알고리듬을 이용한 필기체 인식기의 특징 선택

        김세광 서강대학교 대학원 1999 국내석사

        RANK : 247724

        효율적인 특징을 선택하는 것은 인식 성능에 직접적인 영향을 미치기 때문에 중요한 문제이다. 일반적으로 특징의 차원이 증가하면 차원 문제(curse of dimensionality)가 발생한다. 본 논문에서는 방대한 차원에서 최적의 특징 집합을 선택하는 문제에 적합한 유전자 알고리듬을 이용한 특징 선택 방법을 제안한다. SGA(Simple Genetic Algorithm)와 이의 변형된 형태를 특징 선택에 적용하여 인식률 뿐만 아니라, 인식속도를 향상시킨다. 제안한 방법이 특징의 차원을 현저히 줄이고, 인식 성능을 개선함을 실험 결과를 통하여 확인하였다. 또한, 몇가지 실험을 통하여 파라미터와 특징의 차원 변화에 따른 인식 성능의 변화에 대해서 연구하였다. Selecting effective features is an important issue because it directly affects recognition performance. In general, the curse of dimensionality is observed as the feature dimension is increased. In this thesis, a feature selection method is proposed using the genetic algorithm, which is one of the most suitable means for selecting appropriate set of features from ones with huge dimension. SGA(Simple Genetic Algorithm) and it's trans-formed methods are applied to improve the recognition speed as well as the recognition accuracy. Experimental results show that the proposed methods improve the recognition performance with significant reduction in feature dimension. Several trials also have been made to investigate how recognition performance is affected as the parameters and the feature dimension are changed.

      • PACS 판독을 위한 음성인식 인터페이스 구현

        정태웅 全南大學校 大學院 2003 국내석사

        RANK : 247707

        음성은 인간이 사용하는 가장 간단하고 효율적인 정보교환 수단이다. 이러한 음성을 컴퓨터에 응용하는 음성 인식에 대한 연구는 끊임없이 계속 되어져 왔고 현재는 이를 응용한 제품들이 나와 있다. 그러나 의료시스템에는 아직 적용이 되지 않고 있는데 가장 큰 이유는 의료 전문 용어의 발화에 대한 문제점과 이에 따른 전문 데이터베이스가 없기 때문이다. 본 논문에서는 가변어휘 기반의 의료 전문 용어에 적용한 음성인식기를 구현 및 실험하였다. 구현된 시스템은 발화된 음성신호를 끝점검출기에 입력하여 음성이 발성된 구간만을 잘라낸 후 음성에 해당하는 구간의 신호를 음성특징추출부에 입력한다. 본 연구에서는 음성특징으로서 mel-cepstrum을 사용하였다. 분석 된 음성특징 벡터의 열은 HMM (hidden Markov model) 디코더 (decoder)에 입력되어 가장 높은 확률을 보이는 단어로 인식하게 되는데, 200 단어에 해당하지 않는 단어를 발화하더라도 200 단어중 하나로 인식이 되므로 이를 거절해야 할 필요가 있다. 이를 위하여 기존에 널리 사용되는 신뢰도 중 하나를 택하여 구현하였으며 인식된 단어를 거절/승낙하여 그 결과를 상위의 모듈에 전달하게 된다. 인식실험결과는 메뉴명에 대해서는 99.2%의 인식률을 보였으며, 환자의 병명에 대해서는 85%의 인식률을 보였다. 거절기능은 메뉴에 대하여 실험하였는데, 90%의 거절성능을 보이고 있음을 확인하였다. 또한, 본 인식기를 기존의 PACS와 연동하기 위하여 간단한 시나리오를 작성하고, 작성된 시나리오에 따라 PACS를 구동하고 판독실험을 수행하였다. 실험결과에 의하면 본 인식기를 PACS에 적용하여 판독하는데 유용성을 확인할 수 있었다. 따라서 결론적으로 본 논문에서는 음성을 사용한 PACS 구동의 가능성을 보였다고 할 수 있다. 그러나 향후 외국어인 병명을 발성하는데 대한 발음사전 규칙에 대한 연구가 더 필요하겠으며, 연속음 인식기술을 이용한 판독에 대해서도 심도 있는 연구가 진행되어야했다. A human speech is the most simple and efficient method for an exchange of informations. There have recently been considerable research activities about speech recognition to apply speech to the computer. However, the speech recognition system is not yet applicated in medical systems because there is many problems about speaking of foreign language and no database of medical terms. In this thesis, we developed and experimented the variable word speech recognition interface system applicable to medical terms. The recognition process was as follows. At first, speech signal was applied to the module of end point detections. Then the feature vector extraction module calculated parameter values from the speech signal. In this thesis, we used mel-cepstrum as feature vector. And the HMM decoder module calculated the probability using the sequence of feature vectors as input. At last, the recognition results were verified by the module of confidence measure. This module calculated the confidence value of the recognized word and then determined whether that word was accepted or rejected. In our experiment, we achieved recognition accuracy of 99.2% for the menu names and 85% for the diagnostic names of patient. We experimented on rejection performance about menu, and the result showed rejection performance of 90%. We made a simple scenario in order to interface the system to the existing PACS and achieved reading experiment according to the scenario. As result of our experiments, the speech recognition system was useful in PACS reading. In conclusion, we show the possibility of PACS operation to use speech. However, It will require the further research about the rule for pronunciation dictionary to speak diseases as a foreign language and reading using continuous speech recognition.

      • 상황 인식용 Ground Truth 데이터의 자동 생성을 위한 외부 인식기 연동 API 개발

        김동현 인하대학교 대학원 2018 국내석사

        RANK : 247706

        지능형 CCTV의 이상 상황 인식용 Ground Truth(GT) 데이터의 생성을 위해 사용되는 비디오 주석 생성 시스템은 대량성, 다양성, 상세성 등의 3가지 특성을 만족해야 한다. 본 연구팀은 이전 연구에서 대량성, 다양성을 만족시키기 위한 목적으로 인터페이스 파일을 통해 외부 인식기를 연동하여 주석을 자동 생성하는 INHA-VAS를 제안하였다. 하지만 INHA-VAS는 외부 인식기 연동 시에 과도한 노력이 필요하고, 상세성을 만족시키지 못하였기 때문에 주석자의 노력을 최소화하고, 이미지 인식기를 통해 상세성을 지원하는 INHA-VAS API를 제안한다. INHA-VAS API의 효용성을 평가하는 실험을 진행한 결과 INHA-VAS API를 사용하는 것이 API를 사용하지 않는 것 보다 라인수가 약 53.92%, 총글자 수가 약 60.24% 줄어드는 것으로 보아 INHA-VAS API가 더 쉽고 편리하게 외부 인식기를 연동할 수 있음을 알 수 있다. 또한, INHA-VAS API를 활용하는 INHA-VAS의 효용성을 검증하기 위한 실험에서는 INHA-VAS가 VIPER-GT에 비해 1초당 생성한 ROI 개수가 30.35% 더 많고, 조작수가 64.75% 더 적고, INHA-VAS가 대량성, 다양성, 상세성을 만족하는 GT 데이터를 생성 가능한 것으로 보아 INHA-VAS가 상황 인식용 GT 데이터를 생성하는 데 적합한 비디오 주석 생성 시스템임을 알 수 있다. A video annotation system used to generate ground truth(GT) data for intelligent CCTV’s abnormal situation recognition should satisfy the following 3 properties; massiveness, diversity and detail. In the previous research, we proposed INHA-VAS, which automatically generates annotations by linking third-party detectors through interface files for the purpose of satisfying massiveness and diversity. However, since INHA-VAS requires excessive effort in linking with third-party detectors and does not satisfy the detail property, we propose INHA-VAS API that minimizes annotator's effort and supports the detail property through image detectors. As a result of the validation experiment of the API, if INHA-VAS API is used, the number of lines is reduced by about 53.92%, and the total number of characters is reduced by about 60.24%. Thus, the INHA-VAS API makes it easier to link third-party detectors. In an experiment to verify the utility of INHA-VAS using the proposed INHA-VAS API, INHA-VAS generates more ROI by 30.35% per second than VIPER-GT, and the number of operations is 64.75% less. Also, it is possible to generate GT data that satisfies massiveness, diversity and detail. Thus, it can be seen that INHA-VAS is a video annotation system suitable for generating GT data for event recognition

      • 음성 인식기에 잘못 발화한 음성 명령을 빠르게 수정하기 위한 후처리에 관한 연구

        박성원 연세대학교 공학대학원 2019 국내석사

        RANK : 247694

        Recently, many Speech Recognition Device have been provided with excellent speech recognition rate in noiseless environment. Depending on the user's environment, it is useful in our lives. However, even a Speech Recognition Device having a good speech recognition rate is difficult to use the Speech Recognition Device due to an utterance error in voice command of the speaker and is not used well. Therefore, we proposed Speech HCI which can quickly correct miscommunicated voice commands, and studied the design of a Post-Processor for Speech Recognition Device that enable this Speech HCI. We applied the proposed Post-Processor to existing Speech Recognition Device and compared it with existing Speech HCI. We confirmed that voice commands can be modified more quickly than the conventional method. 최근 많은 연구를 통해 무소음 환경에서는 우수한 음성 인식률을 보이고 있는 음성 인식기들이 서비스되고 있다. 사용자들의 사용환경에 따라 실생활에서 유용하게 사용되고 있다. 하지만 음성 인식률이 좋은 음성 인식기라도 화자의 음성 명령 시 발화 실수로 인하여 음성 인식기를 사용하는 것을 어려워하며 잘 사용하지 않게 된다. 그래서 잘못 발화한 음성 명령을 빠르게 수정할 수 있는 Speech HCI를 제안 하였고, 이 Speech HCI를 가능하게 해주는 음성 인식기의 후처리기를 설계하기 위한 연구를 진행하였다. 제안한 후처리기를 실제 기존 음성 인식기에 적용하여 기존 방식의 Speech HCI와 비교 실험 하여 기존 방식보다 음성 명령을 더 빠르게 수정할 수 있음을 확인하였다.

      • 병렬 파이프라인 다중 인식기를 이용한 무제약 필기체 숫자인식

        최용호 朝鮮大學校 大學院 2002 국내석사

        RANK : 247692

        Multi-Recognizer system was designed to improve the performance of the perceiving system in which resultant values from each recognizer are combined to obtain final output by combining two or more recognizer. This system is categorized into two parts: serial combination and parallel combination according to methods of arrangement of recognizer. In the serial combination, recognizer are arranged like a pipeline, in which easy patterns are Recognition at the beginning and difficult patterns are Recognition though a few steps. However, for the parallel combination, Recognizer are arranged in parallel to obtain a pattern, which is Recognition by several Recognizer. Based on the result, combinazer make a final decision. However, there are two disadvantages of two methods mentioned above: for parallel combination, little significance is given on performance of Recognizer but its performance depends on how to combine. In the serial combination, the results of the Recognizer are ignored and different results can be produced. And, performance even after combination is not much improved compared with that of a single Recognizer. Therefore, this study aims to make up for methods of combination of multi- recognizer shortcomings menthioned above. That is, we use an advantage of parallel Recognizers, using two or more resultant values, and those of Recognizers of the serial combination, considering supplements of recognizers and a point of several steps of verification. Therefore, this study tend to suggest the results of research and experiments on methods of recognize the combination of the results from three nodes of recognizers which in parallel are linked in the form of total three pipelines.

      • 2次元 스트럼 分析法을 使用한 不特定話者用 숫자음 實時間認識機 具現

        강욱진 慶北大學校 1991 국내석사

        RANK : 247675

        2차원 �스트럼은 음성의 스펙트럼 구조에 대한 시간측의 변화 정보를 특정행렬로 표현하고 있기 때문에 선형정합에 의한 실시간 음성인식이 가능하다. 본 논문에서는 불특정화자용 한국어 숫자음 인식기를 구현하고, 입력음성의 변화에 따르는 특정행렬 내에서의 feature 변동을 줄이기 위해서 �스트럼을 선택적으로 추출 후 표본화하는 방법을 제안하였으며, 제안된 방법의 성능을 확인하기 위해서 20명의 남성화자가 각 10회씩 발음한 한국어 숫자음 11개를 인식실험에 사용하였다. 실험결과 종래의 2차원 �스트럼 분석법에 의한 90.5% 인식률에 비해서 제안된 방법은 보다 높은 94.1% 인식율을 362 - 652 [ms] 에 얻었다. The 2-dimensional cepstrum is known to represent the envelope of speech spectra and the time varying properties of a speech signal. The method using the 2-dimensional cepstrum allows the use of linear matching between the feature matrices. This shows an implementation of a real time speech recognizer which is able to recognize by 2-dimensioal cepstrum. In this thesis, the method for selectively extracting cepstrum to reduce feature variation of a matrix by input speech, was proposed. To evaluate the performance of the proposed method, recognition experiments were carried out for 11 Korean digits which were pronounced by 20 male speakers every ten times respectively. In the speaker independent Korean digits recognition test, the results show that the proposed method's recognition rate 94.1% is higher than the conventional 2-dimensional cepstrum method's recognition rate 90.5% while maintaining nearly the same time 362 - 652 [ms].

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼