RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
        • 등재정보
        • 학술지명
        • 주제분류
        • 발행연도
        • 작성언어
        • 저자

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재후보

        단순명사의 통계적 언어처리를 이용한 복합명사 표현방법 연구

        이선정(Sunjeong Lee) 융복합지식학회 2017 융복합지식학회논문지 Vol.5 No.1

        본 논문에서는 대용량 음성인식 시스템의 성능향상을 위하여 최대우도추정법(Maximum likelihood Estimation)에 기반한 한국어 관심지점(POI: Point Of Interest) 복합명사 분해 알고리즘을 제안한다. 내비게이션 및 114 안내시스템에서는 백만개 이상의 POI를 사용하고 있으며 복합명사를 단순명사로 분해해서 사용되는 것이 성능향상 및 시스템 효율에 도움이 된다. 통계적 우도정보에 기반하여 복합명사를 단위명사로 분해하기 위해서는 상향식 알고리즘을 사용한다. 초기 단어명사로 1음절, 1음절+2음절, 1음절+2음절+3음절 등 세 가지 방식으로 활용하여 훈련 코퍼스에서 통계적 우도값 만을 이용해서 단위명사를 통합하는 알고리즘을 비교하였다. 실험 코퍼스를 통해 성능 비교를 한 결과 1음절+2음절 초기 단어명사를 사용하였을 경우가 다른 방법에 의한 것보다 13.1% 정도 문법 복잡도를 줄이는 성능을 얻었다. In this paper, we propose a decomposition algorithm of compound nouns based on maximum likelihood estimation in Korean POI(Point Of Interests) nouns for a speech recognition system. There are a million of POI’s in navigation system as well as 411 directory system so that compound nouns need to be decomposed into basic nouns for performance improvement and system efficiency. Bottom-up approach is used for generating basic nouns from compound nouns in the algorithm based on statistical likelihood information. Three approaches that use one syllable only, one+two syllable, one+two+three syllable, respectively, as intial basic nouns are developed to generate basic nouns for optimizing statistical likelihood value in the training text corpus and compared each other in the test corpus. One+two syllable as initial basic nouns yield the best performance that the language complexity of 13.1% can be reduced by the comparison with other approaches.

      • KCI등재

        Long Short-Term Memory에 기반한 한국어 언어모델 연구

        이선정(Sunjeong Lee) 융복합지식학회 2020 융복합지식학회논문지 Vol.8 No.1

        본고에서는 LSTM에 기반을 둔 한국어 언어모델에 관한 연구를 수행하였으며 GloVe를 사용하는 LSTM 기반 언어모델을 제안한다. 먼저 PTB 영어 코퍼스를 이용하여 전통적인 n-gram 방식의 통계적인 언어모델과 LSTM 기반의 언어모델을 비교하였고 그 결과 47.3%의 복잡도가 감소되는 효과를 얻었다. 한국어에 적용 실험을 위해서 기본 토큰 단위로 WPM (word-piece model)을 사용하였으며 통계적인 n-gram 언어모델과 LSTM 언어모델을 비교한다. 또한, LSTM 언어모델을 만들 때 GloVe를 단어 표현 벡터로 사용하는 방법을 제안하여 비교 연구도 수행하였다. 한국어 평가 코퍼스 10만 문장을 이용하여 성능 비교를 한 결과 LSTM 방식을 사용하였을 경우n-gram 방식보다 28.8%의 복잡도가 감소하였고 GloVe와 같이 사용할 경우 43.4%의 복잡도가 감소되었다. 영어와 한국어 코퍼스의 비교 실험으로 GloVe를 사용하는 LSTM 기반 언어모델의 제안이 우수하다는 것을 입증하였다. In this paper, we make a comparative study on the language model based on long short-term memory (LSTM) and propose a language model based on LSTM using GloVe as a word representation vector. For this purpose, traditional n-gram statistical language model is compared with LSTM language model using PTB English corpus. The experimental result yields that LSTM language model get the perplexity (ppl) reduction of 47.3% compared with traditional n-gram model. In order to expand this approach to Korean language, we design a language model of which basic unit is word-piece model (WPM). And we also make a comparative study of statistical language model and neural language model. Especially, we propose a LSTM language model using glove vector (GloVe) as a word representation vector. For our study, 100,000 Korean sentences are used as a test set. Our experimental result yields that LSTM language model get the reduction of 28.8% compared with n-gram language model and LSTM with GloVe get the reduction of 43.3%. In conclusion, we show that the proposed language model is good approach as a language model.

      • KCI등재

        Attention에 기반한 한국어 언어모델 연구

        이선정(Sunjeong Lee) 융복합지식학회 2020 융복합지식학회논문지 Vol.8 No.4

        본 논문에서는 어텐션(atention)에 기반을 둔 한국어 언어모델에 관한 연구를 수행하였다. 대표적인 어텐션 모델로 셀프 어텐션(self-attention)이 가능한 트랜스포머(transformer)가 있다. 트랜스포머는 인코더와 디코더로 구성이 되는데 언어모델로는 디코더를 일반적으로 사용한다. 한국어에 적용 실험을 하기 위해서 기본 토큰 단위로 센텐스피스(SentencePiece)를 사용하여 구하였다. AI-Hub 한국어 평가 코퍼스 60만 문장을 이용하여 성능 비교를 한 결과 5,000개의 센텐스피스 토큰을 사용한 것이 10,000개의 센텐스피스 토큰을 사용한 것과 비교하였을 경우 33.4%의 복잡도가 감소하였다. 또한 한국어 음성인식 실험을 통하여 복잡도 성능이 우수한 5,000개의 센텐스피스 토큰을 갖는 언어모델의 성능이 우수하다는 것을 보였다. In this paper, we make a study on the language model based on attention. The representative attention model is a transformer model, which enables a self-attention. Even though the transformer model consists of encoder and decoder, decoder is usually used for language model. We build a sentence-piece model for tokenizing. The experimental result yields that the token unit number of 5000 gets the perplexity(ppl) reduction of 33.4% compared with that of 10,000 when AI-Hub corpus (https://www.aihub.org.kr) is used in the sentence-piece model. In order to prove the performance of language model with regard to perplexity, we make an experiment of speech recognition that the model with low perplexity yields better performance than that with high perplexity.

      • KCI등재
      • KCI등재

        소셜 빅데이터를 활용한 제19대 대통령선거 TV토론의 수용자 반응 연구 연관어 분석과 감정어 분석을 중심으로

        이수범 ( Soobum Lee ),김용준 ( Yongjun Kim ),이선정 ( Sunjeong Lee ) 방송문화진흥회 2018 방송과 커뮤니케이션 Vol.19 No.2

        본 연구는 이번 19대 대통령선거 기간 동안 실시된 중앙선거방송토론위원회 주관 TV토론을 통해 트위터에서 발생한 여론을 분석하는 데 목적이 있다. 최근 각광받는 소셜 빅데이터 분석을 활용하여 진행한 연구이며, 트위터 계정을 대상으로 수집된 방대한 자료들을 ‘소셜메트릭스’를 이용하여 연관어 분석과 감정어 분석을 실시하였다. 구체적으로 중앙선거방송토론위원회가 주관한 총 3회의 TV토론일을 기준으로 각각 전일과 익일 총 18만 7,851개의 계정에서 발생한 트위터 메시지를 분석하였다. 19대 대선 TV토론과 관련한 연관어와 감정어 분석 결과, 일부 멘션에서는 ‘팩트’, ‘팩트체크’ 등 발언 및 공약의 신빙성을 검증하고자 하는 경향을 보였으나, 대부분의 경우 TV토론에서 나타난 각 후보자들의 토론 태도와 능력, 각종 발언과 더불어 후보자의 제스처와 말투 등 이미지에 주목하여 여론을 형성하는 것으로 나타났다. 즉, 본 연구를 통해 트위터 이용자들이 후보자의 정책과 공약보다 이미지나 발언에 주목하고 이에 대한 평가 혹은 감정들을 중심으로 여론이 형성되는 것을 확인할 수 있었다. 본 연구는 TV토론에 대한 트위터상의 연관어와 감정어 분석을 통해 이용자들의 반응을 실증적으로 파악하였다는 의의가 있으며 이러한 연구 결과를 중심으로 TV토론과 이를 시청하는 유권자 반응에 대한 다양한 함의를 논의하였다. The aim of this study was analyzing public opinion about televised debates during the 19th presidential election campaign. This study applied social big-data to examine a great number of tweets by using analysis of related keywords and emotion words. According to the result, audiences focused on respective candidates’ attitude toward debates, speech skills, and content of speech in the televised debates. This study also found that audiences attempted to participate in fact-checking of policy and election pledges. This result reveals that televised debates can contribute to the shaping of public opinion in the election campaign. In addition, this study suggests that it is worth to note debates’ original goals and functions during the election by revealing that audiences more focused on image or speech of candidate than policy and election pledges.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼