RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
        • 등재정보
        • 학술지명
          펼치기
        • 주제분류
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        일본 IT정책 텍스트 분석을 위한 텍스트 전처리 및 임베딩에 관한 연구

        김민호,최상옥 정보통신정책학회 2024 정보통신정책연구 Vol.31 No.1

        본 논문은 자연어로 작성된 일본 IT전략을 분석데이터로 변환하고 텍스트 네트워크로 구축하는 방법을 연구하며, 일본 IT정책 텍스트 분석에 적합한 텍스트 전처리 방법과 단어 임베딩 알고리즘 탐색을 목적으로 한다. 본 연구는 텍스트 전처리 방법과 임베딩 알고리즘을 평가하기 위해 다중분류 성능평가를 실시하였다. 실험결과, 일본 IT정책 텍스트의 특징으로 인해, 형태소분석, 불용어제거, 단어 인코딩을 수행하지 않은 경우, 다중분류 평가지표가 낮게 나타났다. 또한, Skip-gram 알고리즘이 CBOW 알고리즘에 비해 상대적으로 높은 성능을 보였다. 형태소분석, 불용어제거, 단어 인코딩 등이 제대로 수행되지 않는다면 중심단어가 주변단어와 적절하게 상호작용되지 않고 모델이 부적절 하게 학습된다고 볼 수 있다. 실험결과를 종합하면, 일본어로 작성된 IT정책 텍스트를 대상으로 텍스트 분석을 하는 경우에는 텍스트의 언어적 특성과 일본식 한자와 히라가나⋅가타카나가 혼합된 문장(Kanji-Kana mixed sentence)으로 구성된 점 등을 고려하여 적절한 텍스트 전처리 방법과 임베딩 알고리즘을 선택하고 활용해야 함을 알 수 있다. The research focuses on constructing Japan’s IT strategy, written in natural language, through text networks and transforming it into analytical data. Additionally, it explores suitable text preprocessing and word embedding methods for text analysis in Japan’s IT strategy. In this study, We measured the Classification Evaluation Metrics on the Japan’s IT strategy after undergoing the text preprocessing process. The experimental results indicated that due to the characteristics of Japan’s IT policy texts, Classification Evaluation Metrics appeared lower when morphological analysis, stopword removal, and word encoding were not conducted. Japan’s IT strategy consists of a significant number of words composed in Japanese Kanji characters. However, when integrating policy texts spanning long periods, differences in the encoding methods of Japanese Kanji characters across texts have resulted in computers failing to recognize identical words, leading to errors. Furthermore, it was noted that without performing morphological analysis and stopword removal, the Classification Evaluation Metrics showed low performance. These outcomes are deemed to stem from the characteristics of word embedding algorithms. If morphological analysis, stopword removal, and word encoding are not properly performed, it can be considered that the given central word does not appropriately interact with surrounding words, leading to inadequate model training. Additionally, Skip-gram algorithm demonstrated relatively higher performance compared to CBOW algorithm. For Japan’s IT strategy, it is determined that Skip-gram algorithm can better discern the semantic similarity between words compared to CBOW algorithm. Consequently, this leads to higher performance in Classification Evaluation Metrics. These findings highlight the significance of selecting an appropriate word embedding algorithm based on text type. Summarizing the experimental results, when conducting text analysis on IT policy documents written in Japanese, the linguistic characteristics of the document and the fact that it is composed of Japanese Kanji-Kana mixed sentences are taken into consideration. Therefore, appropriate text preprocessing and embedding algorithms methods should be selected and utilized.

      • NAVER 뉴스 데이터 텍스트 마이닝 분석 : ‘알고리즘’키워드를 중심으로

        황재민,홍서빈,강철수 한국혁신산업학회 2024 혁신산업기술논문지 Vol.2 No.1

        본 논문는 ‘알고리즘’이라는 키워드를 중심으로 NAVER 뉴스 데이터에 텍스트 마이닝 기법을 적용한 것이다. 연구의 목적은 뉴스 데이터에서 ‘알고리즘’과 관련된 주요 트렌드와 주제를 식별하고 분석하는 것이었다. 이를 위해 데이터 수집, 전처리, 특성 벡터화, 토픽 모델링 등의 과정을 수행하였다. 데이터 수집은 NAVER API를 사용하여 ‘알고리즘’ 키워드가 포함된 뉴스 기사를 대상으로 하였다. 수집된 데이터는 텍스트 전처리를 거쳐 분석에 적합한 형태로 변환되었다. 이후 특성 벡터화를 통해 텍스트 데이터를 머신러닝 알고리즘이 처리할 수 있는 수치적 형태로 변환하였 으며, LDA와 LSA와 같은 토픽 모델링 기법을 적용하여 주요 토픽들을 추출하고 분석하였다. 분석 결과, ‘알고리즘’ 키워드는 다양한 뉴스 주제에 걸쳐 상당한 중요성을 지니고 있음이 밝혀졌다. 특히, 기술 발전, 사회적 영향, 비즈니 스 전략 등과 관련된 토픽들이 주요하게 다루어졌다. 본 연구는 알고리즘과 관련된 뉴스 콘텐츠의 트렌드와 주제를 파악하는 데 있어 텍스트 마이닝 기법의 유용성을 입증하였다. This study applies text mining techniques to NAVER News data, focusing on the keyword 'algorithm'. The aim was to identify and analyze the major trends and topics related to 'algorithm' within the news data. The process involved data collection, preprocessing, feature vectorization, and topic modeling.Data collection was performed using the NAVER API, targeting news articles that contained the keyword 'algorithm'. The collected data underwent text preprocessing to transform it into a format suitable for analysis. Subsequently, feature vectorization converted the text data into a numerical form that machine learning algorithms can process. Topic modeling techniques, such as LDA and LSA, were applied to extract and analyze the main topics.The analysis revealed that the keyword 'algorithm' holds significant importance across various news topics. Notably, topics related to technological advancements, societal impact, and business strategies were predominantly featured. This research demonstrates the effectiveness of text mining techniques in identifying and understanding trends and topics associated with algorithms in news content.

      • KCI등재

        딥러닝을 위한 텍스트 전처리에 따른단어벡터 분석의 차이 연구

        고광호 국제문화기술진흥원 2022 The Journal of the Convergence on Culture Technolo Vol.8 No.5

        언어모델(Language Model)을 구축하기 위한 딥러닝 기법인 LSTM의 경우 학습에 사용되는 말뭉치의 전처리 방식에 따라 그 결과가 달라진다. 본 연구에서는 유명한 문학작품(기형도의 시집)을 말뭉치로 사용하여 LSTM 모델을 학습시켰다. 원문을 그대로 사용하는 경우와 조사/어미 등을 삭제한 경우에 따라 상이한 단어벡터 세트를 각각 얻을 수 있다. 이러한 전처리 방식에 따른 유사도/유추 연산 결과, 단어벡터의 평면상의 위치 및 언어모델의 텍스트생성 결과를 비교분석했다. 문학작품을 말뭉치로 사용하는 경우, 전처리 방식에 따라 연산된 단어는 달라지지만, 단어들의 유사도가 높고 유추관계의 상관도가 높다는 것을 알 수 있었다. 평면상의 단어 위치 역시 달라지지만 원래의 맥락과 어긋나지 않았고, 생성된 텍스트는 원래의 분위기와 비슷하면서도 이색적인 작품으로 감상할 수 있었다. 이러한 분석을 통해 문학작품을 객관적이고 다채롭게 향유할 수 있는 수단으로 딥러닝 기법의 언어모델을 활용할 수 있다고 판단된다.

      • KCI등재

        텍스트마이닝을 위한 한국어 불용어 목록 연구

        길호현(Kil, Ho-hyun) 우리말글학회 2018 우리말 글 Vol.78 No.-

        본 연구의 목적은 텍스트마이닝 방법을 활용하여 한국어 텍스트를 분석할 때 필요한 불용어 목록을 제시하는 것이다. 텍스트마이닝의 전처리 과정에서 불용어를 제거하는 작업이 수행되는데 이를 위한 불용어 목록이 필요하기 때문이다. 이를 위해 국립국어원에서 제시하는 대규모 말뭉치에서 최다 빈도로 출현하는 형태소를 추출하였다. 그리고 이 중에서 중요한 의미를 가지는 형태소와 의미가 없는 형식 형태소를 제외하였다. 결과적으로 실질 형태소이자 자립 형태소이면서 의미적으로는 유용하지 않은 293개의 단어가 불용어 목록으로 선정되었다. 이와 같은 불용어 목록은 다양한 분야에서 한국어 텍스트를 분석할 때 유용하게 활용될 수 있을 것으로 예상된다. The purpose of this study is to present a Korean stopwords list needed to analyze Korean text using text mining method. In the preprocessing process of text mining, a task of eliminating stopwords is performed. For this purpose, we extract morphemes with the highest frequency in the large corpus suggested by the National Institute of Korean Language. The morphemes that have important meaning and the morphemes without meaning are excluded. As a result, 293 words, which are substantial morpheme, independent morpheme, and not semantically useful, were selected as an Korean stopwords list. This list is expected to be useful for analyzing Korean texts in various fields.

      • KCI등재

        마코프 체인 밀 음절 N-그램을 이용한 한국어 띄어쓰기 및 복합명사 분리

        권오욱 한국음향학회 2002 韓國音響學會誌 Vol.21 No.3

        Word segmentation errors occurring in text preprocessing often insert incorrect words into recognition vocabulary and cause poor language models for Korean large vocabulary continuous speech recognition. We propose an automatic word segmentation algorithm using Markov chains and syllable-based n-gram language models in order to correct word segmentation error in teat corpora. We assume that a sentence is generated from a Markov chain. Spaces and non-space characters are generated on self-transitions and other transitions of the Markov chain, respectively Then word segmentation of the sentence is obtained by finding the maximum likelihood path using syllable n-gram scores. In experimental results, the algorithm showed 91.58% word accuracy and 96.69% syllable accuracy for word segmentation of 254 sentence newspaper columns without any spaces. The algorithm improved the word accuracy from 91.00% to 96.27% for word segmentation correction at line breaks and yielded the decomposition accuracy of 96.22% for compound-noun decomposition. 한국어 대어휘 연속음성인식을 위한 텍스트 전처리에서 띄어쓰기 오류는 잘못된 단어를 인식 어휘에 포함시켜 언어모델의 성능을 저하시킨다. 본 논문에서는 텍스트 코퍼스의 띄어쓰기 교정을 위하여 한국어 음절 N-그램을 이용한 자동 띄어쓰기 알고리듬을 제시한다. 제시된 알고리듬에서는 주어진 입력음절열은 좌에서 우로의 천이만을 갖는 마코프 체인으로 표시되고 어떤 상태에서 같은 상태로의 천이에서 공백음절이 발생하며 다른 상태로의 천이에서는 주어진 음절이 발생한다고 가정한다. 마코프 체인에서 음절 단위 N-그램 언어모델에 의한 문장 확률이 가장 높은 경로를 찾음으로써 띄어쓰기 결과를 얻는다. 모든 공백을 삭제한 254문장으로 이루어진 신문 칼럼 말뭉치에 대하여 띄어쓰기 알고리듬을 적용한 결과 91.58%의 어절단위 정확도 및 96.69%의 음절 정확도를 나타내었다. 띄어쓰기 알고리듬을 응용한 줄바꿈에서의 공백 오류 처리에서 이 알고리듬은 91.00%에서 96.27%로 어절 정확도를 향상시켰으며, 복합명사 분리에서는 96.22%의 분리 정확도를 보였다.

      • KCI등재

        띄어쓰기 및 철자 오류 동시교정을 위한 통계적 모델

        노형종(Hyungjong Noh),차정원(Jeongwon Cha),이근배(Gary Geunbae Lee) 한국정보과학회 2007 정보과학회논문지 : 소프트웨어 및 응용 Vol.34 No.2

        본 논문에서는 띄어쓰기 오류와 철자 오류를 동시에 교정 가능한 전처리기를 제안한다. 제시된 알고리즘은 기존의 전처리기 알고리즘이 각 오류를 따로 해결하는 데에서 오는 한계를 극복하고, 기존의 noisy-channel model을 확장하여 대화체의 띄어쓰기 오류와 철자 오류를 동시에 효과적으로 교정할 수 있다. N-gram과 자소변환확률 등의 통계적 방법과 어절변환패턴 사전을 이용하여 최대한 사전을 적게 이용하면서도 효과적으로 교정 후보들을 생성할 수 있다. 실험을 통해 현재 단계에서는 만족할 만한 성능을 얻지는 못하였지만 오류 분석을 통하여 이와 같은 방법론이 실제로 효용성이 있음을 알 수 있었고 앞으로 더 많은 개선을 통해 일상적인 대화체 문장에 대해서 효과적인 전처리기로서 기능할 수 있을 것으로 기대된다. In this paper, we present a preprocessor which corrects word spacing errors and spelling correction errors simultaneously. The proposed expands noisy-channel model so that it corrects both errors in colloquial style sentences effectively, while preprocessing algorithms have limitations because they correct each error separately. Using Eojeol transition pattern dictionary and statistical data such as n-gram and Jaso transition probabilities, it minimizes the usage of dictionaries and produces the corrected candidates effectively. In experiments we did not get satisfactory results at current stage, we noticed that the proposed methodology has the utility by analyzing the errors. So we expect that the preprocessor will function as an effective error corrector for general colloquial style sentence by doing more improvements.

      • KCI우수등재

        문서 분류를 위한 신경망 모델에 적합한 텍스트 전처리와 워드 임베딩의 조합

        김영수(Yeongsu Kim),이승우(Seungwoo Lee) Korean Institute of Information Scientists and Eng 2018 정보과학회논문지 Vol.45 No.7

        Neural networks with word embedding have recently used for document classification. Researchers concentrate on designing new architecture or optimizing model parameters to increase performance. However, most recent studies have overlooked text preprocessing and word embedding, in that the description of text preprocessing used is insufficient, and a certain pretrained word embedding model is mostly used without any plausible reasons. Our paper shows that finding a suitable combination of text preprocessing and word embedding can be one of the important factors required to enhance the performance. We conducted experiments on AG’s News dataset to compare those possible combinations, and zero/random padding, and presence or absence of fine-tuning. We used pretrained word embedding models such as skip-gram, GloVe, and fastText. For diversity, we also use an average of multiple pretrained embeddings (Average), randomly initialized embedding (Random), task data-trained skip-gram (AGNews-Skip). In addition, we used three advanced neural networks for the sake of generality. Experimental results based on OOV (Out Of Vocabulary) word statistics suggest the necessity of those comparisons and a suitable combination of text preprocessing and word embedding.

      • KCI등재

        SNS텍스트의 오피니언 마이닝을 위한 언어자원 기반 감성 분석 플랫폼 연구

        유광훈 ( Yoo Gwanghoon ),남지순 ( Nam Jeesun ) 서강대학교 언어정보연구소 2017 언어와 정보 사회 Vol.32 No.-

        This study aims to introduce DecoTex, a language resource-based sentiment analysis platform, implemented for opinion mining of social media texts. DecoTex supports several functions such as the Twitter crawler, Preprocessing module, and Sentiment Analysis modules. The Sentiment Analysis modules consist of two parts: Supervised Machine Learning options requiring Sentiment- Annotated Corpora as training data and Lexicon-based algorithmic options based on Sentiment Lexica and Local Grammars. By illustrating a process of classifying positive/negative opinions on ‘China’ and ‘Japan’ in Twitter texts through DecoTex platform, this study emphasizes the importance of a computational platform for humanities researchers. We believe that it is crucial to free them from making efforts to learn programming skills for obtaining experimental results or evaluating their studies since they may focus on constructing linguistic resources that require an enormous amount of time, energy, and knowledge.

      • KCI등재

        Attention 알고리즘 기반 요약 콘텐츠 생성 방안 연구

        이소연(Soyeon Lee),최지은(Ji-Eun Choi),유선용(Sunyong Yoo) 한국디지털콘텐츠학회 2021 한국디지털콘텐츠학회논문지 Vol.22 No.9

        Recently, the ‘content summary’ market, which summarizes various contents such as news, books, movies, and TV programs to busy people, is drawing attention. Most existing content summarization techniques focused on analyzing sentences to extract statistically meaningful words. However, simply considering the syntactic features of words often misses the associations and intrinsic meanings between words. Therefore, a method for extracting key elements and making abstract summaries is needed considering the complex structure and meaning of the sentence. This study applies an attention algorithm-based deep learning model to English review and Korean newspaper article data to generate abstract summaries reflecting the core context. The model in this study successfully generated summary prediction of the English review data by interpreting the meaning of the words. In the case of korean text, although preprocessing is difficult, the results showed significant results in generating predictive summaries similar to actual summaries. The results of manual curation and surveys showed that the inferred summary content effectively generated key words and abstract concepts to summarize sentences. This study will be able to provide time reduction and convenience in the process of delivering information to modern people in the future.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼