RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 원문제공처
          펼치기
        • 등재정보
          펼치기
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI우수등재

        텍스트 마이닝을 적용한 교육연구 동향 분석

        진성희(Sung-Hee Jin),김혜경(Hyekyung Kim) 한국교육학회 2022 敎育學硏究 Vol.60 No.4

        연구의 목적은 텍스트 마이닝을 적용한 다양한 교육연구들의 동향을 분석함으로써 교육연구에 텍스트 마이닝 기법을 적용한 목적, 분석대상, 분석방법, 활용 SW에 대해 탐색하는 것이다. 연구동향을 탐색하기 위한 방법으로 텍스트 마이닝 기법과 체계적 문헌고찰 방법을 적용하였다. 텍스트 마이닝 기법을 적용하기 위한 문헌은 지난 10년간 국내 학술지에 게재된 KCI 등재(후보) 논문(2012년~2021년)의 키워드 중 “텍스트 마이닝” 또는 “토픽 모델링”을 포함하면서 초록에 “교육” 또는 “학습”을 포함한 논문 215편이다. 텍스트 마이닝 기법에 의한 토픽모델링 결과, 주요 토픽으로 연구동향(42.8%), 교육과정 및 교육자료 분석(14.4%), 교육요구와 인식분석(14%), 교육정책 및 이슈분석(12.6%), 효과인식과 효과평가(11.6%), 개념 및 의미 탐색 (3.3%), 교육경험 이해(1.3%)가 도출되었다. 2015년부터 2021년까지를 3주기로 구분하여 연구 트렌드를 분석한 결과, 연구주제가 시간이 갈수록 다양해지고 분석대상도 표준화된 논문, 보고서, 교육과정을 분석하는 연구에서 점차 구체적인 교육맥락에서 요구와 인식을 분석하는 연구로 발전해 가고 있다. 텍스트 마이닝 기법 분석 대상의 논문 중 토픽할당 확률이 높으면서 분석기준에 대한 구체적인 내용을 포함하고 있는 24편의 논문을 대상으로 체계적 문헌고찰 연구를 수행하였다. 교육연구에서 텍스트 마이닝을 적용한 목적은 내용분석 (63%), 사고탐색(17%), 성과요인탐색(17%), 경험탐색(5%)로 확인되었다. 분석대상은 연구참여자가 작성한 텍스트(34%), 논문이나 보고서(30%), 교육과정 또는 교과서(13%), 뉴스기사나 보도자료(13%) 등으로 나타났다. 분석방법으로는 키워드 빈도 분석(63%)이 가장 많이 활용되었고 그 다음으로 토픽모델링(46%), 의미 연결망 분석(46%), 워드클라우드 분석(34%) 등으로 나타났고 활용 SW로는 R(67%), NetMiner(21%), UCINET(17%) Python(9%), TEXTOM(9%)으로 나타났다. 연구결과, 텍스트 마이닝을 적용한 교육연구의 동향을 심층적으로 분석함으로써, 향후 다양한 교육연구주제에서 텍스트 마이닝을 연구방법론으로 적용할 수 있음을 시사하였다. The purpose of this study was to explore the characteristics of educational research applying text mining techniques by analyzing the research trends. Text mining techniques and systematic literature review methods were applied. The literature to which text mining techniques was applied was 215 KCI-listed (and KCI candidate) journal papers published in domestic journals in 2012-2021. As a result of applying the text mining technique, the following research topics were derived: research trends (42.8%), curriculum and educational materials analysis (14.4%), educational needs and perception analysis (14%), educational policy and issue analysis (12.6%), effect recognition and evaluation (11.6%), concept and meaning exploration (3.3%), and understanding of educational experiences (1.3%). As a result of analyzing research trends, it was found that research topics have become more diverse over time, and research that analyzes standardized papers, reports, and curricula is gradually evolving into research that analyzes needs and perceptions in specific educational contexts. A systematic literature review study was conducted on 24 papers with a high probability of topic allocation and containing specific contents of the analysis criteria. In educational research, the purpose for applying text mining was identified as content analysis (63%), exploring thinking (17%), exploring performance factors (17%), and exploring experience (5%). The data sources were texts written by participants (34%), papers or reports (30%), curriculum or textbooks (13%), and news articles or press releases (13%). Keyword frequency analysis (63%) was used the most, followed by topic modeling (46%), semantic network analysis (46%), and word cloud analysis (34%). The software utilized was R (67%), NetMiner (21%), UCINET (17%), Python (9%), and TEXTOM (9%). This study suggests that text mining can be applied as a research methodology for various educational research topics in the future.

      • 기후환경 이슈 분석을 위한 텍스트 마이닝 활용방안 연구

        진대용 ( Daeyong Jin Et Al. ),강성원,최희선,한국진,김도연 한국환경정책평가연구원 2018 기후환경정책연구 Vol.2018 No.-

        본 연구는 환경 텍스트 데이터를 활용하여 주요 기후환경 이슈를 분석하기 위한 텍스트 마이닝 방법론의 활용방안을 탐색하였다. 환경 이슈를 분석하기 위해 활용할 수 있는 환경 텍스트들을 파악하고 각 텍스트에 대해 텍스트 마이닝 또는 빅데이터 분석 방법론을 활용하여 어떤 결과를 도출할 수 있는지 파악 및 점검하였다.먼저 텍스트 마이닝의 개념을 정의하고 환경(정책)연구에서 텍스트 마이닝 기법들의 활용 현황을 파악하였다. 텍스트 마이닝은 텍스트 데이터로부터 의미 있는 정보를 추출하는 과정이 다. ICT의 발전과 비정형 텍스트 분석을 위한 다양한 텍스트 마이닝 방법론이 등장함에 따라 대용량의 텍스트 데이터들로부터 과거의 주요 이슈를 파악하고 이들의 동향을 분석하여 미래 주요 이슈들의 동향에 대한 예측하는 연구가 다양한 분야에서 수행되고 있고 의미 있는 결과를 도출하고 있다. 환경(정책)연구에서도 텍스트 마이닝을 활용하여 연구 결과를 도출하고 있다. 하지만 다양한 분석을 통해 여러 관점에서 결과를 도출하는 과정의 중요성보다 결과 분석 및 해석에 초점이 맞춰져 있고, 연구를 수행하는 과정에 활용된 데이터나 소스코드 등은 다시 활용되지 않아 데이터 분석 연구의 장점을 충분히 발휘하지 못한 부분이 있다. 본 연구에서는 텍스트 마이닝의 강점인 데이터 분석의 자동화와 지속적인 활용성 측면을 극대화하기 위해 노력을 하였다. 본 연구에서는 이 목표를 달성하기 위해 다양한 환경 텍스트 데이터 수집 및 분석 기능을 포함시킨 환경 텍스트 분석 프레임워크를 구축하였으며, 모든 소스코드를 공개하고 데이터 분석에 익숙하지 않은 사용자를 위해 주요 기능을 웹 서비스 형태로 구현하였다.다음으로는 구축된 환경 텍스트 분석 프레임워크를 활용하여 환경 텍스트 데이터의 수집 및 분석을 수행하였다. 먼저 네이버 환경뉴스, 환경부 보도자료, 환경부 e-환경뉴스, 환경백서 데이터를 수집하는 알고리즘을 구축하고 주기적으로 크롤링을 수행하여 데이터 서버에 저장하도록 하였다. 또한 이를 바로 데이터 분석에 활용하여 최신 데이터를 분석할 수 있도록 하였다.본 연구에서는 기후환경 이슈에 대한 분석을 집중적으로 수행하였는데, 각 텍스트 데이터를 분석하여 개별 결과를 도출하였다. 환경 전체 분야를 보았을 때 ‘미세먼지’, ‘폭염’, ‘친환경’, 등의 키워드가 상대적으로 증가세를 보이고 있었으며, ‘기후변화’ 키워드의 경우에는 전체적으로 줄어드는 경향을 보이고 있었다. 이는 ‘기후변화’라는 키워드보다는 ‘기후변화’ 중 재난/재 해(폭염, 한파 등)와 같은 세부현상메 대한 기사가 많아졌고, ‘기후변화’ 키워드를 포함하지 않는 문서가 많아진 것에 기인한 것으로 판단된다. 세부적으로 네이버 환경뉴스의 경우 전반적으로 기후변화에 관련 정보 및 피해(폭염, 한파, 홍수 등)에 관련된 이슈들을 많이 포함하고 있어 전반적인 기후환경 이슈 분석에 유용함을 확인할 수 있었다. 네이버 환경뉴스에서 ‘기후 변화’의 근본적인 내용인 지구온난화현상이나 온실가스 감축 등과 같은 내용이 시간이 지날수록 줄어들고 최근에는 ‘폭염’, ‘가뭄’, ‘한파’ 등과 같은 세부현상들의 키워드를 포함하는 문서가 상대적으로 많아지는 추세를 보이고 있었다. 환경부 보도자료 및 e-환경뉴스에서는 기후변화 세부현상(폭염, 한파, 폭설 등) 하나하나에 대해 거의 다루고 있지 않았으며, ‘기후변화’라는 큰 틀에서 정책 논의나 앞으로의 방향에 대한 내용들을 포함하고 있어서 기후변화에 있어 근본적인 내용에 대한 이슈 및 흐름을 파악할 수 있는 장점이 있었다. 환경백서의 경우 키워드의 수는 많지 않았지만 ‘미세먼지’, ‘폭염’ 등 최신 주요 키워드들이 뚜렷하게 나타나고 있고, 다른 문서들과 달리 기후변화 키워드는 계속 증가하는 추세를 보이고 있어 실제 기후변화 문제 해결을 위한 많은 정책 논의가 있는 것으로 보인다.본 연구에서 활용한 LDA, Word2Vec 문장단위 키워드 분석, 문서단위 키워드 분석, 키워드 네트워크 분석, 문서 요약 등의 방법론은 앞으로 다양한 환경 텍스트에 포함된 이슈 발굴 및 분석에 유용하게 활용될 것으로 보인다. 또한 구축된 환경 텍스트 분석 프레임워크 및 웹 서비스를 활용할 수 있는 방안을 기술하였고, 연구 결과를 분석하여 도출된 결과를 활용한 환경 정책 사례를 제시하였다.본 연구의 결과물은 향후 환경 정책연구자들이 관련 정책을 수립할 때 데이터에 기반한 근거로 활용할 수 있으며, 앞으로 보다 다양한 텍스트 분석을 통해 민간, 언론, 환경연구자, 정책 공급자 등 다양한 관점을 고려한 정책 수립에 기여할 것으로 기대한다. In this study, we look at the application of text mining methodology to analyze major climatic environmental issues using environmental text data. We investigate environmental texts that can be used to analyze environmental issues and for each text, we understand and check what results could be derived.First, we define the concept of text mining and understand the usage of it in environment (policy) research. Text mining is the process of extracting meaningful information from text data. With the advance of ICT technology and various text mining methodologies for unstructured text analysis, research to identify trends in major issues from large-scale text data and to analyze trends in order to predict trends in future major issues is being conducted across various fields and has meaningful results. However, the focus is on the results analysis and interpretation rather than on the importance of the process of deriving the results from various perspectives through various analyses. Data and source code used in the process of research are not reused, so some of the advantages of data analysis is not fully demonstrated. In this study, we tried to maximize the automation and continuous utilization of data analysis, which is the strength of text mining. In this study, we constructed an environment text analysis framework that includes various environmental text data collection and analysis functions for all users who are unfamiliar with data analysis. We have released all the source code and implemented the key functions as a web service so that users who are not familiar with data analysis can use it.Next, we collected and analyzed environmental text data using the built environment text analysis framework. We constructed an algorithm to collect data from Naver environment news,Ministry of Environment press releases, Ministry of Environment e-environment news, environmental white papers and periodicals. Its crawls the data and stores it on the data server. In addition,the data is used to enable analysis of the latest data.Next, we constructed algorithms for analyzing the environmental text data, and results of the analysis were derived from this. As a result, keywords such as 'fine dust’,'heat waves’, and ’environmentally friendly1 had relatively increased, while the keyword 'climate change' showed a tendency to decrease overall. This seems to be due to a lot of articles about the detailed phenomena of ’climate change1 such as 'heat waves’,and ’cold waves' rather than the keyword 'climate change’. In detail, Naver’s environmental news includes a lot of issues related to climate change information and detailed phenomena (heat, cold wave, flood, etc.), and is useful for analyzing overall climate environment issues. The content for ’global climate change’,such as the phenomenon of global wanning and greenhouse gas reduction, has decreased over time. On Naver environmental news,the fundamental content for climate change, such as global warming and greenhouse gas reductions, declined over time and in recent years, there have been a relatively large number of documents containing keywords related to detailed phenomena such as 'heat waves’, ’drought’ and ’cold waves’. The Ministry of Environment’s press release and the Ministry of Environment e-environment news did not cover every detail of climate change phenomenon (heat,cold waves, heavy snow, etc.). It includes policy discussions and the future direction on the major trend of climate change, so it has an advantage in understanding the issues and flow of fundamental content in climate change. In the case of environmental white papers, the frequency of keywords is not high, but the latest important keywords such as ’fine dust’ and 'heat waves’ are showing an increasing trend. Unlike other documents, the keyword of ‘climate change9 is also continuously increasing. There appears to be a lot of policy discussion on climate change issues in the environmental white papers.Methodologies utilized in this study such as LDA, Word2Vec, sentence-based keyword analysis, document-based keyword analysis, keyword network analysis, and document summarization can be used to identify and analyze various climate issues in the future. In addition, we described how to utilize the built environment text analysis framework and web service, and presented environmental policy examples using the results of the analysis.Based on this research, environmental policy researchers are expected to be able to establish policies based on data, and contribute to the establishment of policies that take into account various perspectives such as private citizens, the media, environmental researchers, and policy providers through various text analyses.

      • 오피니언 분류의 감성사전 활용 효과에 대한 연구

        김승우,김남규 한국지능정보시스템학회 2013 한국지능정보시스템학회 학술대회논문집 Vol.2013 No.11

        텍스트 마이닝과 오피니언 마이닝은 모두 텍스트 데이터를 입력 데이터로 사용할 뿐 아니라 파싱, 필터링 등 자연어 처리 기술을 사용한다는 측면에서 많은 공통점을 갖고 있다. 특히 문서의 분류 및 예측에 있어서 목적 변수가 긍정 또는 부정의 감성을 나타내는 경우에는, 전통적 텍스트 마이닝, 또는 감성사전 기반의 오피니언 마이닝의 두 가지 방법론에 의해 오피니언 분류를 수행할 수 있다. 따라서 텍스트 마이닝과 오피니언 마이닝의 특징을 구분하는 가장 명확한 기준은 입력 데이터의 형태, 분석의 목적, 분석의 결과물이 아닌 감성사전의 사용 여부라고 할 수 있다. 따라서 본 연구에서는 오피니언 분류라는 동일한 목적에 대해 텍스트 마이닝과 오피니언 마이닝을 각각 사용하여 예측 모델을 수립하는 과정을 비교하고, 결과로 도출된 모델의 예측 정확도를 비교하였다. 오피니언 분류 실험을 위해 영화 리뷰 2,000건에 대한 실험을 수행하였으며, 실험 결과 오피니언 마이닝을 통해 수립된 모델이 텍스트 마이닝 모델에 비해 전체 구간의 예측 정확도 평균이 높게 나타나고, 예측의 확실성이 강한 문서일수록 예측 정확성이 높게 나타나는 일관적인 성향을 나타내는 등 더욱 바람직한 특성을 보였다.

      • KCI등재

        텍스트 및 데이터 마이닝을 목적으로 하는 타인의 저작물의 수집·이용과 저작재산권의 제한 - 인공지능의 빅데이터 활용을 중심으로 -

        박성호 대한변호사협회 2020 人權과 正義 : 大韓辯護士協會誌 Vol.- No.494

        텍스트 및 데이터 마이닝을 목적으로 타인의 저작물을 수집하여 이용할 때 저작권자들로부터 개별적으로 허락을 받는 것은 어려운 일이다. 그래서 텍스트 및 데이터 마이닝 관해서 저작권 침해가 발생하지 않도록 저작권 제한 규정에 해당하는지 여부를 해석하는 것이 중요하다. 독일, 영국, 일본 저작권법과 달리 한국 저작권법에는 텍스트 및 데이터 마이닝에 관한 특별한 저작권 제한 규정이 없다. 미국 저작권법에도 텍스트 및 데이터 마이닝에 관한 특별한 저작권 제한 규정이 없지만 미국은 저작권법 제107조 ‘공정이용’ 규정을 적용하여 텍스트 및 데이터 마이닝 문제를 해결하고 있다. 한국 저작권법 제35조의5 ‘저작물의 공정한 이용’에 관한 규정은 미국 저작권법 제107조 ‘공정이용’ 규정의 영향을 받아 이루어진 입법이다. 이러한 입법 배경을 고려할 때, 미국 법원이 구글 북스 사건과 같은 정보검색서비스 사건 등에서 공정이용 규정을 적용하여 저작권 침해를 부정한 판결들은 텍스트 및 데이터 마이닝과 관련하여 한국 저작권법 제35조의5를 해석하는데 하나의 지침이 될 수 있을 것이다. 우리는 이러한 미국 판결들을 분석하고 유형화함으로써 우리에게 유용한 해석 지침으로 삼을 수 있을 것이다. 이렇게 함으로써 우리는 텍스트 및 데이터 마이닝에 관하여 제35조의5를 해석하여 적용할 때에 그 예측 가능성을 높일 수 있을 것이다. It is difficult to obtain individual permission from copyright holders when collecting and using other people's copyrighted works for the purpose of Text and Data Mining(hereinafter, TDM). Therefore, it is important to interpret whether or not it falls under the copyright limitation regulations so that copyright infringement does not occur regarding TDM. Unlike German, UK and Japanese Copyright Acts, there are no special copyright limitations on TDM in Korean Copyright Act. Although the US Copyright Act does not have any special copyright limitations on TDM, the US is solving the TDM problem by applying the “fair use” regulation of Article 107 of the Copyright Act. Article 35-5 of the Korean Copyright Act “fair use of works” was created under the influence of Article 107 “fair use” of the US Copyright Act. Considering this legislative background, the rulings that the US courts denied copyright infringement by applying fair use regulations in search engine service cases such as the Google Books case will serve as a guideline for interpreting Article 35-5 of the Korean Copyright Act in relation to TDM. We can create guidelines that are useful to us by analyzing and typifying these US judgments. In this way, we will be able to increase the predictability of the TDM in the interpretation and application of Article 35-5.

      • KCI등재

        데이터마이닝 면책 입법 방향에 대한 의문

        홍승기 한국경영법률학회 2022 經營法律 Vol.32 No.4

        The Korean Government is planning to allow data mining for commercial purposes by enacting an additional clause in the Copyright Act. Its necessity is questionable in that Korea has “fair use” as a general limitation clause(Article 35-5) since 2011. If commercial purposes data mining is inevitable, it can be resolved under the control of four fairness factors with the existing “fair use” clause which was adopted with the Korea/US FTA. Even before the legislation of "fair use" in 2011, Korean Courts have referred to the four fairness factors of Article 107 of the U.S. Copyright Act as an analysis tool in the application of Article 28, a pseudo general limitation clause at that time. This experience of the Courts regarding 'fair use' doctrine is by no means negligible. It is also worth noting the Australian government's attitude to introduce ‘fair use’ doctrine. The Australian ALRC analyzed that 'fair use' suggests more clear and predictable standard compared to diverse 'fair dealings' of the Australian copyright act. In Germany, data mining for non-profit academic purposes only was allowed, France limited the sphere to scientific publications from legitimate sources, so it was intended to allow only text mining. Commercial purposes data mining seems to be allowable under the European Union Digital Single Market Directive, however right holders have the right to opt-out for commercial data mining(Art. 4). The opt-out scheme may leave commercial purposes data mining at the mercy of the content owners, making EU data mining operators inferior to the U.S. competitors. The fact that U.K, recently drew a line against commercial data mining is also noticeable. Comparatively and from our experience, the 'fair use' of the Korean Copyright Act itself could function as a useful scheme in dealing with data mining, commercial purpose inclusive though which is undesirable. In this situation, additional enactment the Government is pursuing currently might result in legislative excess. 국회에 상정된 저작권법 전면 개정안에서는 상업적 목적 데이터마이닝까지 허용하였다. 우리 저작권법이 일반규정으로서의 공정이용(제35조의 5)을 이미 입법하고 있다는 점에서 그 타당성은 의문이다. 상업적 이익의 데이터마이닝이 부득이 필요하다면 기존 ‘공정이용’ 규정으로 - 4가지 공정성 항목(fairness factors)의 통제 하에 - 해결 할 수 있다. 우리 법원은 2011년 ‘공정이용’을 입법하기 훨씬 이전부터 ‘공표된 저작물의 인용(제28조)’의 적용에 있어 미국 저작권법 제107조의 4개 항목을 분석도구로 적잖이 활용하여 왔다. 법원이 분석도구로서 미국법의 ‘fair use’ 규정을 활용한 경험이 결코 무시할만한 수준이 아닌 것이다. 최근 ‘fair use’ 도입을 시도하는 호주 정부의 입장도 참고할 만하다. 호주 입법위원회(ALRC)는 ‘fair use’가 그 자체로서 호주 저작권법의 한정적 열거규정인 ‘fair dealing’과 비교할 때 명확하고 예측가능하다고 분석하였다. ‘fair use’의 4가지 공정성 항목, 호주의 판례나 관련국가의 판례, 업계의 관행, 직업규약(code of practice)을 고려하면 이용자와 권리자가 예상할 만한 기준이 도출된다는 것이다. 독일에서는 비영리학술목적의 데이터마이닝을 허용하면서 보상의무까지 규정하였고, 프랑스는 그 대상을 합법적 출처의 과학출판물로 제한하고 있으므로 텍스트마이닝만을 허용하는 취지였다. 유럽연합 디지털 단일시장 지침의 데이터마이닝 규정은 상업적 목적 데이터마이닝에 opt-out이 가능하도록 하였다. 실제로 opt-out 제도는 상업적 목적 데이터마이닝을 권리자의 처분에 맡기는 결과가 되고, 결과적으로 상업적 목적 데이터마이닝까지도 ‘fair use’로 허용할 여지가 있는 미국에 비하여 유럽의 데이터마이닝 사업자를 배려하지 않는다는 비판까지도 받는다. 유럽연합에서 이탈한 영국이 최근 창작자들의 반발을 의식하여 상업적 목적 데이터마이닝에 대하여 일정한 선을 그었다는 사실은 시사하는 바가 크다. 비교법적으로 보나 우리 법원의 경험으로 보나 저작권법의 ‘공정이용’ 규정은 그 자체로 데이터마이닝을 처리하는데 무리가 없는 규정이다. 저작권법 전면개정안의 데이터마이닝 규정은 과잉입법이라고 지적한다.

      • KCI우수등재

        위키피디어 기반 개념 공간을 가지는 시멘틱 텍스트 모델

        김한준(Han-Joon Kim),장재영(Jae-Young Chang) 한국전자거래학회 2014 한국전자거래학회지 Vol.19 No.3

        텍스트마이닝 연구의 기본적인 난제는 기존 텍스트 표현모델이 자연어 문장으로 기술된 텍스트 데이터로부터 의미 또는 개념 정보를 표현하지 않는데 기인한다. 기존 텍스트 표현모델인 벡터공간 모델(vector space model), 불리언 모델(Boolean model), 통계 모델(statistical model), 텐서공간 모델(tensor space model) 등은 ‘Bag-of-Words’ 방식에 바탕을 두고 있다. 이러한 텍스트 모델들은 텍스트에 포함된 단어와 그것의 출현 횟수만으로 텍스트를 표현하므로, 단어의 함축 의미, 단어의 순서 및 텍스트의 구조를 전혀 표현하지 못한다. 대부분의 텍스트마이닝 기술은 대상 문서를 ‘Bag-of-Words’ 방식의 텍스트 모델로 표현함을 전제로 하여 발전하여 왔다. 하지만 오늘날 빅데이터 시대를 맞이하여 방대한 규모의 텍스트 데이터를 보다 정밀하게 분석할 수 있는 새로운 패러다임의 표현모델을 요구하고 있다. 본 논문에서 제안하는 텍스트 표현모델은 개념공간을 문서 및 단어와 동등한 매핑 공간으로 상정하여, 그 세 가지 공간에 대한 연관 관계를 모두 표현한다. 개념공간의 구성을 위해서 위키피디어 데이터를 활용하며, 하나의 개념은 하나의 위키피디어 페이지로부터 정의된다. 결과적으로 주어진 텍스트 문서집합을 의미적으로 해석이 가능한 3차 텐서(3-order tensor)로 표현하게 되며, 따라서 제안모델을 텍스트 큐보이드 모델이라 명명한다. 20Newsgroup 문서집합을 사용하여 문서 및 개념수준의 클러스터링 정확도를 평가함으로써, 제안 모델이 ‘Bag-of-Word’ 방식의 대표적 모델인 벡터공간 모델에 비해 우수함을 보인다. Current text mining techniques suffer from the problem that the conventional text representation models cannot express the semantic or conceptual information for the textual documents written with natural languages. The conventional text models represent the textual documents as bag of words, which include vector space model, Boolean model, statistical model, and tensor space model. These models express documents only with the term literals for indexing and the frequency-based weights for their corresponding terms; that is, they ignore semantical information, sequential order information, and structural information of terms. Most of the text mining techniques have been developed assuming that the given documents are represented as ‘bag-of-words’ based text models. However, currently, confronting the big data era, a new paradigm of text representation model is required which can analyse huge amounts of textual documents more precisely. Our text model regards the ‘concept’ as an independent space equated with the ‘term’ and ‘document’ spaces used in the vector space model, and it expresses the relatedness among the three spaces. To develop the concept space, we use Wikipedia data, each of which defines a single concept. Consequently, a document collection is represented as a 3-order tensor with semantic information, and then the proposed model is called text cuboid model in our paper. Through experiments using the popular 20NewsGroup document corpus, we prove the superiority of the proposed text model in terms of document clustering and concept clustering.

      • KCI등재

        텍스트 분석이 회계 및 재무 분야 연구에 미치는 영향

        나형종 ( Na Hyung Jong ) 경남대학교 산업경영연구소 2021 지역산업연구 Vol.44 No.2

        본 연구는 텍스트 분석이 회계 및 재무 분야 연구에 미치는 영향을 조사한다. 본 논문에서는 텍스트 분석의 유용성과 기능성을 소개하고, 텍스트 분석 방법을 사용하는 방법을 자세히 설명한다. 또한 본 논문에서는 회계 및 재무에 유용할 수 있는 텍스트 자료와 주제에 대해서도 논의한다. 특히 회계 및 재무 연구자는 텍스트 분석의 잠재력을 인지하고 이 기술을 연구에 적용하는 것이 중요하다고 강조한다. 텍스트 분석을 활용하면, 웹 상의 텍스트와 같은 개방형 비정형 데이터를 데이터 소스로 활용할 수 있기 때문에 데이터 선택 범위가 광범위하게 확장된다. 즉, 텍스트 분석 기법이 회계 및 재무 분야의 연구영역을 확장시킬 수 있을 것으로 기대하고 있다. 텍스트 분석 기술을 회계와 재무 분야 연구에서 활용하기 위해서는 단기적인 관점에서 다른 학문 분야와의 협력이 필요해 보인다. 장기적 관점에서는 회계 및 재무 분야의 대학원 교육 커리큘럼에 텍스트 분석 방법을 포함해야 한다. 회계 및 재무 분야의 연구의 발전을 위해서 비정형 텍스트 데이터를 사용하여 연구의 범위를 확장하는 것이 중요하다. This study examines the impact of text analysis on accounting and finance research. This paper introduces the usefulness and functionality of text analysis and details how to use text analysis methods. This paper also discusses textual materials and topics that can be useful in accounting and finance. In particular, researchers in accounting and finance recognize the potential of textual analysis and emphasize the importance of applying this technology to study. This study expects text analysis technique can improve the quality of research in accounting and finance field. The range of data selection is expanded broadly. Namely, open unstructured data like texts on the web can be utilized as data source. Then, more various research topics can be studied by using text analysis. So as to use text analysis technology to accounting and finance research field, from a short-term perspective, collaboration with other academic fields seems to be needed. From a long-term perspective, graduate education curricula in accounting and finance should include textual analysis methods. For further development of research in the field of accounting and finance, it is important to use unstructured textual data for empirical analysis to expand the scope of the research.

      • KCI등재

        베타 회귀분석과 R 텍스트 마이닝을 이용한 특허 마이닝

        전성해(Sunghae Jun) 한국지능시스템학회 2018 한국지능시스템학회논문지 Vol.28 No.4

        개발된 기술에 대한 특허는 숫자, 문자, 그림 등으로 이루어진 문서형식이다. 특허 마이닝은 대규모 특허문서 데이터로부터 기술과 관련된 다양한 지식을 추출하는 도구와 방법이다. 문서는 대부분 텍스트로 구성되어 있기 때문에 특허 마이닝에서는 텍스트 데이터를 처리하고 분석할 수 있는 텍스트 마이닝이 필요하다. 텍스트 마이닝을 지원하는 프로그래밍 언어로 본 논문에서는 R을 사용한다. R은 텍스트 마이닝 뿐만 아니라 대부분의 통계분석과 기계학습 알고리즘을 지원한다. 제안 방법에서 사용되는 베타 회귀분석도 R의 통계 패키지를 이용하여 수행된다. 반응변수가 0에서 1사이의 값을 갖는 베타 회귀분석의 특성을 이용하여 본 연구에서는 특허문서로부터 추출된 키워드 사이의 기술 연관성을 찾는 방법을 제안한다. 제안모형의 성능평가를 위하여 실제 특허문서를 이용한 실험을 수행한다. Patents for developed technologies are in the form of documents consisting of numbers, texts and pictures. Patent mining means tools and methods for extracting various knowledge related to technology from large-scale patent document data. Since documents are mostly text, patent mining requires text mining to process and analyze text data. Also, R is used as a programming language that supports text mining. R supports almost all statistical analysis and machine learning algorithms as well as text mining. The beta regression analysis used in the proposed method is also performed using the R statistical package. In this paper, we propose a method to find the technological relation between patent keywords extracted from patent documents by using the characteristics of beta regression analysis with response variables between 0 and 1. Experiments using real patent documents are performed to evaluate the performance of the proposed model.

      • KCI등재

        텍스트 네트워크 분석을 위한 대규모 텍스트의 자료정리(Data Cleaning) 방법에 관한 연구

        박치성,이준석 한국국정관리학회 2017 현대사회와 행정 Vol.27 No.4

        텍스트마이닝 기술의 발전은 정책학을 비롯한 사회과학 영역에서 텍스트를 활용한 연구가 증가하는데 기여해 왔으며, 그 대표적 예가 텍스트 분석에 네트워크 분석을 접목한 정책 프레임 분석이다. 하지만 텍스트는 대표적인 비정형 데이터이며, 따라서 이를 분석 가능한 형태로 변환하기 위해서는 다양한 요인에 대한 융복합적 고려가 필요하다. 그럼에도 사회과학 영역에서 텍스트를 데이터로 사용한 기존 국내 연구의 경우, 자료정리 과정에 대해 자세히 명시하지 않았다는 한계를 보이고 있다. 이에 따라 본 연구는 사회현상을 분석하기 위해 대용량의 텍스트 자료를 사용하는 경우에 초점을 맞추어, 텍스트 자료정리 방식 및 절차의 정형화를 시도하였다. 이를 위해 1) 텍스트 자료정리 과정에서의 고려요인을 종합하고, 2) 분석 대상 텍스트의 5% 미만에 해당하는 샘플을 무작위 추출하여 연구자의 자료정리 결과를 프로그램을 통한 자료정리 결과와 비교하는 방식을 제시하였으며, 이때 3) 비교과정의 반복을 통해 자료정리 결과의 오류를 개선해 나갈 수 있는 방안 역시 제안하였다. 이와 같은 방식 및 절차에 따라 텍스트 자료를 정리한 결과, 자료정리 결과의 상대적 오류를 상당부문 감소시킬 수 있다는 사실을 확인할 수 있었다.

      • KCI등재

        인문학을 위한 신문 빅 데이터와 텍스트 마이닝

        김일환 중앙어문학회 2019 語文論集 Vol.78 No.-

        This study stresses the need to expand the boundaries of the humanities fields in light of the upcoming age of big data and artificial intelligence, with a focus on text mining of newspaper big data. Several research cases involving text mining methodologies applied to newspaper big data are presented. These big data consist of articles published in DongA Newspaper from 1946 to 2014, which are not only vast in quantity and accumulated over a significant time period, but also annotated through morphological analysis, adding value to the data as materials for text mining. The five main text mining methodologies applied in this research to extract and analyze various types of information from the newspaper big data are word frequency analysis, statistical keyword analysis, lexical co-occurrence analysis, topic modeling, and detection of lexical meaning change. The diverse methodologies presented are advantageous in their ability to encompass vast text resources. Further research is necessary as these methodologies are universally adopted as a substitute for traditional quantitative and qualitative research. 이 논문은 빅 데이터, 인공지능의 시대를 맞이하여 인문학의 외연을 확장하 고 시대적인 변화에 조응할 필요성이 있음을 강조하고, 이를 위해 인문학에서 적용할 수 있는 텍스트 빅 데이터로서 신문 자료를 토대로 한 텍스트 마이닝 방법의 실제 연구 사례를 제시해 보는 데 그 목적이 있다. 이 논문에서는 먼저 텍스트 마이닝을 적용하기 위한 대상 자료로서 신문 빅 데이터에 주목하였다. 신문 빅 데이터는 동아일보 1946년부터 2014년까지의 전체 기사로 구성되어 있으며 형태소 분석이 주석되어 있을 뿐 아니라 대규모 의 장기간에 걸친 자료라는 점에서 텍스트 마이닝을 적용해 보는 데 매우 요긴한 자료임이 강조되었다. 이 연구에서 적용한 텍스트 마이닝의 주요 방법들은 어휘 사용 빈도의 분석, 통계적 키워드 분석, 공기어 네트워크 분석, 토픽 모델 링, 어휘의미의 변화 탐지 다섯 가지로서, 이러한 방법들을 활용하여 신문 빅 데이터로부터 다양한 정보를 추출하고, 분석해 보았다. 본고에서 제안한 몇몇 방법들은 대규모의 텍스트 자원에 두루 적용해 볼 수 있다는 점에서 범용성이 클 뿐 아니라 기존의 정성적, 정량적 방법론을 넘어서 는 방법으로서 국제적으로도 널리 활용되고 있다는 점에서 좀 더 다양하게 연 구될 필요가 있다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼