RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 원문제공처
          펼치기
        • 등재정보
          펼치기
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        빅데이터 분석 방법을 활용한 한시 영향관계 분석을 위한 시론

        이병찬(Lee Byong-chan) 어문연구학회 2017 어문연구 Vol.94 No.-

        현재 한시연구는 작품의 자구 하나는 물론 그 사이 행간의 의미까지 세밀하게 해석하는 방식으로 이루어지고 있다. 이는 많은 시간을 요하며 따라서 한정된 작품에 국한하여 연구를 진행할 수밖에 없다. 작가 개인에 대한 연구는 동시대 혹은 전후시대의 문학들과 연관성이 함께 언급될 때 더욱 의미와 가치를 지닌다. 즉 타자와의 영향이나 차별성이 문학사적 의의를 고구하는 중요한 가치척도이다. 그러므로 연구범주를 설정함에, 특정 몇몇을 대상으로 하는 것보다 비교군이 많을수록 그 성과가 의미를 가진다. 이 때문에 연구는 방대한 자료 분석을 기반으로 이루어져야 한다. 그러나 이는 한 개인의 역량으로 불가능한 일이다. 방대한 자료를 분석하는 연구방법의 미비로 인하여, 연구가 다수의 인물이나 작품을 함께 포괄하는 전반적이고 체계적인 분석에 이르지 못하고 있다. 따라서 연구가 결국 연구자 의 연구목적에 의해 미리 한정한 문헌들만을 대상으로 이루어질 수밖에 없는 실정이다. 이러한 문제를 해결하기 위한 방법이 바로 빅데이터 분석이다. 많은 문헌의 처리와 분석이 가능한 빅데이터 분석 방법을 도입한다면 이전에는 시도하지 못했던 개인들의 어휘사용 특성이나 패턴은 물론, 문집들의 상관성과 상호간의 거리, 혹은 고문진보(古文眞 寶)나 두시(杜詩)와의 비교 분석을 통하여 중국 시인들이 우리나라 문인들에게 준 영향의 심도에 대한 수치적 계량화나 구체적 실상에 대한 분석도 가능하다. 그러나 현시점에서 우리가 한문학 자료의 빅데이터 분석을 통하여 얻을 수 있는 결과는 제한적일 수밖에 없다. 한국고전종합DB라는 자료가 확보되어 있으며, 빅데이터 분석 기술 이 발전하고 여러 방면에 응용되고 있지만 실제로 분석 기술을 사용하는데 많은 어려움이 있다. 왜냐하면 빅데이터 분석은 대상 데이터의 가공 여부, 분석의 도구로 사용되는 기초 자료의 확충과 정리, 분석 전문가인 프로그래머와 결과를 활용하고자 하는 한문학 전공자의 정확한 소통과 같은 전제 조건이 충족되지 않는다면 원하는 결과를 얻을 수 없기 때문이다. 본 연구는 이와 같이 제한된 조건임에도 조선 중기의 한시 중 일부를 대상으로 텍스트와 주제어 유사성 분석을 시도하였다. 그리고 수치화하여 도출한 결과가 기존 방식으로 나온 연구 결과, 혹은 일반적인 추론과 어긋나지 않음을 확인하여 빅데이터 분석의 유효 성을 입증하였다. 앞으로 본 연구에서 제시한 그 한계와 문제점을 개선하여 빅데이터 분석을 기반으로 한 연구가 활성화되기를 기대한다. A study on artist individual has more meaning and value when mentioned with the relations with literatures of same period or the post-war period. In other words, differentiation from others is an important measure of value investigating the meaning of literature history. Therefore, the range of research is not a few particular objects and as comparison is more, the outcomes are significant. Therefore, the study must be conducted based on the analysis on massive materials. But, it s impossible with individual capabilities. Because of the insufficient research method to analyze massive materials, the study cannot approach general and systematic analysis including many persons or works together. Therefore, the study cannot help being organized by research purpose of researcher and conducted for only limited literatures. The method to solve the problem is rightly big data analysis. If introducing big data analysis that can treat and analyze lots of literatures, it s possible to measure influence of Chinese poets on our scholars numerically and analyze concrete realities through characteristics or patterns of individual vocabularies that were not tried before, correlations and mutual distance of literature collections, and comparative analysis of gomunjinbo (古文眞寶) or two poems. However, the results of big data analysis of Chinese literature data are restricted at present. Data of Korean classics DB is secured and mention about the possibility of big data analyzing technology is increased. It is tried from several angles, but there are difficulties in using analyzing technology actually. Big data analysis cannot provide desired results if preconditions such as process of objective data, securing and arrangement of basic data used as a tool of analysis, persons majoring in Chinese literature who intend to utilize the results with analytic specialist, programmer, and accurate communication and so on are not satisfied. This research digitized and drew the results through analysis on texts, topic words and similarities for Chinese poems of the middle stage of Joseon in spite of restricted conditions. Therefore, it was confirmed to be same as research results or general inference brought by existing methods. It means that methodological validity utilizing big data analysis to following researches was secured. In the future, the restrictions and problems of this research should be improved and researches based on big data analysis should be vitalized.

      • KCI등재

        통계적 텍스트 마이닝을 이용한 빅 데이터 전처리

        전성해(Sunghae Jun) 한국지능시스템학회 2015 한국지능시스템학회논문지 Vol.25 No.5

        빅 데이터는 여러 분야에서 다양하게 사용되고 있다. 예를 들어, 컴퓨터학과 사회학에서 빅 데이터에 대한 서로간의 접근방법에 대한 차이는 있겠지만 빅 데이터의 분석을 통한 활용 측면에서는 공통적인 부분을 갖는다. 따라서 대부분의 분야에서 빅 데이터에 대한 의미 있는 분석과 활용은 필요하게 된다. 통계학과 기계학습은 빅 데이터의 분석을 위한 다양한 방법론을 제공한다. 본 논문에서는 빅 데이터분석 과정에 대하여 알아보고 수집된 빅데이터의 원천에서부터 분석을 거쳐 최종적으로 분석결과를 활용하는 전체 과정을 위한 효율적인 빅 데이터 분석방법에 대하여 연구한다. 특히, 빅 데이터의 특성을 갖는 여러 데이터 중 하나인 특허문서 데이터에 대하여 빅데이터분석을 적용하여 효과적인 특허분석을 수행하고 이 결과를 연구개발 기획에 적용하는 방법론에 대하여 제안한다. 제안방법에 대한 실제적용을 위하여 전 세계 특허데이터베이스로부터 실제 기업의 전체 출원, 등록 특허문서를 수집, 분석하고 연구개발 업무에 활용하는 전 과정에 대한 사례연구를 수행하였다. Big data has been used in diverse areas. For example, in computer science and sociology, there is a difference in their issues to approach big data, but they have same usage to analyze big data and imply the analysis result. So the meaningful analysis and implication of big data are needed in most areas. Statistics and machine learning provide various methods for big data analysis. In this paper, we study a process for big data analysis, and propose an efficient methodology of entire process from collecting big data to implying the result of big data analysis. In addition, patent documents have the characteristics of big data, we propose an approach to apply big data analysis to patent data, and imply the result of patent big data to build R&D strategy. To illustrate how to use our proposed methodology for real problem, we perform a case study using applied and registered patent documents retrieved from the patent databases in the world.

      • KCI등재

        서울특별시 세출결산 자료의 빅데이터 R 분석사례 연구

        이종기 한국상업교육학회 2015 상업교육연구 Vol.29 No.4

        빅데이터와 관련한 연구는 경영, 경제 등 인문사회과학 분야에서 먼저 활용이 시작되었고, 현재는 의료 등 과학기술계 전반으로 확산되고 있다. 여러 선진국들이 국가차원의 중요한 전략기술로 인식하고 있으며, 정부에서도 정부 3.0이라는 정책에 근거하여 많은 정부자료를 공개하기 시작하였다. 빅테이터 시대에 주목해야 될 기술 중 빅데이터 분석기술 분야를 우리가 선택하고 집중해야 할 영역으로 판단한다. 본 연구에서는 서울특별시가 정부 3.0 정책에 기초해 공개한 빅데이터인 2007년부터 2013년까지의 7년간의 세출결산자료를 확보하였다. 이를 기초로 빅데이터 분석 프로그램인 R 프로그램을 설치하고 데이터의 전처리 과정을 거친 후, 분석절차에 따라 연구를 진행하였다. 서울특별시의 2007년부터 7년간의 세출 결산자료에 대해, R 프로그램을 이용한 분석결과, 특정 연도의 지방자치단체장 선거 등 정치일정 및 사회적 이슈에 맞추어, 서울시 예산이 집중 지출되었다는 것을 발견하였고, 이러한 결산자료의 지출 분석은 매우 의미 있는 시사점을 제공하고 있다. 본 연구에서는 빅데이터 분석의 사례를 통해, 그 시사점을 논하고 향후 상업교육현장에서도 이같은 빅데이터 교육과정을 개편하고, 신기술을 기반으로 한 미래교육에 투자 할 것을 강조하고자 한다. Research related to Big Data began first utilized in the management and social sciences. Now it has been spreading globally, including medical science and technology. Big data has many developed countries recognized as an important strategic technologies at the national level. The government began to release government data on the basis of the policies of governments 3.0. Technical analysis of Big Data technologies will be noted on the bigdata age is determined as an area we have to choose and focus. This reaearcher secured big data in Seoul special city expenditure settlement seven years data to 2013 data from Big Data published in 2007 on the basis of government policy 3.0. R data analysis program was installed for the research of analysis of seoul city big data. After the pre-processing of data for analysis, it was performed according to the analytical procedure. Related to the expenditure settlement data that seven years of data from 2007 in Seoul, according to the analysis result using the R program, the municipal budget was spent focusing on local government head elections, including political agenda of a specific year. The analysis of these data has provided the settlement is very significant implications. In this study, through the examples of big data analysis, discussing the implications and future commercial educational reform in the curriculum for big data analysis such as this, I would like to emphasize that investing in future education.

      • 세계 연구의 의미망분석을 통한 공공재로서 빅데이터 생태계 설계

        박장호(JangHo Park),문혜정(HyeJung Moon) 한국경영학회 2017 한국경영학회 통합학술발표논문집 Vol.2017 No.08

        빅데이터는 특정인에게 점유될 수 없는 비배제성(非排除性)과 사용으로 인해 효용가치가 낮아지지 않는 비경합성(非競合性)을 지니고 있기 때문에 수도, 태양, 공기처럼 정부가 정책적으로 개입해야 하는 대표적인 공공재(公共財)라 할 수 있다. 이 논문은 공공재의 관점에서 빅데이터 산업에 관한 정책을 설계하기 위하여 세계의 빅데이터 관련 선행 논문을 대상으로 빅데이터분석을 수행하였다. 연구대상으로 사회과학연구 데이터베이스 회사인 Web of Science에서 제공하는 `big data` 관련 선행문헌을 수집하였다. 연구절차는 네트워크분석을 통해 주요 연구분야를 탐색하고, 시맨틱분석을 통해 연구분야별 주제와 테마를 분석하였다. 분석도구는 네트워크분석을 위해 NodeXL을, 시맨틱분석 수행을 위해 KhCoder를 사용하였다. 분석 결과, 빅데이터와 관련된 주요 연구의 테마는 하둡, 분석, 클라우드, 소셜, 모바일, 개인정보보호, 건강, 정책 등 이었으며 우리는 이러한 연구들이 정책과 소셜 부문의 연구를 통하여 상호 순환되고 있음을 확인했다. 공공재의 관점에서 각 연구 주제의 특성을 분석한 결과 데이터 구조, 정책 수단 및 시장 규제의 세 가지 기준으로 구조화함으로써 빅데이터 기술을 기반으로 서비스 시장을 구성하고 콘텐츠를 활용하여 정치적으로 관리 할 수 있는 생태계를 구축하고 있다. 빅데이터 시장을 활성화시키기 위해서는 기술 및 서비스 시장뿐만 아니라 비즈니스 부문의 정책 결정자 및 데이터 관리자들이 참여하는 것이 절대적으로 필요하다. 따라서 공공 정책의 관점에서 빅데이터 산업에 대한 투자, 활용 및 관리에 노력할 필요가 있다. Big data has characteristics of a non-excludability that cannot be occupied by a specific person, and a non-rivalry that does not lower utility value due to use. It is a representative public goods (public goods) controlled by government by perspectives of public policy. In this paper, big data analysis was conducted on the big data related papers of the world in order to design public policy on the big data industry from the perspective of public goods. For collecting research data, we use the `big data` related studies provided by Web of Science, a social science research database company. The research process was conducted from network analysis for exploring study domain, semantic analysis for finding issue and theme and literature review for understanding the context. As an analysis tool we used NodeXL for network analysis and KhCoder for semantic analysis. Results of Analysis showed major research themes related to big data were hadoop, method, analysis, cloud, social, mobile, privacy, health and policy, and we confirmed that these researches are mutually circulated through policy and social. As a result of analyzing the characteristics of each research theme from the point of view of public goods, and structuring it with three criteria of data structure, policy tool and market regulation, an ecosystem that can be managed politically is being constructed by organizing service market based on big data technology and utilizing contents. In order to revitalize the big data market, it is absolutely necessary to participate not only in the technology and service market, but also in the policy makers and data curators at business sector. Therefore, it is necessary to make effort to invest, utilize and manage about big data industry with the perspective of public policy.

      • KCI등재

        지역 패션산업 활성화를 위한 빅데이터 활용 및 연구동향 분석

        최수경 한국지역경제학회 2023 韓國地域經濟硏究 Vol.21 No.1

        The purpose of this study is to help revitalize the local fashion industry by analyzing the use of big data and research trends in the fashion industry. The scope of the study was set to the representative cases and studies of big data used in the fashion industry and fashion-related industries, and the method of study was academic data, research reports, Internet newspaper articles or trend reports Data such as videos, periodicals, and interviews were collected and analyzed for research. In this regard, this study obtained the following conclusions as a result of analyzing the use of big data and research trends in the fashion industry. Big data analysis in the fashion industry tends to be used and studied mainly in trend analysis, consumer analysis, design development, and inventory management. In trend analysis, trend analysis through big data can be an important predictive data at a time when small-quantity production of various types is oriented and the reactive production system (QRS) is actively used. In consumer analysis, consumer analysis through big data is most necessary at a time when SNS and online use is increasing due to changes in lifestyle and online shopping of consumers after the pandemic, and it is considered suitable as data to understand consumers. In design development, the use of big data will bring about innovative changes in the way of identifying and communicating the design needs of the public in the information age. In inventory management, by using big data, accurate analysis and forecasting, production and planning, and inventory criteria will be able to respond quickly to meet the needs and needs of consumers. In addition, the last 5 years, 3 years, and 1 year were analyzed with word cloud to find out the usage and research trends in the fashion industry with keywords related to the fashion industry applied to the actual web. As a result, in all of the 5-year, 3-year, and 1-year analyses, fashion, industry, and Seoul had a high proportion, especially fashion. PET bottles were also prominent in the 3-year analysis and worldwide in the 1-year analysis. 본 연구는 패션산업에서의 빅데이터 활용 및 연구동향을 분석하여 지역 패션산업의 활성화에 도움이 되는 데 그 목적이 있다. 연구의 범위는 패션산업 및 패션관련산업에서 활용되고 있는 빅데이터의 대표적인 사례 및 연구를 범위로 설정하였고, 연구의 방법은 패션과 빅데이터에 관련된 학술자료, 연구보고서, 인터넷 신문기사나 동향보고서, 동영상 및 정기간행물, 인터뷰 등의 자료를 수집, 분석하여 연구하였다. 이에 패션산업에서의 빅데이터 활용 및 연구동향을 분석한 결과 다음과 같은 결론을 얻었다. 패션업계의 빅데이터 분석은 트렌드 분석, 소비자 분석, 디자인 개발, 재고관리를 주축으로 활용되고 연구되는 경향을 보이고 있다. 트렌드 분석에서는 다품종소량생산을 지향하고, 반응생산시스템(QRS)이 활발히 이용되는 현황을 비추어 볼 때 빅데이터를 통한 트렌드 분석이 중요한 예측 자료가 될 수 있을 것이다. 소비자 분석에서는 팬데믹 이후 소비자들의 라이프스타일 변화와 온라인 쇼핑 증가로 SNS와 온라인 사용이 증가하고 있는 시점에서 빅데이터를 통한 소비자 분석이 무엇보다 필요하고 소비자를 이해하는 자료로 적합할 것으로 본다. 디자인 개발에서는 빅데이터 활용을 통해 정보화 시대에 대중의 디자인 니즈를 파악하고 소통하는 방법에 혁신적인 변화를 가져올 것이며, 이를 디자인 개발에 반영한다면 소비자의 요구를 즉각 반영한 상품 기획 및 구매로 이어질 것이다. 재고관리에서는 빅데이터 활용으로 정확한 분석과 예측, 생산 및 기획, 재고의 기준이 소비자의 요구도와 필요에 맞춰서 발 빠르게 대응할 수 있을 것이다. 추가적으로 실제 웹상에 적용된 패션산업 관련 키워드로 패션산업에서의 활용 및 연구동향을 알아보기 위해 최근 5년간, 3년간, 1년간 구분하여 워드클라우드로 분석해 보았다. 그 결과 5년간, 3년간, 1년간 분석 모두 패션, 산업, 서울시가 비중이 높게 나타났으며, 특히 패션이 압도적으로 높게 나타났다. 그리고 3년간 분석에는 페트병이, 1년간 분석에서는 글로벌이 두드러지게 부상하는 양상을 보였다.

      • KCI등재

        빅데이터 분석 도구 개발기술 동향

        임철수 한국차세대컴퓨팅학회 2014 한국차세대컴퓨팅학회 논문지 Vol.10 No.5

        스마트폰과 태블릿 PC와 같은 디바이스 보급과 이동통신 기술 발전에 따라, 발생하는 데이터는 폭증하고 이를 저 장하고 분석하며 처리할 수 있는 기술이 요구하게 되었다. 이전에 경험하지 못한 방대한 양의 데이터를 분석할 수 있는 빅데이터의 관련 기술은 산업적으로도 각광받는 분야가 되었고 다양한 응용분야들에 적용되고 있다. 빅데이 터 분석 툴은 현재 현황을 확인하는 능력을 제공하며, 데이터의 패턴을 분석하고 활용가능한 방대한 데이터들로부 터 가치 있는 사실을 얻을 수 있다. 이에 본 연구에서는 국내외적으로 활용되고 있는 빅데이터 분석 기술들을 파악 하고 빅데이터 활용 범위와 목적에 가장 부합하는 효율적인 방식을 제공하기 위하여 전망과 향후 방향들을 제시하 고자 하였다. Due to the advances in device technology such as smartphones and tablet PCs and mobile technology, the amount of the generated data is increasing rapidly. In order to analyze such a huge amount of data, big data-related technology has become an enthusiastic area and is desired in many applications. Big data analysis tools provide the ability to identify trends, detect patterns and glean other valuable findings from the sea of data available. In this study, to provide an overall view of the currently available big data analytics and their utilization, we presented a detailed survey on state-of-the-art big data analysis techniques and their future prospects.

      • KCI등재

        빅데이터 분석과 네트노그라피 기반 온라인 소비자 커뮤니티 참여 행동 분석

        박순화,이점숙,박은경,김은경,서영건 한국디지털콘텐츠학회 2024 한국디지털콘텐츠학회논문지 Vol.25 No.5

        빅데이터 분석은 방대한 데이터에서 빠르게 통계적 패턴과 경향을 파악하기는 쉽지만, 데이터가 가진 심층적 의미와 인과관계를 확인하는 데는 어려움이 있다. 반면 네트노그라피 분석과 같은 질적 분석은 시간과 노력이 많이 소요되지만, 소비자의 의견과 경험을 직접 파악하여 인과관계를 이해하고 심층적인 통찰력을 제공할 수 있다. 본 연구는 빅데이터 분석 결과의 정확한 해석과 심층적인 통찰력을 제공하기 위해 빅데이터 분석에 나타난 데이터의 패턴과 특이점을 활용하여 질적 분석을 수행하는 BIGNET 통합 분석 모델을 제안하였다. 연구의 타당성과 실용성을 검증하기 위해 국내 대표 천기저귀 온라인 소비자 커뮤니티를 대상으로 실증 연구를 수행하였으며, 연구 결과 제시된 통합 분석 모델이 온라인 소비자 커뮤니티에 나타난 현상의 원인을 파악할 수 있음을 확인하였다. 이는 빅데이터 분석 결과만으로 자칫 잘못 해석하거나 오인할 수 있는 온라인 소비자 행동 중 많은 부분을 효과적으로 설명할 수 있을 것이라 기대된다. Big data analysis easily identifies statistical patterns and trends. However, relying solely on big data analysis poses challenges in validating the profound meanings and causal relationships underlying the data. On the other hand, qualitative analysis such as netnography requires substantial time and effort but offers direct insights into consumer opinions and experiences, facilitating a deeper understanding of causality and providing in-depth insights. To provide accurate interpretation and in-depth insight into big data analysis results, this study proposes the BIGNET integrated analysis model that performs qualitative analysis, utilizing the patterns and singularities of the data considered in big data analysis. To verify the validity and practicality of the study, an empirical study was conducted targeting Korea's representative online cloth diaper consumer community, thereby confirming that the proposed integrated analysis model can identify the cause of the phenomena appearing in the online consumer community. This study is expected to effectively explain many aspects of online consumer behavior that can easily be misinterpreted or misunderstood based on big data analysis results alone.

      • 환경 빅데이터 분석 및 서비스 개발 Ⅱ

        강성원 ( Sung Won Kang ),이동현,장기복,진대용,홍한움,한국진,김진형,강선아,김도연 한국환경정책평가연구원 2018 사업보고서 Vol.2018 No.-

        본 연구는 2017년부터 시작된 계속사업으로서, 환경연구에 기계학습(Machine Learning) 연구방법론을 접목하여 환경정책 개발 가능성을 모색하는 연구이다. 본 연구는 환경연구에 빅데이터 방법론을 적용하는 ‘환경 빅데이터 연구’, 환경 빅데이터 연구에 필요한 대용량 데이터 수집 및 처리 인프라를 구축하는 ‘환경 빅데이터 인프라 구축’, 환경 빅데이터 연구 성과를 기반으로 원내·외 서비스를 개발하는 ‘원내·외 빅데이터 서비스 개발’ 등 3개 영역으로 구성되며, 연구단계별로 각 3년씩 총 3단계에 걸쳐 진행한다. 2018년은 환경 빅데이터 연구에 중점을 두는 제1단계(2017~2019년)의 2차 연도에 해당된다.2018년 환경 빅데이터 연구 영역에서는 2017년에는 인프라의 한계로 시도하기 어려웠던 대용량-비정형 데이터 분석을 시작하였고, 대기-기후 관련 매체 연구에 주력하였던 연구의 영역을 수질 및 수용체 반응을 대상으로 확대하였다. 환경 빅데이터 인프라 구축 영역에서는 대용량-비정형 데이터 연구를 수행할 수 있는 환경 빅데이터 플랫폼 구축을 병행하였다. 그리고 환경 빅데이터 서비스 개발 영역에서는 2017년 연구성과를 이용하여 환경연구 텍스트 데이터로부터 연구주제 및 연구키워드 네트워크를 파악하는 연구동향 파악 서비스를 구축하였다. 세부적인 연구의 성과들을 영역별로 요약하면 다음과 같다.첫 번째, 2018년 환경 빅데이터 연구 영역에서는 총 5건의 연구를 수행하였다. 5건의 연구 중 대용량-비정형 데이터 분석으로 환경 빅데이터 분석 영역을 확대한 연구는 ‘컨벌루션 신경망을 활용한 미세먼지 예측’, ‘기계학습 기반 환경이슈 감성분류기 개발: 기후변화를 중심으로’, ‘딥러닝을 이용한 국내 COPD 노인환자의 사망위험 추정’ 3건이다. 그리고 ‘데이터 기반 한강 수질 예측모형 개발’ 연구를 수행하여 매체 연구의 영역을 수질로 확장하였고, ‘미세먼지 오염이 서울시 지하철 이용에 미치는 영향 분석’ 연구를 수행하여 수용체의 반응을 연구의 영역에 포괄하였다.‘컨벌루션 신경망을 활용한 미세먼지 예측’ 연구에서는 컨벌루션 신경망 모형을 이용하여 미세먼지 오염도를 예측하는 알고리듬을 개발하였다. 이 알고리듬은 전국을 10×10 격자로 구분한 공간의 미세먼지 오염도를 1~24시간 이전에 예측하는 데 활용되었다. 이 알고리듬은 4개 대기오염물질 오염도 정보 및 4개 기상 정보를 예측에 활용하였다. 이 알고리듬에 투입된 모든 정보는 컨벌루션 신경망의 입력자료로 활용될 수 있도록 전국을 10×10 격자로 구분한 공간에 역거리가중법(IDW)을 이용하여 할당되었다. 이 알고리듬은 1시간 이후 미세먼지 농도 예측의 평균제곱근오차를 2.07㎍/㎥ 까지 축소할 수 있었으며, 8시간 이후 예측의 평균제곱근오차도 9.09㎍/㎥ 까지 축소할 수 있었다. 이는 2017년에 개발한 KNN-순환신경망 모형의 1시간 이후 예측치 평균제곱근오차 7.96㎍/㎥ 를 획기적으로 개선한 결과이다.‘기계학습 기반 환경이슈 감성분류기 개발: 기후변화 중심으로’ 연구에서는 임베딩을 이용한 양방향 장단기 메모리(Bidirectional Long Short-Term Memory) 모형을 이용하여 기후변화와 관련된 SNS 문서의 감성을 7가지로 분류하는 감성분류기를 개발하였다. 이를 위해 기후변화 감성분류기 개발 과정에서 SNS 문서가 기후변화와 관련이 있는 문서인지 판별하는 기준이 되는 ‘기후변화 현상 사전’을 구축하여 SNS 문서 5만 건을 수집하였다. 그리고 수집된 5만 건을 수작업을 통해 7가지 감성으로 분류하여 감성 태그를 부여하였고, 이렇게 구축된 학습 데이터에 임베딩을 이용한 양방향 장단기 메모리(Bi-LSTM) 알고리듬을 적용하여 감성분류기를 개발하였다. Bi-LSTM을 이용한 감성분류기는 7가지 감성으로 분류했을 때 정확도가 85.10%였으며, 긍정-중립-부정 3가지로 감성을 단순화할 경우에는 정확도가 92.95%까지 향상되었다. 감성분류기의 개발과 더불어 이 연구를 통해 ‘기후변화 현상 사전’을 구축하였고 감성이 분류된 5만 건의 SNS 자료를 축적하였다. 사전 및 감성이 분류된 자료는 감성분류 연구에서 필수적으로 요구되는 도구로서 기후변화와 관련된 이들 도구는 본 연구에서 국내 최초로 구축하였다.‘딥러닝을 이용한 국내 COPD 노인환자의 사망위험 추정’ 연구는 대용량 자료인 건강보험 DB를 사용하는 연구이다. 이 연구는 전처리 단계에 많은 시간이 소요됨을 감안하여 2년에 걸쳐 2단계로 진행한다. 2018년에 추진한 제1단계에서는 입력 데이터를 구축하고, 2019년 진행 예정인 제2단계에서는 제1단계에서 구축한 자료를 이용하여 사망요인을 파악하고 사망 확률을 추정한다. 2018년 본 연구에서는 건강보험 맞춤형 연구자료로부터 추출한 65세 이상 COPD 환자 657,432명의 개인별 건강정보와 각 개인이 거주하는 시군구의 인구, 기상기후요인, 대기오염물질 오염도를 결합한 입력자료를 구축하였다.‘데이터 기반 한강 수질 예측모형 개발’ 연구에서는 순환신경망 모형 중 GRU(Gated Recurrent Unit) 모형을 이용하여 수질오염물질 오염도를 예측하는 알고리듬을 개발하였다. 이 알고리듬을 통해 가양, 노량진, 팔당 등 3개 한강 수계 수질측정소의 클로로필-a 농도를 1주일 전에 예측하는 데 활용되었다. 이 알고리듬은 예측지점 및 예측지점 상류지역의 수질오염 정보, 인근지역의 기상 정보, 그리고 인근지역의 수위 및 유량 정보를 예측에 활용하였다. 이 연구에서 개발한 GRU 알고리듬은 1주일 후 클로로필-a 농도 예측의 평균 제곱근오차를 10.93까지 축소할 수 있었다. 이는 단순회귀분석의 평균제곱근오차 16.95를 35.3% 개선한 성과이다. 특히 순환신경망 알고리듬은 급작스럽게 클로로필-a 농도가 증가하여도 근사한 예측치를 제공하였다. 통상적으로 사용되는 회귀분석 및 시계열 분석은 실측치가 급작스럽게 증가 또는 감소하면 그 증감이 증감시점 이후의 예측치에 반영되는 지연 예측 현상이 나타나는데, 이 연구의 결과는 이러한 회귀분석 및 시계열 분석의 약점을 개선할 수 있는 대안을 제시하였다.‘미세먼지 오염이 서울시 지하철 이용에 미치는 영향 분석’ 연구에서는 미세먼지 농도가 서울 지하철 승하차 인원에 미치는 영향을 Boosted Decision Tree 모형을 사용하여 분석 하였다. 이 연구에서는 대기오염물질의 오염도, 그리고 기상 정보를 이용하여 개별 지하철역의 시간별 지하철 승하차 인원을 추정하는 Boosted Decision Tree 알고리듬을 구축하고 민감도 분석을 수행하여 미세먼지 오염도의 변화가 승하차 인원 예측치에 주는 영향을 정량적으로 파악하였다. 이 연구에서 구축한 Boosted Decision Tree 모형은 지하철 승하차 인원을 평균제곱근오차 0.11 이내로 예측할 수 있었다. 이는 선형회귀분석의 평균제곱근 오차 0.71을 84.5%나 개선한 결과이다. 이렇게 예측의 정확도를 높인 Boosted Decision Tree 모형을 사용하여 민감도 분석을 수행한 결과, 미세먼지 농도가 10% 증가하면 하차 인원이 0.2% 감소하고, 미세먼지 농도가 10% 감소하면 하차 인원이 1.4% 증가하는 것으로 파악되었다. 이렇게 미세먼지 농도 증가에 따른 하차 인원 감소가 미세먼지 농도 감소에 따른 하차 인원 증가보다 작은 경향은 승하차 인원, 승하차 시간 및 지하철역 주변 토지용도에 관계없이 일관되게 관찰되었다.두 번째, 2018년 환경 빅데이터 인프라 구축 영역에서는 대용량 자료 수집 및 자료 분석 기능을 구비한 환경 빅데이터 플랫폼을 설계하였고, 이를 1개 서버에 구현하였다. 자료 수집과 관련해서는 오픈데이터맵(Open Data Map)을 구축하여 환경연구 문헌에서 자주 인용되는 인터넷 자료의 검색 및 수집 기능을 부여하였고, 자료 분석과 관련해서는 대용량 자료를 분석할 수 있는 웹 개발 환경과 CLI(Command Line Interface) 환경을 설계하여 동일한 서버에 구현하였다.오픈데이터맵은 환경연구에서 자주 인용되는 온라인 자료들의 출처에 대한 정보와 링크를 제공한다. 본 연구에서 구축한 오픈데이터맵에 수록된 온라인 자료 출처는 2018년 현재 한국환경정책·평가연구원 도서관 DB에 수록된 한국환경정책·평가연구원 발간 문헌 1,925건의 전문에서 인용된 온라인 자료 출처들이다. 이 문헌들은 총 11개 부문(category)으로 분류하였고, 개별 온라인 자료 출처는 그 출처가 인용된 문건을 가장 많이 포괄하는 부문에 따라 부문별로 분류되었다. 각 부문 내에서는 그 부문에 속한 개별 온라인 자료 출처에 인용 문건의 수에 따라 순위를 부여하였고, 인용된 문건의 키워드를 개별 온라인 자료 출처의 키워드로 배정하였다. 오픈데이터맵은 이렇게 구축된 부문별 온라인 자료 출처의 순위, 온라인 주소(URL), 제목, 설명, 키워드를 사용자에게 보여주고 링크를 제공하여 사용자가 필요한 온라인 자료 출처를 찾아갈 수 있도록 하였다. 또한 키워드 검색 기능을 추가하여 부문이 아닌 키워드를 기준으로 자료 출처를 검색할 수도 있게 하였다.대용량 데이터 분석 기능을 갖추기 위해서는 프로그램 개발 언어 중 R과 Python을 사용할 수 있는 웹 환경과 Ubuntu Linux를 사용할 수 있는 CLI 환경을 구성하였다. 웹 환경은 이미 개발된 알고리듬을 웹 환경에 등재하여 분석을 수행하거나, R 또는 Python을 활용해서 알고리듬을 개발하고자 하는 연구자가 사용할 수 있는 환경이다. CLI 환경은 운영체제(Linux) 언어와 프로그램 개발 언어(R, Python)를 자유롭게 조합하여 사용할 수 있는 환경으로서, 데이터 수집-전처리-분석 전 과정을 포괄하는 연구를 수행하고자 하는 연구자가 활용하기에 적합하다. 이러한 분석 환경은 현재 본 연구단이 보유하고 있는 서버에 구현되어 있으며, 본 연구의 연구진들에게 제공되고 있다.마지막으로, 2018년 원내·외 환경 빅데이터 서비스 개발 영역에서는 그동안 한국환경정책·평가연구원에서 발간된 보고서들을 통해 연구주제의 동향을 파악하는 ‘연구동향 분석 서비스’를 개발하였고, 한국환경정책·평가연구원 보고서 제목의 키워드 및 네트워크를 파악하는 ‘연구키워드 분석 서비스’를 개발하였다. 두 서비스 모두 사용자가 임의의 텍스트 자료를 입력하면 입력자료의 토픽 및 키워드 네트워크를 실시간으로 파악할 수 있는 기능을 갖고 있다. 이들 서비스는 2017년 본 연구에서 수행하여 개발한 ‘텍스트 마이닝을 이용한 KEI 연구동향 분석’ 알고리듬을 임의로 입력하는 자료에도 구동될 수 있도록 개선하여 구축한 서비스이다.‘연구동향 분석 서비스’는 LDA 토픽 모델링 기법을 텍스트에 적용하여 텍스트의 주제를 추출하고, 그 결과를 시각화하여 보여주는 서비스이다. 이 서비스는 사용자가 복수의 문서로 구성된 텍스트 자료를 입력하면, 그 자료를 대상으로 LDA 분석을 수행하여 주제를 추출하고 개별 문서에 적합한 주제를 할당한다. LDA 분석에 필요한 텍스트 자료 전처리 과정(형태소 분석, 불용어 제거, 문서-단어 행렬 구축)은 서비스 내부에 구현되어 있어서 텍스트 자료를 입력하면 자동으로 수행된다. 사용자는 텍스트 자료에 수록된 문서의 주제 분포를 전반적으로 파악할 수 있고, 또한 문서 발간 시점의 시계열에 따라 파악할 수 있다. 현재 이 서비스는 1993~2016년에 발간된 한국환경정책·평가연구원 보고서의 제목, 목차, 요약으로 구성된 텍스트 자료의 토픽을 추출한 결과를 보여주고 있다.‘연구키워드 분석 서비스’는 키워드 추출 및 네트워크 파악 기법을 텍스트에 적용하여 키워드를 추출하고, 키워드 동시발생 테이블 및 키워드 네트워크를 구축하는 서비스이다. 이 서비스는 사용자가 텍스트 자료를 입력하면, 그 자료의 단어-단어 동시발생 테이블을 계산하고, Apriori 알고리듬을 수행하여 키워드 네트워크를 도출한다. ‘연구동향 분석 서비스’와 마찬가지로 텍스트 자료 전처리 과정은 서비스 내부에 구현되어서 자료가 입력되면 자동으로 수행된다. 사용자는 키워드 목록 및 2개 키워드 사이의 관계(Support, Confidence, Lift)를 보여주는 테이블과 여러 키워드 간의 네트워크를 시각화한 관계도를 파악할 수 있다. 현재 이 서비스을 통해 2018년 현재 한국환경정책·평가연구원 도서관 DB에 수록된 연구제목 텍스트의 키워드 분석 결과를 볼 수 있다.2018년 본 연구의 결과는 빅데이터 연구방법론의 장점인 예측의 정확도 및 결과의 재생-확장 가능성을 확인시켜 주었다. 본 연구의 환경 빅데이터 연구 영역의 성과는 빅데이터 연구방법론을 적용하면 기존의 방법론보다는 환경오염 및 환경오염 대응 수용체의 반응에 대한 예측오차를 크게 축소할 수 있음을 보여주었다. 특히 데이터의 규모가 1GB를 상회하는 2개 연구 ‘컨벌루션 신경망을 활용한 미세먼지 예측’, ‘미세먼지 오염이 서울시 지하철 이용에 미치는 영향 분석’과 추정 대상 변수가 극단적인 값을 갖는 2개 연구 ‘데이터 기반 한강 수질 예측모형 개발’, ‘미세먼지 오염이 서울시 지하철 이용에 미치는 영향 분석’에서 이러한 빅데이터 방법론의 예측오차 축소 성과가 두드러지게 나타났다.그리고 본 연구에서 개발한 2개의 연구동향 파악 서비스는 빅데이터 연구방법론과 연구 결과의 재활용 및 확장 가능성을 보여주었다. 2개 서비스 모두 2017년 연구에서 개발되었던 LDA 토픽 추출 알고리듬 및 키워드 파악 알고리듬을 사용하여 구축되었다. 2017년 연구에서는 이들 알고리듬을 특정한 텍스트 분석에서만 사용하였지만, 2018년 연구에서는 이들 알고리듬을 임의의 입력자료에 대해 분석을 수행할 수 있도록 범용성을 확대하였다. 그 결과 기계학습에 관련된 사전지식이 없는 사용자들도 2017년 연구의 성과를 활용할 수 있는 환경이 구축되었다.2018년 연구 중 ‘컨벌루션 신경망을 활용한 미세먼지 예측’ 연구에서 개발한 미세먼지 오염도 예측 알고리듬, ‘데이터 기반 한강 수질 예측모형 개발’ 연구에서 개발한 클로로필-a 농도 예측 알고리듬은 정책수요 파악에 필요한 정보를 제공한다. 이들 알고리듬은 소규모 지역 단위 환경오염 예측치를 실시간으로 제공하기 때문에, 정책대응이 필요한 시점 및 장소를 사전에 인지하여 정책대응 수단을 집중하는 데 필요한 정보를 제공한다. 그리고 ‘기계 학습 기반 환경이슈 감성분류기 개발: 기후변화 중심으로’ 연구에서 개발한 기후변화 관련 SNS 감성분석기는 기후변화 관련 국민 감성을 파악하여 정책 개입의 필요성을 진단하는 도구로 사용할 수 있다.중장기적으로는 이들 3개 알고리듬을 상시 가동할 수 있도록 개편하면 정책의 시행 전후에 이들을 가동함으로써 정책성과를 모니터링할 수 있다. 정책 개입 이전의 2개 예측 알고리듬의 환경오염 예측치는 ‘개입이 없을 경우(Business as usual)’의 예측치를 제공하므로, 이들 예측치와 정책 개입 이후의 실측치를 비교하면 정책 개입의 환경오염 개선 효과에 대한 정량적인 근사치를 얻을 수 있다. 그리고 특정 기후변화 정책 시행 이전과 이후에 기후 변화 관련 SNS 감성분석기를 가동하여 감성 수준을 파악하면, 정책이 국민감성의 호전에 도움이 되었는지 여부를 파악할 수 있다. 3개 알고리듬의 데이터 전처리 과정을 자동화하여 상시적으로 가동할 수 있도록 개편하면 이러한 정책 모니터링을 상시 수행할 수 있다.3년차 이후 본 연구는 이러한 정책 모니터링 기능을 환경정책 전 부문으로 확장하는 방향으로 진행할 예정이다. 구체적으로 환경오염 예측 알고리듬은 대기 및 수질오염 전반을 예측할 수 있는 알고리듬으로 확대 개편하고, SNS 감성분석기 역시 환경정책 전 영역에 대한 감성분석이 가능한 알고리듬으로 확대 개편하고자 한다. 그리고 이들 두 알고리듬을 상시적으로 가동하여 정책수요를 파악하고 정책대응을 모니터링하는 서비스를 개발하고자 한다. This report reports the result from second year research of ‘Big Data analysis: Application to Environmental Research and Service’ project. In this project, we try to take advantage of machine learning in Environmental Research. This project consists of three sub-projects. The first one ‘Big Data Environment Research’, experiments machine learning algorithm to environmental research. The second one ‘Big Data Research Infra’ builds up large scale data collection and analysis facility. The third one ‘Big Data Environmental Service’ develops public environmental service using the results from ‘Big Data Environmental Research’ and ‘Big Data Research Infra’. We planned to spend three years for each sub-project, beginning from 2017. 2018 is the second year of first sub-project ‘Big Data Environment Research’.In 2018, we developed four machine learning algorithms - CNN algorithm predicting 1~8 hours ahead fine-dust pollution. GRU algorithm predicting 1 week ahead chlorophyl-a pollution. Bidirectional LSTM algorithm for sentiment analysis of climate change SNS data, and Boosted Tree algorithm for analyzing the effect of fine-dust pollution to the number of passengers of Seoul subway. Our sentiment analysis algorithm had 92.95% accuracy. Our CNN algorithm for fine dust pollution prediction cut down RMSE of 1 hour ahead estimation to as low as 2.07μg/㎥. Our GRU algorithm for chlorophyl-a pollution prediction had RMSE smaller than the RMSE of Vector Auto Regression by 35.3%. And our Boosted Tree algorithm for subway passenger analysis had RMSE smaller than the RMSE of linear regression by 84.5%. In general, we confirmed that machine learning algorithm had significant advantage in accurate prediction in wide range of environmental research.

      • 빅데이터를 이용한 정책분석 방법론에 관한 연구

        유경원 ( Kyeongwon Yoo ) 텔코경영연구원(구 국제무역경영연구원) 2020 텔코 저널 Vol.8 No.-

        빅데이터에 대한 접근이 보다 용이해짐에 따라 정책분석에 있어 빅데이터를 활용하는 방안에 대한 논의가 활발하게 이루어지고 있다. ICT기술의 발전에 따라 텍스트데이터, 이미지데이터, 위치데이터 등 비정형(unstructured)데이터를 수집·처리가 가능해짐에 따라 정책분석과 관련하여 빅데이터는 기존의 정형화된(structured) 데이터를 보완하는 목적으로 활용이 가능해졌다. 빅데이터를 적절히 이용한다면 기존의 정형 데이터만으로는 찾기 어려운 추가적인 정보를 얻을 수 있다는 장점이 있다. 다만, 빅데이터가 전통적인 데이터를 완전히 대체할 수는 없으며 이에 따라 정확도 높은 분석이 요구되는 정책연구에 있어 빅데이터를 효과적으로 활용하는 방안이 활발하게 논의되고 있다. 본 연구에서는 정책분석에 있어서 국내외적으로 정책분석에 빅데이터가 이용되고 있는 다양한 기존 사례를 살펴보고 앞으로 공공기관을 중심으로 빅데이터를 활용한 정책평가와 수립에 참고할 수 있는 시사점을 도출하였다. 특히 본 연구에서는 소셜 빅데이터를 활용하여 한계채무자들의 개인회생 등 채무자구제제도 이용 분석 결과를 소개한다. 추가로 금융통화운영위원회 회의록을 분석한 텍스트 마이닝 적용 사례를 살펴봄으로써 이를 기반으로 향후 비정형 데이터를 활용하여 다양한 정책에 대한 사후 평가 및 심층분석이 가능할 수 있도록 한다. 마지막으로 이와 같은 활용가능성을 실제 현장에서 적용할 수 있게 하기 위한 단계별 적용방안을 결론에서 제시하였다. Since the access to the big data has been made more easily there has been many discussions on the use of big data for the policy analysis. Due to the rapid development of ICT technology it is possible to collect and analyze the unstructured data set such as the text data, image data, location data etc. and to support analyzing the structured data for the policy analysis. If we use the proper big data and appropriate methods, there is a merit to get the additional useful information which we can not find when we use the stuctured data set only. Since we know that the big data cannot replace the traditional data set, it has been eagerly discussed how to use properly the big data for the precise policy analysis. This paper reviews the previous studies and researches using big data for the policy analysis and get some lessons for the public institutes which have focused recently to use the big data for the policy evaluation etc. Especially this paper introduces the results and methods to analyze the personal bankruptcy and individual revitalization filings using the internet search data as an example of policy analsysis using big data. Also we introduce the results of analyzing monetary policy commetee minutes using text mining for more rigorous analysis and evalustion. Lastly we suggest the ways to construct the proper system for analyzing the several policy issues based on using the big data.

      • KCI우수등재

        빅데이터를 이용한 심리학 연구 방법

        김청택 한국심리학회 2019 한국심리학회지 일반 Vol.38 No.4

        The development of new technology such as big data, machine learning, and Artificial Intelligence changes human behaviors and thought. Increased use of the internet makes it possible to observe various human activities that were not observable before. Huge amounts of data about various types of human activities are being stored on the internet. Analyzing this information will help extend the scope of understanding human behaviors and psychology. The present paper attempts to find a way of applying new technology to psychological studies. Specifically, we focused on what big data are like and how they can be used for psychological research. This paper first reviewed the characteristics of big data and their role in psychological research. In this context, it discussed the problems of data-driven analysis techniques in which big data analysis is applied and the possibility of applying such methods to psychological research. In this context, it discussed the problems of the data-driven analytic scheme that big data analysis adapting and the possibilities of applying such a method to psychological research. Second, data analytic techniques used in big data analyses are reviewed. These techniques should be able to deal with big and unorganized data and unstructured data such as pictures, video clips, texts, etc. Specifically, it reviewed basic principles of topic modeling, ridge or lasso regression, support vector machine, neural network, and deep learning, and their application to psychological data. Third, the limitations of the use of big data in psychological research are discussed. Finally, it proposed ways of applying big data technology to psychological research. 빅데이터, 기계학습, AI 등의 새로운 기술의 발달은 사람들의 사고와 행동을 변화시키고 이전에는 접근하기 힘들었던 인간에 대한 다양한 활동을 관찰하는 것을 가능하게 한다. 사람들이 인터넷을 광범위하게 사용함에 따라서, 개인의 행동도 인터넷에 저장되고 있다. 자료들은 매우 광범위하며 다양하기 때문에 이를 적절하게 분석하면 인간 심리를 이해하는 범위를 확대할 수 있을 것이다. 이 논문에서는 새롭게 발달된 이러한 기술들을 심리학 연구에 활용하는 방법에 대하여 모색하고자 하였다. 특히 기술의 발달로 가능해진 새로운 자료, 빅데이터의 특성과 심리학에서의 활용방안에 대하여 논의하였다. 이 논문에서는 첫째, 빅데이터의 특성과 빅데이터가 심리학에서 어떠한 역할을 할 수 있는지 살펴보았다. 심리학의 모형주도적 분석법과 다른 빅데이터의 자료주도적 분석법의 문제점들과 이러한 분석을 심리학연구에 어떻게 적용될 수 있는지에 대하여 논의하였다. 둘째, 자료의 분석 방법론에 대하여 살펴보았다. 기존 심리학 연구에서는 정교한 연구설계에 의해 자료가 수집되기 때문에 분석이 상대적으로 덜 중요하지만, 빅데이터 분석에서는 자료분석의 역할이 아주 중요해진다. 방대하고 구조화되지 않은 자료를 처리할 수 있어야 하고, 언어 자료와 같은 숫자 이외의 자료도 분석할 수 있어야 한다. 특히 주제 모형화, 능선 회귀분석과 라소 회귀분석, 지지벡터 기계, 신경망, 딥러닝 등에 대한 원리를 소개하고 심리학 연구에 적용되는 방법들에 대하여 논의하였다. 셋째, 심리학에서 빅데이터 분석 적용의 한계점을 살펴보고, 마지막으로 빅데이터의 심리학 연구의 적용에 대한 방법을 제안하였다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼