RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
        • 등재정보
        • 학술지명
        • 주제분류
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI우수등재

        우리나라 공공데이터의 소재정보

        김기환,이창호,최보승 한국데이터정보과학회 2019 한국데이터정보과학회지 Vol.30 No.5

        As the fourth industrial revolution becomes a major issue, interest in big data is growing. Big data refers to the technology for analyzing and utilizing countless numbers of data, and public data segments close to the real world account for their utilization. In Korea, data are widely generated in the public data sector as government 3.0 policy, starting with e-government. However, the sites that provide the data are not organized and the data being delivered different from site to site, requiring a lot of information to access them. Therefore, the present status of big data and administrative data existing in the country is classified according to the institutions, contents, utilization, and disclosure levels in order to better understanding the general outline of public data providing sites. As an information on material resources of the public data is summarized, basic knowledge on the presence, content, and utilization of big data and administrative data across a country were developed and statistical utilization status, methods, values, and limit development was developed. 4차 산업 혁명이 주요 이슈로 떠오르면서 빅데이터에 대한 관심도 커지고 있다. 빅데이터는 무수히 많은 데이터를 분석하여 활용하는 기술을 의미하며, 활용 측면에서 실생활에 밀접한 공공데이터 부문이 많은 비중을 차지하고 있다. 우리나라의 경우 전자정부를 시작으로 정부 3.0을 실시하면서 공공데이터 부문에서 데이터가 광범위하게 생성되고 있다. 하지만 데이터를 제공하는 사이트가 정리되어 있지 않으며, 데이터의 제공형태도 각 사이트마다 상이하여 데이터 이용에 많은 정보를 필요로 하고 있다. 이에 본 논문에서는 국가에 존재하는 빅데이터와 행정자료의 현황을 기관, 내용, 활용 및 공개 정도 등으로 분류하여 전체 윤곽을 파악하고 이해할 수 있도록 내용을 정리하였다. 공공데이터의 소재 정보를 정리함으로써 국가전반의 빅데이터와 행정자료의 존재현황과 내용 및 활용도에 대한 기본지식을 배양하고, 통계적 활용 현황, 방법, 가치와 한계, 발전방향에 관한 소양을 쌓을 수 있게 하고자 한다.

      • KCI우수등재

        심층 생성 모형을 이용한 재현 데이터 생성 방법론 리뷰 및 향후 연구 제언

        김지우,권성훈,김동하 한국데이터정보과학회 2023 한국데이터정보과학회지 Vol.34 No.5

        최근 데이터 통합 등을 통해 만들어진 거대 데이터에서 유용한 정보를 추출하고, 이를 통해 서비스를 정교화하기 위하여 많은 개인 및 기관에서 거대한 공공데이터에 대한 접근을 요구하고 있다. 하지만 이러한 거대 데이터 분석은 예기치 못한 개인정보노출이 발생할 수도 있기 때문에 공공데이터의 배포는 매우 조심스럽게 이루어져야 한다. 재현 데이터는 개인정보 비식별화와 데이터의 유용성 확보를 동시에 달성하기 위하여 사용하는 대표적인 기법 중 하나이다. 심층 인공 신경망 기반 방법론이 이미지 등의 고차원 관측 데이터 생성에 매우 높은 성능을 달성할 수 있음이 밝혀지면서 이를 재현 데이터에 활용하려는 연구가 활발하게 진행되고 있다. 본 논문에서는 심층 인공 신경망을 이용해 재현 데이터 생성을 하려는 다양한 기법들에 대해 소개하며, 이들을 데이터 전처리, 사용하는 모형, 손실 함수에 따라 정리한다. 또한, 각 연구에서 사용하고 있는 재현 데이터 생성 기법들의 성능을 측정하는 다양한 평가 측도들에 대해서도 소개한다. 마지막으로 기존 논문 리뷰를 바탕으로 향후 의미있는 연구 방향에 대해서도 기술한다. 심층 생성 모형 학습법과 재현 데이터의 근본적인 차이를 심도 있게 분석하여 현실적이면서도 구체적인 연구 주제를 제시한다는 점에서 앞으로의 연구자들에게 실제적인 도움을 줄 수 있을 것이라 기대한다. Recently, many individuals and organizations have been demanding access to big public data to extract meaningful information from them and thus be able to elaborate their services. However, as it can also lead to unexpected privacy leakage, the distribution should be treated carefully. Synthetic data generation is a popular technique for simultaneously de-identifying privacy and data usability. Deep learning-based generative models have been shown to achieve high performance in generating high-dimensional data such as images, so there is an increasing number of approaches to apply deep learning methods to synthetic data generation. In this paper, we review various synthesizing techniques using deep neural networks, organizing regard to their pre-processing, architectures, and objective functions. We also deal with widely used measures to evaluate their corresponding synthesized data in two views: usability and identification degree. Finally, we suggest interesting and promising future works in this field based on in-depth analysis of deep learning-based generative models and data synthesis. We hope that our suggestions will provide practical help to future researchers.

      • KCI등재

        데이터 중심의 정보 시스템 도입 방법론: 고객관계관리 시스템에의 적용 사례

        박종한,이석기,Park, Jong-Han,Lee, Seok-Kee 한국데이터정보과학회 2010 한국데이터정보과학회지 Vol.21 No.2

        최근 대부분의 기업이 정보시스템 개발을 아웃소싱에 의존하면서, 도입하고자 하는 정보시스템을 효과적으로 활용하는데 필요한 데이터와 현재 기업이 가지고 있는 데이터간의 차이에 대한 사전 분석이 성공적인 정보시스템 도입을 위해 반드시 필요하다. 그 예로 고객관계관리 시스템의 도입 사례의 경우 가장 큰 실패 요인이 사전에 기업이 가지고 있는 데이터에 대한 분석을 간과한 것에 기인하고 있다. 하지만, 아직까지 데이터 관점에서 정보시스템 도입 방법론을 체계적으로 제안한 연구가 존재하지 않았다. 본 연구에서 정보시스템 도입과 관련된 데이터 비용을 사전에 분석하여 도입 의사결정에 활용할 수 있는 정보시스템 도입 방법론을 제안하고 실제 사례에서 어떻게 활용 될 수 있는지를 사례 시뮬레이션을 통해 보여주고자 한다. 제안된 방법론을 이용해 실제 기업의 정보시스템 도입 의사결정자들은 기업의 전략에 따라 다양한 정보시스템을 디자인하고 그에 따른 데이터 관련 비용을 장, 단기적인 계획 하에서 분석 가능하므로, 도입 단계에서 숨어있는 데이터 관련 비용에 의해 발생할 수 있는 정보시스템 도입 실패에 대한 위험 부담을 사전에 방지할 수 있다. While outsourcing has become a basic strategy of the information system adoption, there is an emerging needs to analyze the gap between the required data and the existing data for the new system from an adopting company's perspective. In CRM adoption failure cases, the first reason is adopting company pay no attention to the data that will support investment and systems. So far, there is no attempt to consider data driven approach in information system adoption field. Hence, we propose Information System Adoption Model based on Data (ISAMD) and show how to use in real world by simulation. By using ISAMD, information system adoption decision maker can simulate the needed data and related cost with various information system alternatives in short term, and long term planning. ISAMD can prevent the possible threat of unexpected data cost in adopting new system at the adopting decision stage.

      • KCI등재

        LDA 기법을 이용한 버스 승객의 잠재적 이동패턴 분석

        조아,이경희,조완섭,Cho, Ah,Lee, Kyung Hee,Cho, Wan Sup 한국데이터정보과학회 2015 한국데이터정보과학회지 Vol.26 No.5

        최근 교통 분야에서 발생하는 교통 빅데이터 (교통카드 데이터, ATMS 데이터 등)의 분석결과를 교통 정책에 활용하는 사례가 늘어나고 있는 추세이다. 또한 교통 데이터 분석 기법을 기존의 단순 빈도 분석 기법에서 다양한 데이터 마이닝 기법으로 확장하여 교통 데이터 속에 숨어있는 의미를 파악하려는 연구도 진행되고 있다. 본 연구에서는 교통카드 데이터에 대하여 토픽모델링 기법 중의 하나인 LDA (Latent Dirichlet Allocation) 기법을 적용하여 청주시 버스 승객들의 이동패턴을 분석한다. 이를 위해 교통카드 데이터의 하차 결측치를 추정하고, LDA 기법을 적용하여 이동패턴을 추출하였다. 또한 LDA 분석으로 도출된 값을 측정값으로 하여 다차원적 분석을 함으로써 청주시 버스 승객들의 이동패턴 특징을 파악할 수 있다. 분석 결과, 청주시의 경우 크게 1) 시외지역에서 터미널을 이용해 청주시에서 유입되는 패턴, 2) 주거지역에서 상업지역으로 이동하는 패턴, 3) 청주 인근 학교에서 상업 지역 (청주 중심가)로 이동하는 패턴을 발견할 수 있었다. 이동패턴은 도시 계획, 대중교통서비스 향상, 버스 노선 신설 등 다양한 교통정책의 수립에 활용될 수 있을 것으로 기대된다. Recently, transportation big data generated in the transportation sector has been widely used in the transportation policies making and efficient system management. Bus passengers' mobility patterns are useful insight for transportation policy maker to optimize bus lines and time intervals in a city. We propose a new methodology to discover mobility patterns by using transportation card data. We first estimate the bus stations where the passengers get-off because the transportation card data don't have the get-off information in most cities. We then applies LDA (Latent Dirichlet Allocation), the most representative topic modeling technique, to discover mobility patterns of bus passengers in Cheong-Ju city. To understand discovered patterns, we construct a data warehouse and perform multi-dimensional analysis by bus-route, region, time-period, and the mobility patterns (get-on/get-off station). In the case of Cheong Ju, we discovered mobility pattern 1 from suburban area to Cheong-Ju terminal, mobility pattern 2 from residential area to commercial area, mobility pattern 3 from school areas to commercial area.

      • KCI등재

        빅데이터와 통계학

        김용대,조광현,Kim, Yongdai,Cho, Kwang Hyun 한국데이터정보과학회 2013 한국데이터정보과학회지 Vol.24 No.5

        빅데이터 시대를 맞이하여 통계학과 통계학자의 역할에 대하여 살펴본다. 빅데이터에 대한 정의 및 응용분야를 살펴보고, 빅데이터 자료의 통계학적 특징들 및 이와 관련한 통계학적 의의에 대해서 설명한다. 빅데이터 자료 분석에 유용하게 사용되는 통계적 방법론들에 대해서 살펴보고, 국외와 국내의 빅데이터 관련 프로젝트를 소개한다. We investigate the roles of statistics and statisticians in the big data era. Definition and application areas of big data are reviewed and statistical characteristics of big data and their meanings are discussed. Various statistical methodologies applicable to big data analysis are illustrated, and two real big data projects are explained.

      • KCI등재

        Rhipe를 활용한 빅데이터 처리 및 분석

        고영준,김진석 한국데이터정보과학회 2013 한국데이터정보과학회지 Vol.24 No.5

        The Hadoop system was developed by the Apache foundation based on GFS and MapReduce technologies of Google. Many modern systems for managing and processing the big data have been developing based on the Hadoop because the Hadoop was designed for scalability and distributed computing. The R software has been considered as a well-suited analytic tool in the Hadoop based systems because the R is flexible to other languages and has many libraries for complex analyses. We introduced Rhipe which is a R package supporting MapReduce programming easily under the Hadoop system, and implemented a MapReduce program using Rhipe for multiple regression especially. In addition, we compared the computing speeds of our program with the other packages (ff and bigmemory) for processing the large data. The simulation results showed that our program was more fast than ff and bigmemory as the size of data increases. 최근 Hadoop은 빅데이터의 저장, 처리 및 분석을 위한 표준시스템으로 인식되고 있으며, 많은 빅데이터 관련 시스템들이 Hadoop에 기반하여 구축되고 있다. 또한 R은 다른 소프트웨어와의 연동이 쉽고 다양한 분석 라이브러리들을 탑재하고 있어서 Hadoop 환경하에서 빅데이터의 분석을 위한 공통 분석 플렛폼으로 여겨지고 있다. 본 논문에서는 Hadoop 환경에서 분산 데이터 처리를 위한 R패키지인 Rhipe를 소개하고 빅데이터를 이용한 병렬 다중회귀분석을 위해 MapReduce 프로그램을 작성하는 방법을 예시하였다. 또한 시뮬레이션을 통해 기존의 대용량처리를 위한 R 분석패키지인 ff와 bigmemory와의 연산속도를 비교하였으며, 데이터의 크기가 커짐에 따라 Rhipe를 이용한 MapReduce 프로그램의 계산속도가 ff와 bigmemory에 비해 우수함을 확인하였다.

      • KCI우수등재

        재중동포 가족 찾기 서신 데이터베이스 구축 및 토픽 모델링과 로컬 대리 분석을 적용한 서신 내용 분석

        김현희(Hyon Hee Kim),조진남(Jinnam Jo) 한국데이터정보과학회 2021 한국데이터정보과학회지 Vol.32 No.1

        본 연구에서는 1974년에서 2008년까지 진행된 KBS 한민족방송 가족 찾기 프로그램으로 발송된 재중동포 서신 8만 여통에 대하여 데이터베이스를 구축하고 서신의 내용을 분석하였다. 서신을 스캔하여 이미지 파일로 생성한 다음, 태그를 사용하여 서신 내용을 요약하여 서신 이미지를 저장하였다. 태그를 기반으로 검색이 가능하며 검색된 서신에 대한 발송지, 발송자, 발송일 정보와 태그를 저장하여 분석에 활용할 수 있도록 하였다. 데이터베이스 구축 시 서신의 주제를 분류하기 위해서 정치, 경제, 문화, 생활 등의 대분류를 정의하였으며, 각 대분류 내에서 구체적 내용을 파악하기 위해 토픽 모델링을 실시하였고 해당 주제에서 중요한 키워드를 찾기 위해서 나이브 베이즈 알고리즘으로 서신 분류 모델을 생성하고 설명가능 인공지능 기술의 하나인 로컬 대리 분석을 적용하여 해당 분야로 분류하게 된 핵심 키워드들을 추출하였다. 정치 분야의 서신 내용으로는 남북 관계, 한국 정부에 대한 요청 등의 주제를 찾아내었고, 경제 분야의 서신 내용으로는 물품 요청 및 국어사전, 일한사전 등과 같은 구체적인 요청 품목을 찾아내었다. 많은 빅데이터 연구가 다양한 학문 분야에서 융합 연구로 이루어지고 있는 반면, 인문학 분야에서 적용된 예는 드물다. 본 연구는 인문학 연구에도 빅데이터 분석에서 활용되는 다양한 분석 기법을 적용하여 성공적으로 결과를 도출할 수 있다는 것을 보여줌으로써 인문학 분야에서의 빅데이터 기반 연구가 의미가 있음을 보여준다. In this paper, we presented a correspondence database from ethnic Koreans living in China and content analysis using topic modeling and local surrogates. Scan image files were generated from correspondences and contents were summarized using tags. And then, image files were uploaded into the database. In addition, sender information such as name, location, dates, and subjects were inserted. Topic modeling was applied to specialized subjects such as politics, economy, society, and culture. Also, important keywords were extracted using the local surrogate analysis, one of the explainable artificial intelligence technology. In the subject of politics, the relationship between South Korea and North Korea and requests for improving the status of Korean living in China to Korean government were found. In the subject of economics, requests for daily necessity, dictionary, etc. were found. This paper shows that successful results can be derived from humanities research by applying various big data analysis techniques used in big data research.

      • KCI등재

        데이터마이닝을 이용한 한우의 우수 지방산합성효소 유전자 조합 선별

        김병두,김현지,이성원,이제영,Kim, Byung-Doo,Kim, Hyun-Ji,Lee, Seong-Won,Lee, Jea-Young 한국데이터정보과학회 2014 한국데이터정보과학회지 Vol.25 No.6

        가축의 경제적인 특성은 환경적인 요인과 유전적인 요인의 영향을 받으며, 또한 하나의 유전자가 아닌 여러 유전자의 상호작용의 영향을 받는다고 알려져 있다. 본 논문에서는 선형회귀모형을 활용하여 환경적인 요인을 보정한 자료로 한우의 맛과 육질에 영향을 준다고 밝혀진 지방산합성효소의 단일염기다형성 5개를 이용해 한우의 경제 형질에 영향을 미치는 우수 유전자 조합을 선별하고 우수 유전자형을 밝힌다. 이를 위해 데이터마이닝 기법인 인공신경망, 로지스틱 회귀모형, C5.0, CART 기법을 이용하였다. 공정한 모형 평가를 위해 전체 데이터를 훈련용 데이터 (60%)와 검증용 데이터 (40%)로 나누었고, 훈련용 데이터에서 설정된 모형을 검증용 데이터에 적용시켜 정확도를 비교하였다. 그 결과 C5.0이 최적 모형으로 선정되었으며, C5.0의 의사결정나무를 통해 우수 유전자 조합을 선별하였다. Economic traits of livestock are affected by environmental factors and genetic factors. In addition, it is not affected by one gene, but is affected by interaction of genes. We used a linear regression model in order to adjust environmental factors. And, in order to identify gene-gene interaction effect, we applied data mining techniques such as neural network, logistic regression, CART and C5.0 using five-SNPs (single nucleotide polymorphism) of FASN (fatty acid synthase). We divided total data into training (60%) and testing (40%) data, and applied the model which was designed by training data to testing data. By the comparison of prediction accuracy, C5.0 was identified as the best model. It were selected superior genotype using the decision tree.

      • KCI등재

        음의 일치 빈도를 고려한 유사성 측도의 대소 관계 규명에 관한 연구

        박희창,Park, Hee Chang 한국데이터정보과학회 2015 한국데이터정보과학회지 Vol.26 No.1

        세계 경제 포럼과 대한민국 지식경제부에서 10대 핵심정보기술 가운데 하나로 빅 데이터를 선정한 바 있다. 빅 데이터에 대한 분석은 결국 데이터들이 가지고 있는 속성을 얼마나 효과적으로 분석하느냐가 관건이다. 이를 위한 기법들 중에서 군집 분석 방법은 거리 또는 유사성 측도를 이용하여 각 개체의 유사성을 측정하여 유사도가 높은 대상 집단을 분류하고 군집에 속한 개체들의 유사성과 서로 다른 군집에 속한 개체간의 상이성을 밝혀내는 통계분석 기법이다. 군집분석에서 이용되고 있는 유사성 측도는 데이터의 속성에 따라 여러 가지의 형태로 분류할 수 있으며, 범주형 데이터에 적용 가능한 측도들은 음의 일치 빈도를 고려한 측도, 음의 일치 빈도를 고려하지 않는 측도, 그리고 주변 확률 분포의 포함 여부에 의한 측도 등으로 구분할 수 있다. 음의 일치 빈도는 동시발생빈도와 더불어 두 항목간의 관련성에 대한 순방향성을 의미하므로 이를 고려하지 않는 유사성 측도들보다 이를 고려한 유사성 측도들이 좀 더 현실적인 측도라고 할 수 있다. 따라서 본 논문에서는 이분형 데이터에 대해 일반적으로 많이 활용되고 있는 음의 일치 빈도를 고려한 측도들에 대해 대소 관계를 규명함으로써 이들의 상한 및 하한을 설정하는 문제를 고려하였다. The World Economic Forum and the Korean Ministry of Knowledge Economy have selected big data as one of the top 10 in core information technology. The key of big data is to analyze effectively the properties that do have data. Clustering analysis method of big data techniques is a method of assigning a set of objects into the clusters so that the objects in the same cluster are more similar to each other clusters. Similarity measures being used in the cluster analysis may be classified into various types depending on the nature of the data. In this paper, we studied upper and lower bounds for binary similarity measures with negative matches such as Russel and Rao measure, simple matching measure by Sokal and Michener, Rogers and Tanimoto measure, Sokal and Sneath measure, Hamann measure, and Baroni-Urbani and Buser mesures I, II. And the comparative studies with these measures were shown by real data and simulated experiment.

      • KCI등재

        RHIPE 플랫폼에서 빅데이터 로지스틱 회귀를 위한 학습 알고리즘

        정병호,임동훈,Jung, Byung Ho,Lim, Dong Hoon 한국데이터정보과학회 2016 한국데이터정보과학회지 Vol.27 No.4

        빅데이터 시대에 머신러닝의 중요성은 더욱 부각되고 있고 로지스틱 회귀는 머신러닝에서 분류를 위한 방법으로 의료, 경제학, 마케팅 및 사회과학 전반에 걸쳐 널리 사용되고 있다. 지금까지 R과 Hadoop의 통합환경인 RHIPE 플랫폼은 설치 및 MapReduce 구현의 어려움으로 인해 거의 연구가 이루지 지지 않았다. 본 논문에서는 대용량 데이터에 대해 로지스틱 회귀 추정을 위한 두가지 알고리즘 즉, Gradient Descent 알고리즘과 Newton-Raphson 알고리즘에 대해 MapReduce로 구현하고, 실제 데이터와 모의실험 데이터를 가지고 이들 알고리즘 간의 성능을 비교하고자 한다. 알고리즘 성능 실험에서 Gradient Descent 알고리즘은 학습률에 크게 의존하고 또한 데이터에 따라 수렴하지 않는 문제를 갖고 있다. Newton-Raphson 알고리즘은 학습률이 불필요 할 뿐만 아니라 모든 실험 데이터에 대해 좋은 성능을 보였다. Machine learning becomes increasingly important in the big data era. Logistic regression is a type of classification in machine leaning, and has been widely used in various fields, including medicine, economics, marketing, and social sciences. Rhipe that integrates R and Hadoop environment, has not been discussed by many researchers owing to the difficulty of its installation and MapReduce implementation. In this paper, we present the MapReduce implementation of Gradient Descent algorithm and Newton-Raphson algorithm for logistic regression using Rhipe. The Newton-Raphson algorithm does not require a learning rate, while Gradient Descent algorithm needs to manually pick a learning rate. We choose the learning rate by performing the mixed procedure of grid search and binary search for processing big data efficiently. In the performance study, our Newton-Raphson algorithm outpeforms Gradient Descent algorithm in all the tested data.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼