RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
        • 등재정보
        • 학술지명
        • 주제분류
        • 발행연도
          펼치기
        • 작성언어
      • 무료
      • 기관 내 무료
      • 유료
      • KCI우수등재

        우리나라 공공데이터의 소재정보

        김기환,이창호,최보승 한국데이터정보과학회 2019 한국데이터정보과학회지 Vol.30 No.5

        As the fourth industrial revolution becomes a major issue, interest in big data is growing. Big data refers to the technology for analyzing and utilizing countless numbers of data, and public data segments close to the real world account for their utilization. In Korea, data are widely generated in the public data sector as government 3.0 policy, starting with e-government. However, the sites that provide the data are not organized and the data being delivered different from site to site, requiring a lot of information to access them. Therefore, the present status of big data and administrative data existing in the country is classified according to the institutions, contents, utilization, and disclosure levels in order to better understanding the general outline of public data providing sites. As an information on material resources of the public data is summarized, basic knowledge on the presence, content, and utilization of big data and administrative data across a country were developed and statistical utilization status, methods, values, and limit development was developed. 4차 산업 혁명이 주요 이슈로 떠오르면서 빅데이터에 대한 관심도 커지고 있다. 빅데이터는 무수히 많은 데이터를 분석하여 활용하는 기술을 의미하며, 활용 측면에서 실생활에 밀접한 공공데이터 부문이 많은 비중을 차지하고 있다. 우리나라의 경우 전자정부를 시작으로 정부 3.0을 실시하면서 공공데이터 부문에서 데이터가 광범위하게 생성되고 있다. 하지만 데이터를 제공하는 사이트가 정리되어 있지 않으며, 데이터의 제공형태도 각 사이트마다 상이하여 데이터 이용에 많은 정보를 필요로 하고 있다. 이에 본 논문에서는 국가에 존재하는 빅데이터와 행정자료의 현황을 기관, 내용, 활용 및 공개 정도 등으로 분류하여 전체 윤곽을 파악하고 이해할 수 있도록 내용을 정리하였다. 공공데이터의 소재 정보를 정리함으로써 국가전반의 빅데이터와 행정자료의 존재현황과 내용 및 활용도에 대한 기본지식을 배양하고, 통계적 활용 현황, 방법, 가치와 한계, 발전방향에 관한 소양을 쌓을 수 있게 하고자 한다.

      • KCI우수등재

        심층 생성 모형을 이용한 재현 데이터 생성 방법론 리뷰 및 향후 연구 제언

        김지우,권성훈,김동하 한국데이터정보과학회 2023 한국데이터정보과학회지 Vol.34 No.5

        최근 데이터 통합 등을 통해 만들어진 거대 데이터에서 유용한 정보를 추출하고, 이를 통해 서비스를 정교화하기 위하여 많은 개인 및 기관에서 거대한 공공데이터에 대한 접근을 요구하고 있다. 하지만 이러한 거대 데이터 분석은 예기치 못한 개인정보노출이 발생할 수도 있기 때문에 공공데이터의 배포는 매우 조심스럽게 이루어져야 한다. 재현 데이터는 개인정보 비식별화와 데이터의 유용성 확보를 동시에 달성하기 위하여 사용하는 대표적인 기법 중 하나이다. 심층 인공 신경망 기반 방법론이 이미지 등의 고차원 관측 데이터 생성에 매우 높은 성능을 달성할 수 있음이 밝혀지면서 이를 재현 데이터에 활용하려는 연구가 활발하게 진행되고 있다. 본 논문에서는 심층 인공 신경망을 이용해 재현 데이터 생성을 하려는 다양한 기법들에 대해 소개하며, 이들을 데이터 전처리, 사용하는 모형, 손실 함수에 따라 정리한다. 또한, 각 연구에서 사용하고 있는 재현 데이터 생성 기법들의 성능을 측정하는 다양한 평가 측도들에 대해서도 소개한다. 마지막으로 기존 논문 리뷰를 바탕으로 향후 의미있는 연구 방향에 대해서도 기술한다. 심층 생성 모형 학습법과 재현 데이터의 근본적인 차이를 심도 있게 분석하여 현실적이면서도 구체적인 연구 주제를 제시한다는 점에서 앞으로의 연구자들에게 실제적인 도움을 줄 수 있을 것이라 기대한다. Recently, many individuals and organizations have been demanding access to big public data to extract meaningful information from them and thus be able to elaborate their services. However, as it can also lead to unexpected privacy leakage, the distribution should be treated carefully. Synthetic data generation is a popular technique for simultaneously de-identifying privacy and data usability. Deep learning-based generative models have been shown to achieve high performance in generating high-dimensional data such as images, so there is an increasing number of approaches to apply deep learning methods to synthetic data generation. In this paper, we review various synthesizing techniques using deep neural networks, organizing regard to their pre-processing, architectures, and objective functions. We also deal with widely used measures to evaluate their corresponding synthesized data in two views: usability and identification degree. Finally, we suggest interesting and promising future works in this field based on in-depth analysis of deep learning-based generative models and data synthesis. We hope that our suggestions will provide practical help to future researchers.

      • KCI우수등재

        SEC 프로세스를 통한 이종 산업 간 데이터 결합 문제 해결

        정수민,오현진,정은혜,조수현 한국데이터정보과학회 2024 한국데이터정보과학회지 Vol.35 No.5

        개인화 서비스의 중요도가 높아짐에 따라 다양한 산업 간 데이터 결합이 활성화되고 있다. 그러나 기존 데이터 결합 방식은 민감한 정보를 포함한 데이터를 직접 주고 받기 때문에 개인정보 유출 가능성이 높다는 문제점을 가지고 있다. 이에 본 연구에서는 성별 또는 연령과 같은 최소한의 고유정보를 활용해 데이터를 결합하는 방식을 제안한다. 데이터 보안을 강화하기 위해 연합 학습 (Federated learning)과 분할 학습 (Split learning)을 차용하여 모델을 학습시켰으며, 그 결과 SEC 프로세스를 통해 데이터를 결합한 경우, 결합 전 단일일 데이터에 비해 더욱 향상된 예측 성능을 보였다. 이처럼 SEC 프로세스를 통해 최소한의 고유정보를 사용한 데이터 결합은 개인정보를 침해를 예방하여 프라이버시 보호를 강화한다는 점에서 기존 데이터 결합 방식의 문제 개선과 더불어, 더욱 향상된 예측을 통해 다양한 서비스에 적용할 수 있을 것으로 기대된다. As the importance of personalized services increases, data combination across different industries is becoming more active. However, existing data combining methods have the problem of high possibility of personal information leakage because of the direct exchange of data containing sensitive information. So in this study, we suggest a data combination method using minimal unique information such as gender and age. We used Federated Learning and Split Learning to enhance data security when training the model. As a result, combining data through the SEC process showed improved prediction performance compared to raw data. Data combination using minimal unique information through the SEC process enhances privacy protection by preventing infringement of personal information. So we expect this method can not only improving problems with existing data combination methods, but also be applied to various services through improved predictions.

      • KCI등재

        Rhipe를 활용한 빅데이터 처리 및 분석

        고영준,김진석 한국데이터정보과학회 2013 한국데이터정보과학회지 Vol.24 No.5

        The Hadoop system was developed by the Apache foundation based on GFS and MapReduce technologies of Google. Many modern systems for managing and processing the big data have been developing based on the Hadoop because the Hadoop was designed for scalability and distributed computing. The R software has been considered as a well-suited analytic tool in the Hadoop based systems because the R is flexible to other languages and has many libraries for complex analyses. We introduced Rhipe which is a R package supporting MapReduce programming easily under the Hadoop system, and implemented a MapReduce program using Rhipe for multiple regression especially. In addition, we compared the computing speeds of our program with the other packages (ff and bigmemory) for processing the large data. The simulation results showed that our program was more fast than ff and bigmemory as the size of data increases. 최근 Hadoop은 빅데이터의 저장, 처리 및 분석을 위한 표준시스템으로 인식되고 있으며, 많은 빅데이터 관련 시스템들이 Hadoop에 기반하여 구축되고 있다. 또한 R은 다른 소프트웨어와의 연동이 쉽고 다양한 분석 라이브러리들을 탑재하고 있어서 Hadoop 환경하에서 빅데이터의 분석을 위한 공통 분석 플렛폼으로 여겨지고 있다. 본 논문에서는 Hadoop 환경에서 분산 데이터 처리를 위한 R패키지인 Rhipe를 소개하고 빅데이터를 이용한 병렬 다중회귀분석을 위해 MapReduce 프로그램을 작성하는 방법을 예시하였다. 또한 시뮬레이션을 통해 기존의 대용량처리를 위한 R 분석패키지인 ff와 bigmemory와의 연산속도를 비교하였으며, 데이터의 크기가 커짐에 따라 Rhipe를 이용한 MapReduce 프로그램의 계산속도가 ff와 bigmemory에 비해 우수함을 확인하였다.

      • KCI우수등재

        지리 가중 주성분 분석을 이용한 주요 사망 원인 데이터 변동에 대한 연구

        김명진 한국데이터정보과학회 2024 한국데이터정보과학회지 Vol.35 No.1

        기술과 정보의 발달로 인해 많은 특성들을 포함하는 고차원 데이터는 다양한 분야에서 발생한다. 이를 처리하고 분석함에 있어 차원이 증가함에 따라 데이터 간의 거리가 증가하는 차원의 저주가 발생하며 이런 상황에서 차원 축소 방법을 통해 불필요하거나 중복되는 정보를 조정하여 의미 있는 특성을 추출할 수 있다. 주성분 분석은 차원 축소 방법의 하나로서 고차원 데이터가 갖는 연관성을 바탕으로 기존 변수 변동을 최대한으로 설명하는 연관되지 않는 새로운 몇 개의 특성을 생성하는 방법이다. 하지만, 주성분 분석의 경우 데이터의 전역적 공분산 구조 정보를 바탕으로 특성들을 재표현하며 모든 지역에서 동일한 주성분을 생성하게 된다. 따라서, 지역 특성을 설명할 수 없으며 주요 원인별 사망률 데이터와 같이 지역적인 공분산 구조가 존재하는 경우 그러한 지역 특징을 담아내지 못하는 한계가 있다. 본 연구에서는 이러한 공간적 이질성을 설명할 수 있는 지리 가중 주성분 분석을 이용하여 주요 사망 원인별 사망률 변동을 적절히 설명할 뿐만 아니라 주성분에 관련된 중요 변수들을 지역별로 파악하였다. 특히, 중요 변수들이 미네소타, 아이오와, 미주리, 아칸소, 루이지애나 등의 지역을 기점으로 동서로 크게 나뉘는 것을 확인하였다. High-dimensional data is common in various fields. However, it is challenging to handle it due to the curse of dimensionality. Dimensionality reduction methods, such as principal component analysis (PCA), are considered to address this issue. PCA generates new, unrelated features that aim to explain the variation in data. However, PCA expresses characteristics based on the global structure information of the data, resulting in the same principal components across all regions. This limitation becomes apparent when handling data exhibiting regional covariance structures, and it fails to capture regional characteristics. We employ geographically weighted principal component analysis, which explains spatial heterogeneity, providing a better understanding of data variation and the identification of important variables in the principal components specific to each region. In the application of mortality data, our findings reveal that patterns of features are notably distinguished between eastern and western areas, starting from Minnesota, Iowa, Missouri, Arkansas, and Louisiana.

      • KCI우수등재

        이미지 데이터에 대한 비선형 분류 방법의 비교

        박규리(Kyuri Park),박창이(Changyi Park) 한국데이터정보과학회 2021 한국데이터정보과학회지 Vol.32 No.4

        이미지 분류는 기계학습에서 가장 활발하게 연구되고 있는 주제 중 하나이다. 이미지 데이터는 일반적으로 2차원 혹은 3차원 행렬 구조를 가지고 있으며, 지지벡터기계 등 전통적인 분류 기법을 적용하기 위해 벡터화를 시행하게 된다. 하지만 벡터화는 이미지 데이터가 제공하는 구조적 정보를 무시할 수 있다. 구조적 정보를 이용하는 합성곱 신경망은 이러한 단점을 보완하기 위해 도입되었으나, 합성곱 신경망을 포함하는 신경망은 일반적으로 많은 데이터를 요구한다. 반면 지지벡터기계는 적은 수의 표본에서도 상대적으로 안정적인 분류 성능을 보일 뿐만 아니라 지지행렬기계 및 커널 지지행렬기계로 확장됨으로써 이미지 데이터의 구조적 정보도 반영할 수 있게 되었다. 본 논문에서는 표본의 개수가 상대적으로 적은 이미지 데이터에 대하여 비선형 분류 방법인 지지벡터기계, 커널 지지행렬기계, 그리고 합성곱 신경망의 예측 성능을 비교하고 선형 분류 방법이지만 이미지 데이터의 구조적 정보를 반영하는 지지행렬기계도 함께 비교한다. Image classification is one of the most actively studied topics in machine learning. Image data generally has a two-dimensional or three-dimensional matrix structure, and vectorization is performed to apply traditional classification techniques such as support vector machine (SVM). However, vectorization may ignore the structural information provided by image data. Convolutional neural network (CNN) using structural information has been introduced as a remedy to the drawback, but neural networks including CNN generally require a lot of data. On the other hand, SVM shows stable classification performances even with a small number of samples, and extensions of SVM reflecting structural information such as support matrix machine (SMM) and kernel support matrix machine (KSMM) have been recently proposed. In this paper, we compare the predictive performances of SVM, SMM, KSMM, and CNN on image data with relatively small number of samples.

      • KCI우수등재

        빅데이터 기반 전력계통 배전설비 고장예측시스템 구축 및 최적 투자비 산출을 위한 선행활동 수행에 관한 연구

        임청원(Chung-won Lim),한상국(Sang-kook Han) 한국데이터정보과학회 2018 한국데이터정보과학회지 Vol.29 No.3

        최근 들어 신뢰성분석을 이용한 시설물의 유지보수를 수행하는 RCM이 모든 산업분야에서 활발히 진행되고 있으며, 특히 빅데이터 처리기술이 발전함에 따라 산업전반에 걸쳐 빅데이터를 이용한 서비스가 활성화되고 있다. 배전설비에 있어서도 RCM 및 빅데이터 기술을 적용한 관리를 시도하고 있으나 대부분의 배전설비에 대한 RCM은 열화에 의한 고장정보만을 고려하고 있다. 그러나 같은 종류의 장치라고 하더라도 사용환경이나 사용정도에 따라 고장정도는 많은 차이가 존재한다. 따라서 환경적인 요인을 고려한 RCM (reliability centered maintenance; 설비의 각 부품 단위별로 고장 해석 및 성향분석을 통해 부품의 교체시기를 사전에 판명, 교체함으로써 설비 보전비율의 극소화와 생산성 극대화를 추구하는 설비 보전 방식의 하나)을 수행하여야 최적의 유지보수 정책이 수립될 수 있다. 그러나 현재 국내 배전설비 유지보수에 빅데이터 기술을 적용하거나 RCM을 수행하기 위해서는 유지보수 및 고장 데이터 관리, 환경요인의 데이터화 등 우선적으로 해결되어야 할 사항들이 많다. 본 연구에서는 빅데이터를 이용한 최적의 배전설비 관리를 위해 선행되어야 할 사항들을 정리하고, 문제를 해결할 수 있는 방안을 연구함으로써 배전설비관리에 빅데이터 기술 및 RCM 기술을 적용한 최적의 관리 시스템을 구축할 수 있는 방안을 제시하고자 한다. Nowadays, RCM(Reliability Centered Maintenance), which means performing maintenance based on Reliability Analysis, is broadly applied to all over the industries. We also have seen an active utilization of big data in industries especially as advancements in big data processing technology is made. RCM and big data are also applicable to managing distribution facilities but are limited to fault resulted from deterioration only. However, as usage environment or usage level can cause different faults even from the same type of facilities, RCM must be performed in consideration of environmental factors to establish optimal maintenance plan. Currently, in case of domestic distribution facilities in Korea, there are issues to be resolved before applying RCM or big data such as maintenance and fault data system management, track record of environmental factors or more. This research studies the issues that must be settled in advance and the solutions to develop optimal distribution facility management system based on big data and RCM.

      • KCI우수등재

        기계학습 기반의 대공장비 수리부속 수요예측모형 연구

        김재동(Jaedong Kim),이한준(Hanjun Lee) 한국데이터정보과학회 2019 한국데이터정보과학회지 Vol.30 No.3

        장비의 수리부속 수요예측은 국방 예산집행 효율성에 상당한 영향을 미치는 군수 분야의 매우 중요한 과제 중 하나이다. 이에 우리 군에서는 장비 정비 과정에서 발생하는 관련 데이터를 정보체계에 축적하여 수요예측에 활용하고 있다. 지금까지의 연구에서는 시계열기법을 활용한 수리부속 수요예측이 주류를 이루었으나 예측 정확도가 낮아 개선이 요구되고 있다. 이에 본 연구에서는 우선 육군 장비정비정보체계에서 17,451,247개의 정형 및 비정형 항목을 포함하는 특정 대공장비 정비 데이터를 수집하였다. 최근 빅데이터 분석과 함께 주목받고 있는 데이터 마이닝 및 텍스트 마이닝 기법을 활용하여 수리부속 수요예측 모형을 제안하였다. 제안된 모형은 기존의 시계열기법에 비해 향상된 예측정확도를 보임을 확인하였다. Spare parts demand forecasting is one of the most critical tasks in logistics, because it considerably affects the efficiency of defense budget execution. Although time series methods have been the most common approach in prior studies, there is still room for improvement in terms of the prediction accuracy. In this study, we gathered 17,451,247 component consumption data including structured and unstructured data from the Defense Logistics Integrated Information System. Using the data, we propose demand forecasting models based on data mining and text mining methods. The results show that our approach can improve the prediction performance compared to that of existing approaches.

      • KCI우수등재

        유전체 자료분석을 위한 생존분석방법에 관한 고찰

        이승연(Seungyeoun Lee) 한국데이터정보과학회 2018 한국데이터정보과학회지 Vol.29 No.6

        관심의 대상이 되는 사건이 발생할 때까지 걸리는 생존시간을 다루는 생존분석의 가장 큰 특성은 생존시간이 완전하게 관측되지 않고 중도 절단 된다는 점이다. 이러한 중도절단자료의 특성을 고려하여 추정, 검정 및 모형적합에 대하여 고전적인 생존분석 방법들이 많이 개발되어져 왔으나, 마이크로 어레이자료를 시작으로 대용량의 유전체 자료가 수집되면서 유전적 정보와 생존시간과의 연관성 연구가 진행되면서 표본의 수에 비하여 엄청나게 많은 수의 유전정보 변수들을 다루는 새로운 통계적인 방법들이 생존자료에 확장되었다. 결과적으로 기존의 임상자료로만 구축된 통계예측모형에 유전체 정보가 추가적으로 고려됨으로써 생존함수에 대한 예측력이 향상되었고, 개인의 유전정보에 따라 더 적합한 치료방법이나 치료약을 개발해야 한다는 개인맞춤의학의 필요성이 부각되기 시작되었다. 다양한 첨단 생물학 기술을 통하여 서로 다른 형태의 대용량의 유전체 자료를 통합하는 방법론에 대한 연구들이 이루어지면서 기계학습 방법이 생존분석에 접목되어 많은 연구방법들이 개발되고 있다. 본 연구에서는 기존의 임상자료를 기반으로 분석하는 전통적인 생존분석 방법들을 소개하고, 고차원의 유전체 자료를 분석하기 위한 생존분석 방법들과 통합적인 유전체 자료분석을 위하여 생존분석에 접목된 기계학습방법들에 대하여 간략하게 살펴보고자 한다. Survival analysis focuses on the statistical inference for the time to event of interest, which cannot be often completely observed due to censoring. Considering the characteristics of these censored data, traditional survival analysis methods have been developed for estimation, testing, and model development to predict survival time for patients based on clinical data. However, large-scale data from high-throughput genomic technologies, especially microarrays, have been collected, which poses the challenging statistical issues in combining those with the survival time. Many statistical methods have been developed by additionally considering the high-dimensional genomic information in the statistical prediction model constructed only by the existing clinical data. Recently, there have been many studies on the methodology of integrating different types of genomic data through various advanced biologic techniques, which results in making an early prediction for the disease and developing personalized medicine. As well, there has been considerable interest in applying machine learning techniques to analyse these complex and huge amount of genomic data associated with the censored data. In this paper, we review the basic concepts in survival analysis, traditional statistical methods based on clinical data, more appropriate statistical methods dealing with genomic data, and machine learning methods extended to the survival analysis.

      • KCI등재

        기능적 의료정보 이해능력이 건강증진행위에 미치는 영향

        이지은,이서영,노현경,이은주 한국데이터정보과학회 2015 한국데이터정보과학회지 Vol.26 No.6

        This study identified the level of functional health literacy and health promotion behavior and their relationship among middle-aged women. Data were collected from 163 middle-aged women between 40 and 64 residing D city and K province from December 1th to 26th, 2014 with a convenient sampling method. The average score of functional health literacy and health promotion behavior were 4.75±2.98 and 2.30±0.55, respectively Health promotion behavior was positively associated with functional health literacy. The full model accounted for 43.2% of the variance in health promotion behavior in middle-aged women. Therefore, strategies that effectively improving the level of functional health literacy are necessary to promote health behaviors in middle-aged women so that they have better health status and quality of life in later stage of life. 본 연구는 우리나라 중년 여성의 기능적 의료정보 이해능력과 건강증진행위의 관련성을 파악하고자 시행되었다. 연구대상은 K도와 D광역시 1개에 거주하는 40∼64세의 중년 여성으로 편의추출 방식으로 수집하였다. 연구결과 중년 여성의 기능적 의료정보 이해능력은 13점 만점에 4.75±2.98점, 건강증진행위는 5점 만점에 2.30±0.55점으로 낮게 나타났다. 기능적 의료정보 이해능력과 건강증진행위는 양의 상관관계가 있다고 나타났으며, 기능적 의료정보 이해능력은 연령, 교육수준 등의 인구사회학적 요인을 통제한 상태에서 중년 여성의 건강증진행위에 유의한 영향을 주는 것으로 확인되었다. 이는 의료정보 이해능력이 향상될수록 건강증진행위를 증가시킬 수 있다는 결과이다. 따라서 중년 여성을 위한 맞춤식 교육프로그램 및 의료정보 이해능력을 효과적으로 향상시킬 수 있는 전략을 개발하고 그 효과를 검증하는 연구가 지속되어야 할 것을 제안하는 바이다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼