RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
        • 등재정보
        • 학술지명
        • 주제분류
        • 발행연도
          펼치기
        • 작성언어

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI우수등재

        심층 생성 모형을 이용한 재현 데이터 생성 방법론 리뷰 및 향후 연구 제언

        김지우,권성훈,김동하 한국데이터정보과학회 2023 한국데이터정보과학회지 Vol.34 No.5

        최근 데이터 통합 등을 통해 만들어진 거대 데이터에서 유용한 정보를 추출하고, 이를 통해 서비스를 정교화하기 위하여 많은 개인 및 기관에서 거대한 공공데이터에 대한 접근을 요구하고 있다. 하지만 이러한 거대 데이터 분석은 예기치 못한 개인정보노출이 발생할 수도 있기 때문에 공공데이터의 배포는 매우 조심스럽게 이루어져야 한다. 재현 데이터는 개인정보 비식별화와 데이터의 유용성 확보를 동시에 달성하기 위하여 사용하는 대표적인 기법 중 하나이다. 심층 인공 신경망 기반 방법론이 이미지 등의 고차원 관측 데이터 생성에 매우 높은 성능을 달성할 수 있음이 밝혀지면서 이를 재현 데이터에 활용하려는 연구가 활발하게 진행되고 있다. 본 논문에서는 심층 인공 신경망을 이용해 재현 데이터 생성을 하려는 다양한 기법들에 대해 소개하며, 이들을 데이터 전처리, 사용하는 모형, 손실 함수에 따라 정리한다. 또한, 각 연구에서 사용하고 있는 재현 데이터 생성 기법들의 성능을 측정하는 다양한 평가 측도들에 대해서도 소개한다. 마지막으로 기존 논문 리뷰를 바탕으로 향후 의미있는 연구 방향에 대해서도 기술한다. 심층 생성 모형 학습법과 재현 데이터의 근본적인 차이를 심도 있게 분석하여 현실적이면서도 구체적인 연구 주제를 제시한다는 점에서 앞으로의 연구자들에게 실제적인 도움을 줄 수 있을 것이라 기대한다. Recently, many individuals and organizations have been demanding access to big public data to extract meaningful information from them and thus be able to elaborate their services. However, as it can also lead to unexpected privacy leakage, the distribution should be treated carefully. Synthetic data generation is a popular technique for simultaneously de-identifying privacy and data usability. Deep learning-based generative models have been shown to achieve high performance in generating high-dimensional data such as images, so there is an increasing number of approaches to apply deep learning methods to synthetic data generation. In this paper, we review various synthesizing techniques using deep neural networks, organizing regard to their pre-processing, architectures, and objective functions. We also deal with widely used measures to evaluate their corresponding synthesized data in two views: usability and identification degree. Finally, we suggest interesting and promising future works in this field based on in-depth analysis of deep learning-based generative models and data synthesis. We hope that our suggestions will provide practical help to future researchers.

      • KCI등재

        데이터 중심의 정보 시스템 도입 방법론: 고객관계관리 시스템에의 적용 사례

        박종한,이석기,Park, Jong-Han,Lee, Seok-Kee 한국데이터정보과학회 2010 한국데이터정보과학회지 Vol.21 No.2

        최근 대부분의 기업이 정보시스템 개발을 아웃소싱에 의존하면서, 도입하고자 하는 정보시스템을 효과적으로 활용하는데 필요한 데이터와 현재 기업이 가지고 있는 데이터간의 차이에 대한 사전 분석이 성공적인 정보시스템 도입을 위해 반드시 필요하다. 그 예로 고객관계관리 시스템의 도입 사례의 경우 가장 큰 실패 요인이 사전에 기업이 가지고 있는 데이터에 대한 분석을 간과한 것에 기인하고 있다. 하지만, 아직까지 데이터 관점에서 정보시스템 도입 방법론을 체계적으로 제안한 연구가 존재하지 않았다. 본 연구에서 정보시스템 도입과 관련된 데이터 비용을 사전에 분석하여 도입 의사결정에 활용할 수 있는 정보시스템 도입 방법론을 제안하고 실제 사례에서 어떻게 활용 될 수 있는지를 사례 시뮬레이션을 통해 보여주고자 한다. 제안된 방법론을 이용해 실제 기업의 정보시스템 도입 의사결정자들은 기업의 전략에 따라 다양한 정보시스템을 디자인하고 그에 따른 데이터 관련 비용을 장, 단기적인 계획 하에서 분석 가능하므로, 도입 단계에서 숨어있는 데이터 관련 비용에 의해 발생할 수 있는 정보시스템 도입 실패에 대한 위험 부담을 사전에 방지할 수 있다. While outsourcing has become a basic strategy of the information system adoption, there is an emerging needs to analyze the gap between the required data and the existing data for the new system from an adopting company's perspective. In CRM adoption failure cases, the first reason is adopting company pay no attention to the data that will support investment and systems. So far, there is no attempt to consider data driven approach in information system adoption field. Hence, we propose Information System Adoption Model based on Data (ISAMD) and show how to use in real world by simulation. By using ISAMD, information system adoption decision maker can simulate the needed data and related cost with various information system alternatives in short term, and long term planning. ISAMD can prevent the possible threat of unexpected data cost in adopting new system at the adopting decision stage.

      • KCI우수등재

        우리나라 공공데이터의 소재정보

        김기환,이창호,최보승 한국데이터정보과학회 2019 한국데이터정보과학회지 Vol.30 No.5

        As the fourth industrial revolution becomes a major issue, interest in big data is growing. Big data refers to the technology for analyzing and utilizing countless numbers of data, and public data segments close to the real world account for their utilization. In Korea, data are widely generated in the public data sector as government 3.0 policy, starting with e-government. However, the sites that provide the data are not organized and the data being delivered different from site to site, requiring a lot of information to access them. Therefore, the present status of big data and administrative data existing in the country is classified according to the institutions, contents, utilization, and disclosure levels in order to better understanding the general outline of public data providing sites. As an information on material resources of the public data is summarized, basic knowledge on the presence, content, and utilization of big data and administrative data across a country were developed and statistical utilization status, methods, values, and limit development was developed. 4차 산업 혁명이 주요 이슈로 떠오르면서 빅데이터에 대한 관심도 커지고 있다. 빅데이터는 무수히 많은 데이터를 분석하여 활용하는 기술을 의미하며, 활용 측면에서 실생활에 밀접한 공공데이터 부문이 많은 비중을 차지하고 있다. 우리나라의 경우 전자정부를 시작으로 정부 3.0을 실시하면서 공공데이터 부문에서 데이터가 광범위하게 생성되고 있다. 하지만 데이터를 제공하는 사이트가 정리되어 있지 않으며, 데이터의 제공형태도 각 사이트마다 상이하여 데이터 이용에 많은 정보를 필요로 하고 있다. 이에 본 논문에서는 국가에 존재하는 빅데이터와 행정자료의 현황을 기관, 내용, 활용 및 공개 정도 등으로 분류하여 전체 윤곽을 파악하고 이해할 수 있도록 내용을 정리하였다. 공공데이터의 소재 정보를 정리함으로써 국가전반의 빅데이터와 행정자료의 존재현황과 내용 및 활용도에 대한 기본지식을 배양하고, 통계적 활용 현황, 방법, 가치와 한계, 발전방향에 관한 소양을 쌓을 수 있게 하고자 한다.

      • KCI우수등재

        불균형 텍스트 데이터에서 카이제곱 통계량을 이용한 변수 선택의 편향성

        손원(Won Son) 한국데이터정보과학회 2020 한국데이터정보과학회지 Vol.31 No.5

        텍스트 데이터를 수치형 데이터로 변환하기 위해 사용되는 문서-단어행렬은 흔히 변수의 수가 많은 고차원 행렬 형태로 표현된다. 따라서 문서-단어행렬의 차원을 축소하기 위해 카이제곱 통계량, 오즈비 등의 지표를 이용하여 중요도가 높은 변수들만 선택하기도 한다. 특정 주제의 문서에 자주 사용되어 해당 주제와의 연관성이 높은 단어를 양변수, 반대로 해당 주제의 문서에 자주 사용되지 않는 단어를 음변수라 할 때 카이제곱 통계량은 양변수와 음변수를 모두 선택하는 양측 지표인 반면 오즈비는 양변수만 선택하는 단측 지표에 해당된다. 텍스트 데이터는 이항 분류 문제에서 급간 불균형도가 높은 경우가 많은데 이와 같은 불균형 텍스트 데이터에서는 카이제곱 통계량이 양변수만 많이 선택하는 편향성을 보인다. 이 논문에서는 불균형 텍스트 데이터의 변수 선택에서 카이제곱 통계량이 편향성을 보이는 이유에 대해 살펴 보고 실제 데이터를 통해 이와 많은 성질을 확인해본다. 또 카이제곱 통계량과 오즈비를 이용해 변수를 선택했을 때 분류 모형의 성능에 차이가 있는지 비교해본다. Usually document-term matrixes of text data are high-dimensional with many variables in columns. Therefore, for efficient text data analysis, feature selection metrics such as chi-square statistic and odds ratio are used for the choice of important variables. Chi-square statistic chooses negative features as well as positive features while odds ratio selects only positive features. However, for imbalanced text data, chi-square statistic tends to select much more positive features than negative ones. In this paper, we explain why does chi-square statistic select more positive values and observe this property with a real data example. In addition, the classification performance of two selection methods, chi-square statistic and odds ratio, is compared with real data.

      • KCI등재

        기능적 의료정보 이해능력이 건강증진행위에 미치는 영향

        이지은,이서영,노현경,이은주 한국데이터정보과학회 2015 한국데이터정보과학회지 Vol.26 No.6

        This study identified the level of functional health literacy and health promotion behavior and their relationship among middle-aged women. Data were collected from 163 middle-aged women between 40 and 64 residing D city and K province from December 1th to 26th, 2014 with a convenient sampling method. The average score of functional health literacy and health promotion behavior were 4.75±2.98 and 2.30±0.55, respectively Health promotion behavior was positively associated with functional health literacy. The full model accounted for 43.2% of the variance in health promotion behavior in middle-aged women. Therefore, strategies that effectively improving the level of functional health literacy are necessary to promote health behaviors in middle-aged women so that they have better health status and quality of life in later stage of life. 본 연구는 우리나라 중년 여성의 기능적 의료정보 이해능력과 건강증진행위의 관련성을 파악하고자 시행되었다. 연구대상은 K도와 D광역시 1개에 거주하는 40∼64세의 중년 여성으로 편의추출 방식으로 수집하였다. 연구결과 중년 여성의 기능적 의료정보 이해능력은 13점 만점에 4.75±2.98점, 건강증진행위는 5점 만점에 2.30±0.55점으로 낮게 나타났다. 기능적 의료정보 이해능력과 건강증진행위는 양의 상관관계가 있다고 나타났으며, 기능적 의료정보 이해능력은 연령, 교육수준 등의 인구사회학적 요인을 통제한 상태에서 중년 여성의 건강증진행위에 유의한 영향을 주는 것으로 확인되었다. 이는 의료정보 이해능력이 향상될수록 건강증진행위를 증가시킬 수 있다는 결과이다. 따라서 중년 여성을 위한 맞춤식 교육프로그램 및 의료정보 이해능력을 효과적으로 향상시킬 수 있는 전략을 개발하고 그 효과를 검증하는 연구가 지속되어야 할 것을 제안하는 바이다.

      • KCI등재

        In-memory data grid 기술을 활용한 택시 애플리케이션 성능 향상 기법 연구

        최치환(Chihwan Choi),김진혁(Jinhyuk Kim),박민규(Minkyu Park),권가은(Kaaen Kwon),정승현(Seunghyun Jung),프란코나자레노(Franco Nazareno),조완섭(Wansup Cho) 한국데이터정보과학회 2015 한국데이터정보과학회지 Vol.26 No.5

        최근 빅데이터 분야에서 데이터를 메모리에 적재 후 빠르게 처리하는 인메모리 컴퓨팅 기술이 새롭게 부각되고 있다. 인메모리 컴퓨팅 기술은 과거 대용량 메모리와 다중 프세서를 탑재한 고성능서버에 적용 가능하였지만, 점차 일반 컴퓨터를 초고속 네트워크로 연결하여 분산·병렬처리가 가능한구조로 변화하고 있다. 본 논문은 In-memory data grid (IMDG) 기술을 택시 애플리케이션에 접목하여 기존의 데이터베이스의 변경 없이 성능을 향상시키는 기법을 제안한다. IMDG 기술을 적용한경우 기존의 데이터베이스 반의 웹서비스에 비해 처리속도와 처리량이 평균 6∼9배정도 증가하며, 또한 부하량에 따른 처리량 변화의 폭이 매우 작음을 확인 하였다. Recent studies in Big Data Analysis are showing promising results, utilizing the main memory for rapid data processing. In-memory computing technology can be highly advantageous when used with high-performing servers having tens of gigabytes of RAM with multi-core processors. The constraint in network in these infrastructure can be lessen by combining in-memory technology with distributed parallel processing. This paper discusses the research in the aforementioned concept applying to a test taxi hailing application without disregard to its underlying RDBMS structure. The application of IMDG technology in the application’s backend API without restructuring the database schema yields 6 to 9 times increase in performance in data processing and throughput. Specifically, the change in throughput is very small even with increase in data load processing.

      • KCI등재

        R을 활용한 조건부 가치 측정법: 정보 가치 측정 사례 연구

        정병준,박노진,Jung, Byung-Joon,Pak, Ro-Jin 한국데이터정보과학회 2011 한국데이터정보과학회지 Vol.22 No.6

        The development of information technology provides us with more useful information but it arose to protect such information from inappropriate users. In the course of analyzing and managing the risks associated with information, it should be needed to accurately measure the value of information. We try to consider the contingent valuation method for this purpose. The contingent valuation method which is used to assess the value of public goods or nonmarket goods makes an statistical estimation for the willingness-to-pay. We show with an example how we can estimate the value of information by calculating the amount we are willing to pay the value of information that exists on the information system. Calculation is carried out by using R. 정보기술의 발달은 인간에게 많은 유익한 정보를 쉽게 제공하고 있으나 그 유익한 정보를 부적절한 사용자로부터 보호할 필요가 생겼다. 정보와 관련된 위험을 분석 및 관리하는 과정에서 정보에 대한 가치를 정확히 측정해야 한다. 한 가지 방법으로 조건부 가치 측정법에 대하여 고찰하려 한다. 공공재 또는 비시장재의 가치를 평가하는 방법인 조건부 가치 측정법을 통하면 관심 대상의 가치에 대한 불용의액수를 통계인 방법으로 추정할 수 있다. 특별히, 지불 용의액에 대한 신뢰구간의 추정에 초점을 맞추어 보았다. 정보시스템에 존재하는 정보의 가치를 보전하기 위해 지불하고자 하는 금액으로부터 정보의 가치를 통계적으로 추정하는 방법을 R을 이용한 사례를 분석하여 소개한다.

      • KCI등재

        공급사슬성과와 정보기술역량 간의 관계에 관한 탐색적 분석

        오수정,오광식,Oh, Soojung,Oh, Kwangsik 한국데이터정보과학회 2014 한국데이터정보과학회지 Vol.25 No.4

        최근 많은 기업들이 공급사슬에 정보통신기술 (information and communication technology; ICT)을 도입하고 있다. 그러나 기존의 연구들은 정보통신기술이 공급사슬에 미치는 영향과 관련하여 명확한 결론을 제시하지는 못하고 있다. 이에 본 연구는 기업에서 정보통신기술을 활용하는 역량의 관점을 제시하고 이를 네 가지 집단으로 분류하여 공급사슬성과에 미치는 영향을 살펴보고자 한다. ICT 역량을 구체적으로 협력과 변화 역량으로 구분하여 이를 토대로 집단을 네 가지 유형으로 분류하고, 공급사슬성과의 각 요인에 대하여 집단 간에 차이가 있는지 ANOVA분석과 사후검정을 실시하였다. 분석결과 정보통신기술의 역량이 모두 높은 집단이 공급사슬성과 중 특히 통합과 유연성 성과에서 가장 높은 수준인 것으로 나타났다. 통합과 유연성 변수의 세부문항에 대하여 집단 간 차이를 분석함으로써 기업 실무자에게 보다 정확하고 세세한 정보를 제공하고자 하였다. Recently, many firms have introduced information and communication technology (ICT) into supply chain. However, existing studies have not yet insisted definite conclusion with respect to ICT impact on supply chain. Thus, this study subdivides supply chain performance which previous researchers have studied comprehensively while suggesting perspective of the use of firm's ICT capabilities. We classify ICT capabilities into four types of group and then analyze the difference between groups regarding each factor of supply chain performance by ANOVA analysis and Tukey method. As a result of analysis, the group in which all ICT capabilities are high shows the highest level of integration and flexibility performance among supply chain performances. On the other hand, the group in which all ICT capabilities are low presents the lowest level of integration and flexibility performance. We also provide more precise and specific information with practitioners by analyzing the difference between groups with regard to detailed measurements on integration and flexibility variables.

      • KCI등재

        한국복지패널 자료를 이용한 아동기 공격성에 대한 경시적 자료 분석

        최나연,허집,Choi, Nayeon,Huh, Jib 한국데이터정보과학회 2014 한국데이터정보과학회지 Vol.25 No.6

        한국 학생들의 아동기 혹은 청소년기의 공격성에 대한 연구들은 대부분 횡단자료를 이용한 것들이다. 경시적 자료를 이용한 연구가 있지만, 반복측정된 자료들이 서로 독립이라는 가정 하에 연구되었다. 본 연구에서는 2006년부터 2012년까지 세 차례 반복측정에 의해 얻어진 한국복지패널 자료를 이용하여, 횡단자료 분석 연구의 결과인 아동 혹은 청소년의 공격성에 영향을 미치는 요인들로 알려진 학교 적응, 자아존중감, 우울 및 불안, 비행, 학교 폭력 피해 경험, 부모로부터 학대 경험과 인터넷 사용시간이 경시적 자료 분석에서도 공격성에 영향을 주는 지를 분석하고자 한다. 한국복지패널 자료의 결측치는 임의결측을 가정하고, 제한적 최우추정량을 이용한 선형혼합모형을 적합하고자 한다. Most of literatures on Korean child aggression are based on using the cross-sectional data sets. Although there is a related study with a longitudinal data set, it is assumed that the data sets measured repeatedly in the longitudinal data are mutually independent. A longitudinal data analysis for Korean child aggression is then necessary. This study is to analyze the effect of child development outcomes including academic achievement, self-esteem, depression anxiety, delinquency, victimization by peers, abuse by parents and internet using time on child aggression with Korea Welfare Panel Study data observed three times between 2006 and 2012. Since Korea Welfare Panel Study data have missing values, the missing at random is assumed. The linear mixed effect model and the restricted maximum likelihood estimation are considered.

      • KCI우수등재

        유전체 자료분석을 위한 생존분석방법에 관한 고찰

        이승연(Seungyeoun Lee) 한국데이터정보과학회 2018 한국데이터정보과학회지 Vol.29 No.6

        관심의 대상이 되는 사건이 발생할 때까지 걸리는 생존시간을 다루는 생존분석의 가장 큰 특성은 생존시간이 완전하게 관측되지 않고 중도 절단 된다는 점이다. 이러한 중도절단자료의 특성을 고려하여 추정, 검정 및 모형적합에 대하여 고전적인 생존분석 방법들이 많이 개발되어져 왔으나, 마이크로 어레이자료를 시작으로 대용량의 유전체 자료가 수집되면서 유전적 정보와 생존시간과의 연관성 연구가 진행되면서 표본의 수에 비하여 엄청나게 많은 수의 유전정보 변수들을 다루는 새로운 통계적인 방법들이 생존자료에 확장되었다. 결과적으로 기존의 임상자료로만 구축된 통계예측모형에 유전체 정보가 추가적으로 고려됨으로써 생존함수에 대한 예측력이 향상되었고, 개인의 유전정보에 따라 더 적합한 치료방법이나 치료약을 개발해야 한다는 개인맞춤의학의 필요성이 부각되기 시작되었다. 다양한 첨단 생물학 기술을 통하여 서로 다른 형태의 대용량의 유전체 자료를 통합하는 방법론에 대한 연구들이 이루어지면서 기계학습 방법이 생존분석에 접목되어 많은 연구방법들이 개발되고 있다. 본 연구에서는 기존의 임상자료를 기반으로 분석하는 전통적인 생존분석 방법들을 소개하고, 고차원의 유전체 자료를 분석하기 위한 생존분석 방법들과 통합적인 유전체 자료분석을 위하여 생존분석에 접목된 기계학습방법들에 대하여 간략하게 살펴보고자 한다. Survival analysis focuses on the statistical inference for the time to event of interest, which cannot be often completely observed due to censoring. Considering the characteristics of these censored data, traditional survival analysis methods have been developed for estimation, testing, and model development to predict survival time for patients based on clinical data. However, large-scale data from high-throughput genomic technologies, especially microarrays, have been collected, which poses the challenging statistical issues in combining those with the survival time. Many statistical methods have been developed by additionally considering the high-dimensional genomic information in the statistical prediction model constructed only by the existing clinical data. Recently, there have been many studies on the methodology of integrating different types of genomic data through various advanced biologic techniques, which results in making an early prediction for the disease and developing personalized medicine. As well, there has been considerable interest in applying machine learning techniques to analyse these complex and huge amount of genomic data associated with the censored data. In this paper, we review the basic concepts in survival analysis, traditional statistical methods based on clinical data, more appropriate statistical methods dealing with genomic data, and machine learning methods extended to the survival analysis.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼