RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
        • 등재정보
        • 학술지명
        • 주제분류
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI우수등재

        심층 생성 모형을 이용한 재현 데이터 생성 방법론 리뷰 및 향후 연구 제언

        김지우,권성훈,김동하 한국데이터정보과학회 2023 한국데이터정보과학회지 Vol.34 No.5

        최근 데이터 통합 등을 통해 만들어진 거대 데이터에서 유용한 정보를 추출하고, 이를 통해 서비스를 정교화하기 위하여 많은 개인 및 기관에서 거대한 공공데이터에 대한 접근을 요구하고 있다. 하지만 이러한 거대 데이터 분석은 예기치 못한 개인정보노출이 발생할 수도 있기 때문에 공공데이터의 배포는 매우 조심스럽게 이루어져야 한다. 재현 데이터는 개인정보 비식별화와 데이터의 유용성 확보를 동시에 달성하기 위하여 사용하는 대표적인 기법 중 하나이다. 심층 인공 신경망 기반 방법론이 이미지 등의 고차원 관측 데이터 생성에 매우 높은 성능을 달성할 수 있음이 밝혀지면서 이를 재현 데이터에 활용하려는 연구가 활발하게 진행되고 있다. 본 논문에서는 심층 인공 신경망을 이용해 재현 데이터 생성을 하려는 다양한 기법들에 대해 소개하며, 이들을 데이터 전처리, 사용하는 모형, 손실 함수에 따라 정리한다. 또한, 각 연구에서 사용하고 있는 재현 데이터 생성 기법들의 성능을 측정하는 다양한 평가 측도들에 대해서도 소개한다. 마지막으로 기존 논문 리뷰를 바탕으로 향후 의미있는 연구 방향에 대해서도 기술한다. 심층 생성 모형 학습법과 재현 데이터의 근본적인 차이를 심도 있게 분석하여 현실적이면서도 구체적인 연구 주제를 제시한다는 점에서 앞으로의 연구자들에게 실제적인 도움을 줄 수 있을 것이라 기대한다. Recently, many individuals and organizations have been demanding access to big public data to extract meaningful information from them and thus be able to elaborate their services. However, as it can also lead to unexpected privacy leakage, the distribution should be treated carefully. Synthetic data generation is a popular technique for simultaneously de-identifying privacy and data usability. Deep learning-based generative models have been shown to achieve high performance in generating high-dimensional data such as images, so there is an increasing number of approaches to apply deep learning methods to synthetic data generation. In this paper, we review various synthesizing techniques using deep neural networks, organizing regard to their pre-processing, architectures, and objective functions. We also deal with widely used measures to evaluate their corresponding synthesized data in two views: usability and identification degree. Finally, we suggest interesting and promising future works in this field based on in-depth analysis of deep learning-based generative models and data synthesis. We hope that our suggestions will provide practical help to future researchers.

      • KCI등재

        데이터 중심의 정보 시스템 도입 방법론: 고객관계관리 시스템에의 적용 사례

        박종한,이석기,Park, Jong-Han,Lee, Seok-Kee 한국데이터정보과학회 2010 한국데이터정보과학회지 Vol.21 No.2

        최근 대부분의 기업이 정보시스템 개발을 아웃소싱에 의존하면서, 도입하고자 하는 정보시스템을 효과적으로 활용하는데 필요한 데이터와 현재 기업이 가지고 있는 데이터간의 차이에 대한 사전 분석이 성공적인 정보시스템 도입을 위해 반드시 필요하다. 그 예로 고객관계관리 시스템의 도입 사례의 경우 가장 큰 실패 요인이 사전에 기업이 가지고 있는 데이터에 대한 분석을 간과한 것에 기인하고 있다. 하지만, 아직까지 데이터 관점에서 정보시스템 도입 방법론을 체계적으로 제안한 연구가 존재하지 않았다. 본 연구에서 정보시스템 도입과 관련된 데이터 비용을 사전에 분석하여 도입 의사결정에 활용할 수 있는 정보시스템 도입 방법론을 제안하고 실제 사례에서 어떻게 활용 될 수 있는지를 사례 시뮬레이션을 통해 보여주고자 한다. 제안된 방법론을 이용해 실제 기업의 정보시스템 도입 의사결정자들은 기업의 전략에 따라 다양한 정보시스템을 디자인하고 그에 따른 데이터 관련 비용을 장, 단기적인 계획 하에서 분석 가능하므로, 도입 단계에서 숨어있는 데이터 관련 비용에 의해 발생할 수 있는 정보시스템 도입 실패에 대한 위험 부담을 사전에 방지할 수 있다. While outsourcing has become a basic strategy of the information system adoption, there is an emerging needs to analyze the gap between the required data and the existing data for the new system from an adopting company's perspective. In CRM adoption failure cases, the first reason is adopting company pay no attention to the data that will support investment and systems. So far, there is no attempt to consider data driven approach in information system adoption field. Hence, we propose Information System Adoption Model based on Data (ISAMD) and show how to use in real world by simulation. By using ISAMD, information system adoption decision maker can simulate the needed data and related cost with various information system alternatives in short term, and long term planning. ISAMD can prevent the possible threat of unexpected data cost in adopting new system at the adopting decision stage.

      • KCI우수등재

        우리나라 공공데이터의 소재정보

        김기환,이창호,최보승 한국데이터정보과학회 2019 한국데이터정보과학회지 Vol.30 No.5

        As the fourth industrial revolution becomes a major issue, interest in big data is growing. Big data refers to the technology for analyzing and utilizing countless numbers of data, and public data segments close to the real world account for their utilization. In Korea, data are widely generated in the public data sector as government 3.0 policy, starting with e-government. However, the sites that provide the data are not organized and the data being delivered different from site to site, requiring a lot of information to access them. Therefore, the present status of big data and administrative data existing in the country is classified according to the institutions, contents, utilization, and disclosure levels in order to better understanding the general outline of public data providing sites. As an information on material resources of the public data is summarized, basic knowledge on the presence, content, and utilization of big data and administrative data across a country were developed and statistical utilization status, methods, values, and limit development was developed. 4차 산업 혁명이 주요 이슈로 떠오르면서 빅데이터에 대한 관심도 커지고 있다. 빅데이터는 무수히 많은 데이터를 분석하여 활용하는 기술을 의미하며, 활용 측면에서 실생활에 밀접한 공공데이터 부문이 많은 비중을 차지하고 있다. 우리나라의 경우 전자정부를 시작으로 정부 3.0을 실시하면서 공공데이터 부문에서 데이터가 광범위하게 생성되고 있다. 하지만 데이터를 제공하는 사이트가 정리되어 있지 않으며, 데이터의 제공형태도 각 사이트마다 상이하여 데이터 이용에 많은 정보를 필요로 하고 있다. 이에 본 논문에서는 국가에 존재하는 빅데이터와 행정자료의 현황을 기관, 내용, 활용 및 공개 정도 등으로 분류하여 전체 윤곽을 파악하고 이해할 수 있도록 내용을 정리하였다. 공공데이터의 소재 정보를 정리함으로써 국가전반의 빅데이터와 행정자료의 존재현황과 내용 및 활용도에 대한 기본지식을 배양하고, 통계적 활용 현황, 방법, 가치와 한계, 발전방향에 관한 소양을 쌓을 수 있게 하고자 한다.

      • KCI등재

        빅데이터와 통계학

        김용대,조광현,Kim, Yongdai,Cho, Kwang Hyun 한국데이터정보과학회 2013 한국데이터정보과학회지 Vol.24 No.5

        빅데이터 시대를 맞이하여 통계학과 통계학자의 역할에 대하여 살펴본다. 빅데이터에 대한 정의 및 응용분야를 살펴보고, 빅데이터 자료의 통계학적 특징들 및 이와 관련한 통계학적 의의에 대해서 설명한다. 빅데이터 자료 분석에 유용하게 사용되는 통계적 방법론들에 대해서 살펴보고, 국외와 국내의 빅데이터 관련 프로젝트를 소개한다. We investigate the roles of statistics and statisticians in the big data era. Definition and application areas of big data are reviewed and statistical characteristics of big data and their meanings are discussed. Various statistical methodologies applicable to big data analysis are illustrated, and two real big data projects are explained.

      • KCI우수등재

        재중동포 가족 찾기 서신 데이터베이스 구축 및 토픽 모델링과 로컬 대리 분석을 적용한 서신 내용 분석

        김현희(Hyon Hee Kim),조진남(Jinnam Jo) 한국데이터정보과학회 2021 한국데이터정보과학회지 Vol.32 No.1

        본 연구에서는 1974년에서 2008년까지 진행된 KBS 한민족방송 가족 찾기 프로그램으로 발송된 재중동포 서신 8만 여통에 대하여 데이터베이스를 구축하고 서신의 내용을 분석하였다. 서신을 스캔하여 이미지 파일로 생성한 다음, 태그를 사용하여 서신 내용을 요약하여 서신 이미지를 저장하였다. 태그를 기반으로 검색이 가능하며 검색된 서신에 대한 발송지, 발송자, 발송일 정보와 태그를 저장하여 분석에 활용할 수 있도록 하였다. 데이터베이스 구축 시 서신의 주제를 분류하기 위해서 정치, 경제, 문화, 생활 등의 대분류를 정의하였으며, 각 대분류 내에서 구체적 내용을 파악하기 위해 토픽 모델링을 실시하였고 해당 주제에서 중요한 키워드를 찾기 위해서 나이브 베이즈 알고리즘으로 서신 분류 모델을 생성하고 설명가능 인공지능 기술의 하나인 로컬 대리 분석을 적용하여 해당 분야로 분류하게 된 핵심 키워드들을 추출하였다. 정치 분야의 서신 내용으로는 남북 관계, 한국 정부에 대한 요청 등의 주제를 찾아내었고, 경제 분야의 서신 내용으로는 물품 요청 및 국어사전, 일한사전 등과 같은 구체적인 요청 품목을 찾아내었다. 많은 빅데이터 연구가 다양한 학문 분야에서 융합 연구로 이루어지고 있는 반면, 인문학 분야에서 적용된 예는 드물다. 본 연구는 인문학 연구에도 빅데이터 분석에서 활용되는 다양한 분석 기법을 적용하여 성공적으로 결과를 도출할 수 있다는 것을 보여줌으로써 인문학 분야에서의 빅데이터 기반 연구가 의미가 있음을 보여준다. In this paper, we presented a correspondence database from ethnic Koreans living in China and content analysis using topic modeling and local surrogates. Scan image files were generated from correspondences and contents were summarized using tags. And then, image files were uploaded into the database. In addition, sender information such as name, location, dates, and subjects were inserted. Topic modeling was applied to specialized subjects such as politics, economy, society, and culture. Also, important keywords were extracted using the local surrogate analysis, one of the explainable artificial intelligence technology. In the subject of politics, the relationship between South Korea and North Korea and requests for improving the status of Korean living in China to Korean government were found. In the subject of economics, requests for daily necessity, dictionary, etc. were found. This paper shows that successful results can be derived from humanities research by applying various big data analysis techniques used in big data research.

      • KCI등재

        LDA 기법을 이용한 버스 승객의 잠재적 이동패턴 분석

        조아,이경희,조완섭,Cho, Ah,Lee, Kyung Hee,Cho, Wan Sup 한국데이터정보과학회 2015 한국데이터정보과학회지 Vol.26 No.5

        최근 교통 분야에서 발생하는 교통 빅데이터 (교통카드 데이터, ATMS 데이터 등)의 분석결과를 교통 정책에 활용하는 사례가 늘어나고 있는 추세이다. 또한 교통 데이터 분석 기법을 기존의 단순 빈도 분석 기법에서 다양한 데이터 마이닝 기법으로 확장하여 교통 데이터 속에 숨어있는 의미를 파악하려는 연구도 진행되고 있다. 본 연구에서는 교통카드 데이터에 대하여 토픽모델링 기법 중의 하나인 LDA (Latent Dirichlet Allocation) 기법을 적용하여 청주시 버스 승객들의 이동패턴을 분석한다. 이를 위해 교통카드 데이터의 하차 결측치를 추정하고, LDA 기법을 적용하여 이동패턴을 추출하였다. 또한 LDA 분석으로 도출된 값을 측정값으로 하여 다차원적 분석을 함으로써 청주시 버스 승객들의 이동패턴 특징을 파악할 수 있다. 분석 결과, 청주시의 경우 크게 1) 시외지역에서 터미널을 이용해 청주시에서 유입되는 패턴, 2) 주거지역에서 상업지역으로 이동하는 패턴, 3) 청주 인근 학교에서 상업 지역 (청주 중심가)로 이동하는 패턴을 발견할 수 있었다. 이동패턴은 도시 계획, 대중교통서비스 향상, 버스 노선 신설 등 다양한 교통정책의 수립에 활용될 수 있을 것으로 기대된다. Recently, transportation big data generated in the transportation sector has been widely used in the transportation policies making and efficient system management. Bus passengers' mobility patterns are useful insight for transportation policy maker to optimize bus lines and time intervals in a city. We propose a new methodology to discover mobility patterns by using transportation card data. We first estimate the bus stations where the passengers get-off because the transportation card data don't have the get-off information in most cities. We then applies LDA (Latent Dirichlet Allocation), the most representative topic modeling technique, to discover mobility patterns of bus passengers in Cheong-Ju city. To understand discovered patterns, we construct a data warehouse and perform multi-dimensional analysis by bus-route, region, time-period, and the mobility patterns (get-on/get-off station). In the case of Cheong Ju, we discovered mobility pattern 1 from suburban area to Cheong-Ju terminal, mobility pattern 2 from residential area to commercial area, mobility pattern 3 from school areas to commercial area.

      • KCI우수등재

        날씨와 인기도를 고려한 경북 관광지 추천 알고리즘 개발에 관한 연구

        서윤암,김희수,윤상후 한국데이터정보과학회 2022 한국데이터정보과학회지 Vol.33 No.5

        The weather has a lot of influence on itinerary decisions. The combination of weather and tourism data can create new values. This study proposes a recommendation algorithm for tourist attractions in North Gyeongsang Province considering the Korean-style tourism climate index and the popularity of tourist attractions according to weather conditions. First, the popularity of tourist attractions was obtained by using the number of reviews, ratings, and blogs provided by Naver. In addition, we obtain optimized popularity scores compared to the number of monthly tourist searches provided by Korea Datalab. Afterward, thermal comfort, wind speed, precipitation, and sunshine hours of tourist attractions are used to generate tourist climate indices. The weather information of tourist attractions was used to predict the weather conditions of the Korea Meteorological Administration's weather station and the latitude and longitude of tourist attractions using the kriging technique. Calculating the Korean-style Tourism Climate Index (KTCI) of tourist attractions through the predicted weather information can quantitatively evaluate the impact of weather conditions on tourism. A tourist recommendation algorithm was developed to reflect the KTCI score in the popularity of the finally optimized tourist attractions in Gyeongbuk. As a result of this study, there is a difference between sunny and cloudy days, but it does not have a significant impact on tourist recommendations and is similar to the ranking considering only popularity. On rainy days, recommendations focused on indoor tourist attractions with less outdoor exposure were prioritized. 날씨는 여행 일정 결정에 많은 영향을 미친다. 날씨와 관광의 데이터 결합은 새로운 가치를 만들어 낼 수 있다. 본 연구는 기상조건에 따른 한국형 관광기후지수와 관광지 인기도를 고려한 경상북도 관광지 추천알고리즘을 제안한다. 먼저 네이버에서 제공하는 관광지별 리뷰 수, 평점, 블로그 수를 이용해 관광지 인기도를 구하였다. 또한, 한국관광 데이터랩에서 제공하는 월별 관광지 검색 건수와 비교하여 최적화된 인기도 점수를 구하였다. 이후 관광지의 관광기후지수를 생성하기 위해 관광지의 열적쾌적성, 풍속, 강수, 일조시간을 이용한다. 관광지의 기상정보는 크리깅 기법을 이용해 기상청의 기상관측소 날씨 데이터와 관광지의 위·경도를 이용하여 관광지의 날씨를 예측하였다. 예측된 기상정보를 통해 관광지의 한국형 관광기후지수 (Korean tourism climate index, KTCI)를 계산하면 관광지의 기상조건이 관광에 미치는 영향을 정량적으로 평가할 수 있다. 최종적으로 최적화한 경상북도 지역 관광지의 인기도에 KTCI 점수를 반영하여 관광지 추천 알고리즘을 개발하였다. 본 연구 결과, 관광지 추천에 있어 맑은 날과 흐린 날은 차이는 있으나 관광지 추천에 큰 영향을 미치지 않으며 인기도만 고려한 순위와 비슷하였다. 비가 내리는 날은 야외 노출 정도가 적은 실내 관광지 위주의 추천이 우선되었다.

      • KCI등재

        한국프로야구에서 타자력 지수 제안

        홍종선,김재영,신동식,Hong, Chong Sun,Kim, Jae Young,Shin, Dong Sik 한국데이터정보과학회 2016 한국데이터정보과학회지 Vol.27 No.3

        야구 타자의 능력을 측정하는 많은 세이버메트릭스 통계량들 중에서 WAR은 미국프로야구에서 가장 많이 사용하는 통계량이다. 그러나 한국프로야구 자료에는 수비에 관련된 변수에 포함된 야구장 요인, 포지션조정 그리고 리그 조정 통계량들이 존재하지 않으므로 WAR을 한국프로야구에 적용하는 데에는 문제가 있다. 본 연구에서는 타자의 능력을 측정하는 대안적인 세이버메트릭스 통계량을 제안하여 미국프로야구 뿐만 아니라 한국프로야구에서도 동시에 사용할 수 있도록 한다. 본 연구에서 제안한 타자력 지수 모형은 한국프로야구와 미국프로야구 타자들에 대한 다섯 종류의 통계량을 사용하여 개발한다. 우선 2015년도 최소 규정 타석을 만족한 미국프로야구 타자들의 자료를 바탕으로 타자력 지수 모형을 개발한다. 미국프로야구 타자들의 WAR과 비교하면서 본 연구에서 제안한 타자력 지수의 능력의 타당성을 검토한다. 다음으로 이 모형을 2015년도 한국프로야구 자료에 적용하여 한국형 타자력 지수를 제안한다. 한국프로야구 타자력 지수를 서로 다른 팀별, 나이별, 포지션별로 통계적으로 분석하고, 타자력 지수와 그들의 연봉과의 선형관계성을 토론한다. 연봉에 관한 회귀모형의 신뢰영역을 바탕으로 연봉책정의 적절함에 따라 46명의 타자를 세 그룹으로 할당하고, 세 그룹에 속한 연봉을 다양한 인자에 대하여 통계적으로 탐색한다. Among lots of sabermetric statistics for baseball batters' ability, the wins above replacement (WAR) is the most popular statistic in MLB. However, there exists a difficulty applying WAR to KBO, since KBO data do not have position adjustment, league adjustment and park factor which are essential in calculating WAR. In this paper, using five statistics for both KBO and MLB qualified batters, we propose hitting ability index (HAI), an alternative sabermetric indices to represent batters' ability. Comparing HAI with WAR of MLB batters, we evaluate the validity of HAI and then applied HAI to 2015 KBO data in which HAI is analyzed statistically with respect to different teams, ages, and positions. Moreover, the linear relationship between KBO batter's HAI and their annual salary is discussed. Grouping 46 KBO batters based on confidence region of the regression model for annual salary, we also statistically investigate batter's annual salary in these groups with respect to several factors.

      • KCI등재

        음의 일치 빈도를 고려한 유사성 측도의 대소 관계 규명에 관한 연구

        박희창,Park, Hee Chang 한국데이터정보과학회 2015 한국데이터정보과학회지 Vol.26 No.1

        세계 경제 포럼과 대한민국 지식경제부에서 10대 핵심정보기술 가운데 하나로 빅 데이터를 선정한 바 있다. 빅 데이터에 대한 분석은 결국 데이터들이 가지고 있는 속성을 얼마나 효과적으로 분석하느냐가 관건이다. 이를 위한 기법들 중에서 군집 분석 방법은 거리 또는 유사성 측도를 이용하여 각 개체의 유사성을 측정하여 유사도가 높은 대상 집단을 분류하고 군집에 속한 개체들의 유사성과 서로 다른 군집에 속한 개체간의 상이성을 밝혀내는 통계분석 기법이다. 군집분석에서 이용되고 있는 유사성 측도는 데이터의 속성에 따라 여러 가지의 형태로 분류할 수 있으며, 범주형 데이터에 적용 가능한 측도들은 음의 일치 빈도를 고려한 측도, 음의 일치 빈도를 고려하지 않는 측도, 그리고 주변 확률 분포의 포함 여부에 의한 측도 등으로 구분할 수 있다. 음의 일치 빈도는 동시발생빈도와 더불어 두 항목간의 관련성에 대한 순방향성을 의미하므로 이를 고려하지 않는 유사성 측도들보다 이를 고려한 유사성 측도들이 좀 더 현실적인 측도라고 할 수 있다. 따라서 본 논문에서는 이분형 데이터에 대해 일반적으로 많이 활용되고 있는 음의 일치 빈도를 고려한 측도들에 대해 대소 관계를 규명함으로써 이들의 상한 및 하한을 설정하는 문제를 고려하였다. The World Economic Forum and the Korean Ministry of Knowledge Economy have selected big data as one of the top 10 in core information technology. The key of big data is to analyze effectively the properties that do have data. Clustering analysis method of big data techniques is a method of assigning a set of objects into the clusters so that the objects in the same cluster are more similar to each other clusters. Similarity measures being used in the cluster analysis may be classified into various types depending on the nature of the data. In this paper, we studied upper and lower bounds for binary similarity measures with negative matches such as Russel and Rao measure, simple matching measure by Sokal and Michener, Rogers and Tanimoto measure, Sokal and Sneath measure, Hamann measure, and Baroni-Urbani and Buser mesures I, II. And the comparative studies with these measures were shown by real data and simulated experiment.

      • KCI등재

        Rhipe를 활용한 빅데이터 처리 및 분석

        고영준,김진석 한국데이터정보과학회 2013 한국데이터정보과학회지 Vol.24 No.5

        The Hadoop system was developed by the Apache foundation based on GFS and MapReduce technologies of Google. Many modern systems for managing and processing the big data have been developing based on the Hadoop because the Hadoop was designed for scalability and distributed computing. The R software has been considered as a well-suited analytic tool in the Hadoop based systems because the R is flexible to other languages and has many libraries for complex analyses. We introduced Rhipe which is a R package supporting MapReduce programming easily under the Hadoop system, and implemented a MapReduce program using Rhipe for multiple regression especially. In addition, we compared the computing speeds of our program with the other packages (ff and bigmemory) for processing the large data. The simulation results showed that our program was more fast than ff and bigmemory as the size of data increases. 최근 Hadoop은 빅데이터의 저장, 처리 및 분석을 위한 표준시스템으로 인식되고 있으며, 많은 빅데이터 관련 시스템들이 Hadoop에 기반하여 구축되고 있다. 또한 R은 다른 소프트웨어와의 연동이 쉽고 다양한 분석 라이브러리들을 탑재하고 있어서 Hadoop 환경하에서 빅데이터의 분석을 위한 공통 분석 플렛폼으로 여겨지고 있다. 본 논문에서는 Hadoop 환경에서 분산 데이터 처리를 위한 R패키지인 Rhipe를 소개하고 빅데이터를 이용한 병렬 다중회귀분석을 위해 MapReduce 프로그램을 작성하는 방법을 예시하였다. 또한 시뮬레이션을 통해 기존의 대용량처리를 위한 R 분석패키지인 ff와 bigmemory와의 연산속도를 비교하였으며, 데이터의 크기가 커짐에 따라 Rhipe를 이용한 MapReduce 프로그램의 계산속도가 ff와 bigmemory에 비해 우수함을 확인하였다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼