http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
의료 비정형 텍스트 비식별화 및 속성기반 유용도 측정 기법
노건,전종훈 한국전자거래학회 2019 한국전자거래학회지 Vol.24 No.1
De-identification is a method by which the remaining information can not be referred to a specific individual by removing the personal information from the data set. As a result, de-identification can lower the exposure risk of personal information that may occur in the process of collecting, processing, storing and distributing information. Although there have been many studies in de-identification algorithms, protection models, and etc., most of them are limited to structured data, and there are relatively few considerations on de-identification of unstructured data. Especially, in the medical field where the unstructured text is frequently used, many people simply remove all personally identifiable information in order to lower the exposure risk of personal information, while admitting the fact that the data utility is lowered accordingly. This study proposes a new method to perform de-identification by applying the k-anonymity protection model targeting unstructured text in the medical field in which de-identification is mandatory because privacy protection issues are more critical in comparison to other fields. Also, the goal of this study is to propose a new utility metric so that people can comprehend de-identified data set utility intuitively. Therefore, if the result of this research is applied to various industrial fields where unstructured text is used, we expect that we can increase the utility of the unstructured text which contains personal information. 비식별화는 데이터셋으로부터 개인정보를 제거함으로써 개인을 식별할 수 없도록 하는 방법으로, 정보를 수집, 가공, 저장, 배포하는 과정에서 발생할 수 있는 개인정보 노출 위험도를 낮추기 위해 사용한다. 그간 비식별화와 관련된 알고리즘, 모델 등의 관점에서 많은 연구가 이루어졌지만, 대부분은 정형 데이터를 대상으로 하는 제한적인 연구로, 비정형 데이터에 대한 고려는 상대적으로 많지 않은 실정이다. 특히 비정형 텍스트가 빈번히 사용되는 의료 분야의 경우에서는 개인 식별 정보들을 단순 제거함으로써 개인정보 노출 위험도는 낮추지만, 그에 따른 데이터 활용성이 떨어지는 점을 감수하는 실정이다. 본 연구는 개인정보 보호 이슈가 가장 중요하고 따라서 비식별화가 활발하게 연구되고 있는 의료분야 데이터 중 비정형 텍스트를 대상으로 k-익명성 보호모델을 적용한 비식별화 수행 방안을 제시하고, 비식별화 결과에 대한 새로운 유용도 측정 기법을 제안하여 이를 통해 직관적으로 데이터 활용성을 판단할 수 있도록 하는 것을 목표로 한다. 따라서 본 연구의 결과물이 의료 분야뿐만 아니라 비정형 텍스트가 활용되는 모든 산업 분야에서 활용될 경우, 개인 식별 정보가 포함된 비정형 텍스트의 활용도를 향상시킬 수 있을 것으로 기대한다.
그래프 데이터 모델을 활용한 크라우드 소싱 기반의 장소 정보 구축을 위한 시스템 설계 및 구현
이재은,노건일,장한메,유기윤,Lee, Jae-Eun,Rho, Gon-Il,Jang, Han-Me,Yu, Kiy-Un 한국국토정보공사 공간정보연구원 2016 지적과 국토정보 Vol.46 No.1
최근 모바일 환경의 보급에 따른 위치기반서비스의 발달로 POI 정보의 중요성이 더욱 부각되고 있다. 따라서 빠르게 변화하는 장소들의 정보를 반영하기 위해서는 POI의 최신성과 정확성이 담보되어야 한다. 본 연구에서는 POI 정보의 효율적인 구축을 위해 다수의 사용자가 정보를 구축하는 크라우드 소싱 기반의 장소 정보 구축 시스템을 제안한다. 또한 POI 정보를 넘어서서 영역 형태의 정보를 포함하는 장소 정보의 개념을 제시하고, 장소 정보의 구축을 위해 그래프 데이터 모델을 활용하였다. 그리고 그래프 데이터 모델과 크라우드 소싱을 활용한 시스템을 설계하고, 이를 실제로 구현하였다. 그 결과 단순 POI로부터 영역 형태를 포함하는 장소의 개념의 클러스터링이 가능하였고, 크라우드 소싱을 통해 정보의 구축 및 갱신이 가능하였다. The development of LBS(location-based services) due to the widespread mobile environment highlights the importance of POI(point of interest) information. The accurate and up-to-date POI has to be ensured to reflect the information of rapidly changing places. For the efficient construction of POI, here we propose the novel construction system for t he place information. This system is based on crowd-sourcing in which a great number of users participate. In addition, we utilize the graph data model to build the new concept of the place information covering the wide areas extending from the specific point. Moreover, the implementation of the new system applying the graph data model and crowd-sourcing is realized in this paper. That is, this study suggests the whole new concept of the place information and shows the clustering and the renewal of the place information through crowd-sourcing.