재현 데이터 생성은 개인정보 보호와 데이터 유용성 확보 측면에서 최근 많은 관ᄉ...

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
재현 데이터 생성은 개인정보 보호와 데이터 유용성 확보 측면에서 최근 많은 관ᄉ...
재현 데이터 생성은 개인정보 보호와 데이터 유용성 확보 측면에서 최근 많은 관심을 받는 통계적 노출 제어의 주요 분야이다. 본 연구에서는 고객의 신용카드 거래 데이터를 기반으로 범주형 변수와 연속형 변수가 혼합된 상황 하에서 최근 재현 데이터 생성에 많이 활용되는 synthpop, 변분 오토인코 더, 생성적 적대 신경망 모형을 적용하고 재현 데이터의 노출 위험 및 유용성을 측정하여 비교하였다. 노출 위험 측도로는 외부 공격자 가정에 기반한 목표 속성 식별 확률을 고려하였으며 유용성 지표로 는 성향점수 기반 평균제곱오차 및 관심 통계량의 비를 고려하였다. 노출 위험과 유용성 측도의 비교 결과로 synthpop은 노출 위험과 유용성이 가장 높게 나타났으며 변분 오토인코더는 저빈도의 범주와 다수의 범주를 지닌 변수를 지닌 신용 카드 거래 데이터에 대한 재현 성능이 유용성 측면에서 가장 낮 게 나타났다. 조건부 벡터 기반의 생성적 적대 신경망 모형의 노출 위험은 synthpop과 비교 시 상대 적으로낮은위험도와유사한유용성을나타내었다. 주요용어: 변분오토인코더, 신용카드거래데이터, 재현데이터, 적대적생성신경망, synthpop.
목차 (Table of Contents)