토르 익명네트워크 패시브 핑거프린팅을 위한 트리기반 앙상블 학습|RISS 상세보기

국문 초록 (Abstract)

일반 브라우저는 전송되는 데이터의 경로가 노출되어 도청에 대한 위험 성이 높게 나타난다. 도청 위험에 따른 개인의 익명성 및 보안 문제의 취약점을 보완하기 위해 토르 네트워크와 같은 익명 서비스를 사용한다. 토르 네트워크는 사용자가 자발적으로 참여하는 중계 노드를 통해 보안성과 익명성을 유지하는 익명 네트워크 서비스이다. 하지만 토르 네트워크에서
제공하는 익명 서비스를 악의적, 불법적 목적으로 활용하는 사용자가 존재한다. 이러한 악의적 사용자를 탐지하기 위해 웹사이트 핑거프린팅이 연구 되었다. 웹사이트 핑거프린팅은 네트워크 통신과정에서 발생하는 정보를 이용해 웹사이트의 고유특성을 추출하는 기술로, 트래픽 데이터,HTML 등의 정보를 분석하여 클라이언트의 통신 대상을 실명화하는 것을 목표로 한다.
분류 문제에 적합한 데이터 수집을 위해 wget 데이터와 TBB 데이터 수집 환경을 설계하고, 데이터 비교를 통해 엑티브 핑거 프린팅에 적합한 데이터를 구성했다.
기존의 웹사이트 핑거 프린팅 문제는 시간 변화에 따른 분류 문제와 히든 서비스에 취약하다는 단점이 존재한다. 이러한 문제점을 해결하기 위해 본 논문에서는 앙상블 모델의 특징 중요도를 이용하여 히든 서비스 분류 문제에 적합한 특징을 제안 하고, 기존 히든 서비스에 사용된 학습 모델과 웹사이트 핑거프린팅 분류 성능을 비교 분석했다.
사용된 학습 데이터는 일반 브라우저, 히든 서비스, 카테고리의 다중 분류 문제를 사용했다. 세가지 분류 문제에 대해서 extra trees 알고리즘에서 가장 높은 성능을 보이고, 기존의 특징과 특징 중요도 기반의 특징을 비교했을 경우 일반 브라우저에서 2%, 히든 서비스에서 7%의 정확도 향상을 나타냈다. 히든 서비스에서 기존에 연구된 특징을 사용한 CUMUL
모델보다 최대 7.9% 높은 정확도를 보였다.
카테고리 데이터는 누적되는 데이터의 양을 고려하여 분류 정확도와 시간 비교를 통해 알고리즘을 선정했다. 알고리즘 선정을 위해 학습데이터가 가장 많은 히든 서비스를 대상으로 하였으면 extra trees 알고리즘이 가장 좋은 성능을 보였다. 수집된 카테고리 데이터의 최초의 학습모델과 30일 동안 지속적으로 학습된 데이터를 비교했을 경우 분류 정확도가 10% 가 감소하였고, CUMUL 모델과 비교했을 때, 약 15.3% 높은 정확도를 나타냈다.

번역하기

일반 브라우저는 전송되는 데이터의 경로가 노출되어 도청에 대한 위험 성이 높게 나타난다. 도청 위험에 따른 개인의 익명성 및 보안 문제의 취약점을 보완하기 위해 토르 네트워크와 같은...

목차 (Table of Contents)

Ⅰ. 서론 1
Ⅱ. 연구 배경 3
1. 머신 러닝을 이용한 웹사이트 핑거프린팅 4
2. 훈련 데이터 준비 방법 7
Ⅲ. 제안방법 10

Ⅰ. 서론 1
Ⅱ. 연구 배경 3
1. 머신 러닝을 이용한 웹사이트 핑거프린팅 4
2. 훈련 데이터 준비 방법 7
Ⅲ. 제안방법 10
1. 문제 정의 10
2. 트래픽 시퀀스 기반의 특징 추출 12
Ⅳ. 데이터 준비 22
1. 웹사이트 선정 22
2. 데이터 수집 방법 25
Ⅴ. 분류 학습 알고리즘 28
1. 의사결정 트리 알고리즘 29
2. 앙상블 알고리즘 30
Ⅵ. 실험 결과 32
1. Moz top 500 다중 분류 실험 32
2. 히든 서비스 다중 분류 실험 34
3. 버스트 시간 간격 정보 특징 기반의 다중 분류 실험 35
4. 시간 변화에 따른 카테고리 분류 39
Ⅶ. 결론 44
참고문헌 45
부 록 48
영문요약 57

상세검색

RISS 보유자료

상세검색

해외전자자료

토르 익명네트워크 패시브 핑거프린팅을 위한 트리기반 앙상블 학습

부가정보

분석정보

이 자료와 함께 이용한 RISS 자료

나만을 위한 추천자료