RISS 검색 - 학위논문 상세보기

국문 초록 (Abstract)

4차 산업 시대에 데이터의 중요성이 커지면서 데이터를 수집하는 크롤링 기술도 덩달아 발전하였다. 아직 데이터 수집에 대한 적절한 법, 규제가 없어 데이터를 수집하면서 발생하는 민감한 정보에 대한 침해사고나 과도한 트래픽에 의한 서버 장애 책임은 온전히 데이터 제공자의 몫이 되었다. 심지어 크롤링 트래픽이 정상 사용자의 트래픽보다 더 많은 트래픽이 발생하는 일도 생겼다.
본 논문에서는 민감한 정보를 로그인 후에 조회할 수 있는 정보인지 아닌지를 기준으로 판단했다. 즉, 민감 정보를 크롤링하는 도구를 제작하려면 로그인 구현 기능을 함께 개발해야 한다. 기존의 대응 방법들은 크롤링 방어를 위해 크롤링 행위를 분석했다면, 본 논문의 제안 기법은 기존 대응 방법과 다르게 크롤링 도구 제작에 어려움을 주는 기법을 적용하였다. 이 기법들은 제작에 필요한 투자 시간을 높였고 결국, 제작을 포기하게 하였다. 제안 기법 적용 후 약 30일 이후 1시간에 약 10,000,000건이던 트래픽이 약 3,500,000건으로 50% 이상 감소하는 효과를 얻었다.

번역하기

4차 산업 시대에 데이터의 중요성이 커지면서 데이터를 수집하는 크롤링 기술도 덩달아 발전하였다. 아직 데이터 수집에 대한 적절한 법, 규제가 없어 데이터를 수집하면서 발생하는 민감한...

다국어 초록 (Multilingual Abstract)

In the Fourth Industrial Age, the growing importance of data has also led to advances in crawling technology for collecting data. Because there are no proper laws or regulations on data collection yet, the responsibility for server failure due to infringement of sensitive information or excessive traffic caused by data collection was entirely up to the data provider. There have even been cases where crawling traffic generates more traffic than normal user traffic.
In this paper, we judged on whether sensitive information can be inquired after logging in or not. In other words, creating a tool to crawl sensitive information requires developing login implementation capabilities together. While the existing response methods analyzed the behavior of crawling for the defense of crawling, the proposed techniques in this paper applied techniques that made it difficult to produce crawling tools, unlike the existing response methods. As a result, it reduced efficiency compared to production investment time and eventually gave up production. After applying the proposed technique, crawling traffic decreased by more than 50% from about 10,000,000 per hour to 3,500,000 after about 30 days.

번역하기

목차 (Table of Contents)

국문초록 ⅳ
영문초록 ⅴ
제 1 장 서론1

국문초록 ⅳ
영문초록 ⅴ
제 1 장 서론1
제 2 장 관련 연구4
2.1 크롤링 4
2.1.1 크롤링의 개요4
2.1.2 크롤링의 활용6
2.2 로그인(Log-in)9
2.2.1 로그인의 개요9
2.2.2 로그인 보안9
2.3 공개키 암호화13
2.3.1 공개키 암호화의 개요13
2.3.2 RSA(Rivest, Shamir, Adleman) 암호화 개요14
2.3.3 RSA 암호화 공식15
2.4 기존 크롤링 대응 방법의 한계17
2.4.1 임계치 기반 IP 차단의 한계17
2.4.2 다중 인증의 한계21
2.4.3 캡챠(CAPTCHA, Completely Automated Public test to tell Computers and Humans Apart)23
2.4.4 robots.txt26
제 3 장 제안 기법27
3.1 크롤링에 의한 민감 정보 침해 대응방안27
3.1.1 로그인 강화를 위한 공개키 암호화 적용 기법27
3.1.2 암호화 관련 정보 감추기 기법33
3.1.3 js 난독화(js obfuscation) 기법 적용 기법36
3.1.4 패킷 내 계정 전달 변수명 변조37
제 4 장 실험 및 성능 분석39
4.1 실험 환경 39
4.2 실험 성능 분석 42
제 5 장 결론46
참고문헌 50

상세검색

RISS 보유자료

상세검색

해외전자자료

크롤링에 의한 민감 정보 침해에 대응하는 로그인 강화 연구 = A Study on Strengthening Log-in Respond to Infringement of Sensitive Information by Crawling

부가정보

분석정보

연관 공개강의(KOCW)

이 자료와 함께 이용한 RISS 자료

나만을 위한 추천자료