http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
LID-DS 데이터 세트를 사용한 기계학습 알고리즘 비교 연구
박대경 ( Park Daekyeong ),류경준 ( Ryu Kyungjoon ),신동일 ( Shin Dongil ),신동규 ( Shin Dongkyoo ),박정찬 ( Park Jeongchan ),김진국 ( Kim Jingoog ) 한국정보처리학회 2021 정보처리학회논문지. 소프트웨어 및 데이터 공학 Vol.10 No.3
오늘날 정보통신 기술이 급격하게 발달하면서 IT 인프라에서 보안의 중요성이 높아졌고 동시에 지능형 지속 공격(Advanced Persistent Threat)처럼 고도화되고 다양한 형태의 사이버 공격이 증가하고 있다. 점점 더 고도화되는 사이버 공격을 조기에 방어하거나 예측하는 것은 매우 중요한 사안으로, NIDS(Network-based Intrusion Detection System) 관련 데이터 분석만으로는 빠르게 변형하는 사이버 공격을 방어하지 못하는 경우가 많이 보고되고 있다. 따라서 현재는 HIDS(Host-based Intrusion Detection System) 데이터 분석을 통해서 위와 같은 사이버 공격을 방어하는데 침입 탐지 시스템에서 생성된 데이터를 이용하고 있다. 본 논문에서는 기존에 사용되었던 데이터 세트에서 결여된 스레드 정보, 메타 데이터 및 버퍼 데이터를 포함한 LID-DS(Leipzig Intrusion Detection-Data Set) 호스트 기반 침입 탐지 데이터를 이용하여 기계학습 알고리즘에 관한 비교연구를 진행했다. 사용한 알고리즘은 Decision Tree, Naive Bayes, MLP(Multi-Layer Perceptron), Logistic Regression, LSTM(Long Short-Term Memory model), RNN(Recurrent Neural Network)을 사용했다. 평가를 위해 Accuracy, Precision, Recall, F1-Score 지표와 오류율을 측정했다. 그 결과 LSTM 알고리즘의 정확성이 가장 높았다. Today's information and communication technology is rapidly developing, the security of IT infrastructure is becoming more important, and at the same time, cyber attacks of various forms are becoming more advanced and sophisticated like intelligent persistent attacks (Advanced Persistent Threat). Early defense or prediction of increasingly sophisticated cyber attacks is extremely important, and in many cases, the analysis of network-based intrusion detection systems (NIDS) related data alone cannot prevent rapidly changing cyber attacks. Therefore, we are currently using data generated by intrusion detection systems to protect against cyber attacks described above through Host-based Intrusion Detection System (HIDS) data analysis. In this paper, we conducted a comparative study on machine learning algorithms using LID-DS (Leipzig Intrusion Detection-Data Set) host-based intrusion detection data including thread information, metadata, and buffer data missing from previously used data sets. The algorithms used were Decision Tree, Naive Bayes, MLP (Multi-Layer Perceptron), Logistic Regression, LSTM (Long Short-Term Memory model), and RNN (Recurrent Neural Network). Accuracy, accuracy, recall, F1-Score indicators and error rates were measured for evaluation. As a result, the LSTM algorithm had the highest accuracy.
의미 기반 정적 분석과 규칙 명세 언어를 활용한 C/C++ 프로그램 보안 취약점 검출
윤용호(Yongho Yoon),진민식(Minsik Jin),정영범(Yungbum Jung),이규호(Gyuho Lee),김희동(Heedong Kim),김진국(Jingoog Kim) 한국정보과학회 2019 정보과학회 컴퓨팅의 실제 논문지 Vol.25 No.10
보안 취약점을 정적 분석으로 검출하는 것에는 여러 장점이 있지만 일반적으로 새로운 취약점 검출을 지원하기 위한 비용이 크다는 어려움이 있다. 검출 범위를 손쉽게 확장하기 위해 보안 취약점을 표현할 수 있는 방법을 정의하고 그 표현에 부합하는 프로그램을 검출하는 기술이 존재하지만 대개 프로그램의 모양에만 의존하거나 간단한 값 흐름 분석에만 적용할 수 있었다. 이런 점을 보완하기 위하여 보안 약점을 표현할 수 있는 규칙 명세 언어를 정의하고 이를 기반으로 취약점을 검출하는 요약 해석 기반 정적 분석 도구를 고안 및 구현하였다. 분석 대상 언어는 C/C++이며, 상용 정적 분석 도구에 포함된 C/C++ 분석 엔진을 기반으로 규칙 명세 언어 매칭 검사기를 구현했다. 대상 취약점은 CWE(Common Weakness Enumeration) 목록 중 적합한 17가지를 선별했다. 정오탐률 계산을 위해 자동생성한 테스트 셋을 대상으로 성능을 시험한 결과 정탐률은 61.4%, 오탐률은 7.5%로 집계되었다. In spite of a number of advantages to detecting security holes using static semantic analysis, new types of vulnerabilities are not easily detected by the existing static analyzers. Some technologies have defined mechanisms to identify security vulnerabilities and match them with the programs but they are based only on simple syntactic analysis or data-flow analysis. We defined rule description language (RDL) to describe vulnerability rules and made a static analyzer based on abstract interpretation that detects the denoted defects in C/C++ programs. Implementation of the RDL matching engine was based on an existing commercial C/C++ static analysis tool. We selected 17 rules from the CWE (Common Weakness Enumeration) list that fit with RDL and static analysis. We evaluated the correctness of our tool with automatically generated test cases and the result showed 61.4% true positive and 7.5% false negative rates.
네트워크 트래픽 데이터의 희소 클래스 분류 문제 해결을 위한 전처리 연구
류경준 ( Ryu Kyung Joon ),신동일 ( Shin Dongil ),신동규 ( Shin Dongkyoo ),박정찬 ( Park Jeongchan ),김진국 ( Kim Jingoog ) 한국정보처리학회 2020 정보처리학회논문지. 소프트웨어 및 데이터 공학 Vol.9 No.12
정보보안을 위한 IDS(Intrusion Detection Systems)는 통상적으로 서명기반(signature based) 침입탐지시스템과 이상기반(anomaly-based) 침입탐지시스템으로 분류한다. 이 중에서도 네트워크에서 발생하는 트래픽 데이터를 기계학습으로 분석하는 이상기반 IDS 연구가 활발하게 진행됐다. 본 논문에서는 공격 유형 학습에 사용되는 데이터에 존재하는 희소 클래스 문제로 인한 성능 저하를 해결하기 위한 전처리 방안에 대해 연구했다. 희소 클래스(Rare Class)와 준 희소 클래스(Semi Rare Class)를 기준으로 데이터를 재구성하여 기계학습의 분류 성능의 개선에 대하여 실험했다. 재구성된 3종의 데이터 세트에 대하여 Wrapper와 Filter 방식을 연이어 적용하는 하이브리드 특징 선택을 수행한 이후에 Quantile Scaler로 정규화를 처리하여 전처리를 완료한다. 준비된 데이터는 DNN(Deep Neural Network) 모델로 학습한 후 TP(True Positive)와 FN(False Negative)를 기준으로 분류 성능을 평가했다. 이 연구를 통해 3종류의 데이터 세트에서 분류 성능이 모두 개선되는 결과를 얻었다. In the field of information security, IDS(Intrusion Detection System) is normally classified in two different categories: signature-based IDS and anomaly-based IDS. Many studies in anomaly-based IDS have been conducted that analyze network traffic data generated in cyberspace by machine learning algorithms. In this paper, we studied pre-processing methods to overcome performance degradation problems cashed by rare classes. We experimented classification performance of a Machine Learning algorithm by reconstructing data set based on rare classes and semi rare classes. After reconstructing data into three different sets, wrapper and filter feature selection methods are applied continuously. Each data set is regularized by a quantile scaler. Depp neural network model is used for learning and validation. The evaluation results are compared by true positive values and false negative values. We acquired improved classification performances on all of three data sets.