http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
클래스 불균형 데이터에 적합한 기계 학습 기반 침입 탐지 시스템
정윤경(Yun-Gyung Cheong),박기남(Kinam Park),김현주(Hyunjoo Kim),김종현(Jonghyun Kim),현상원(Sangwon Hyun) 한국정보보호학회 2017 정보보호학회논문지 Vol.27 No.6
본 논문에서는 정상과 이상 트래픽이 불균형적으로 발생하는 상황에서 기계 학습 기반의 효과적인 침입 탐지 시스템에 관한 연구 결과를 소개한다. 훈련 데이터의 패턴을 학습하여 정상/이상 패킷을 탐지하는 기계 학습 기반의 IDS에서는 훈련 데이터의 클래스 불균형 정도에 따라 탐지 성능이 현저히 차이가 날 수 있으나, IDS 개발 시 이러한 문제에 대한 고려는 부족한 실정이다. 클래스 불균형 데이터가 발생하는 환경에서도 우수한 탐지 성능을 제공하는 기계 학습 알고리즘을 선정하기 위하여, 본 논문에서는 Kyoto 2006+ 데이터셋을 이용하여 정상 대 침입 클래스 비율이 서로 다른 클래스 불균형 훈련 데이터를 구축하고 다양한 기계 학습 알고리즘의 인식 성능을 분석하였다. 실험 결과, 대부분의 지도 학습 알고리즘이 좋은 성능을 보인 가운데, Random Forest 알고리즘이 다양한 실험환경에서 최고의 성능을 보였다. This paper aims to develop an IDS (Intrusion Detection System) that takes into account class imbalanced datasets. For this, we first built a set of training data sets from the Kyoto 2006+ dataset in which the amounts of normal data and abnormal (intrusion) data are not balanced. Then, we have run a number of tests to evaluate the effectiveness of machine learning techniques for detecting intrusions. Our evaluation results demonstrated that the Random Forest algorithm achieved the best performances.
텍스트 바꿔 쓰기 과제를 위한 분류 모델 기반의 손실 함수 설계와 평가
전현규(Hyun-Kyu Jeon),정윤경(Yun-Gyung Cheong) 한국정보과학회 2021 정보과학회논문지 Vol.48 No.10
바꿔 쓰기(paraphrase generation)는 입력 문장에 대하여 의미는 같지만, 단어나 통사 구조와 같은 표현이 다른 문장을 생성하는 과제이다. 최근 이를 구현하기 위해 인공 신경망 기반의 모델이 널리 사용되며, 학습 방법으로서 지도 학습이 주로 사용된다. 그러나 생성된 문장과 레이블 문장 간의 차이를 줄이는 지도 학습 방법은 모델에 제한된 의미 정보만을 제공한다. 따라서 본 논문에서는 분류 과제를 학습한 별도의 모델을 활용하여, 바꿔 쓰기 모델 학습 시 의미 정보를 추출하고 이를 활용하는 방법을 제안하고 실험하였으며, 그 결과 기존 방법과 비교하여 더 좋은 성능을 보였다. Paraphrase generation is a task in which the model generates an output sentence conveying the same meaning as the given input text but with a different representation. Recently, paraphrase generation has been widely used for solving the task of using artificial neural networks with supervised learning between the model’s prediction and labels. However, this method gives limited information because it only detects the representational difference. For that reason, we propose a method to extract semantic information with classification models and use them for the training loss function. Our evaluations showed that the proposed method outperformed baseline models.