http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
Tox21 AHR, CYP 어세이 데이터기반 이진 분류 모델 개발을 위한 최적 기계학습 알고리즘과 분자지문 선정
고준수(Jun-su Ko),이상현(Sang-hyeon Lee),배수용(Su-Yong Bae),정재성(Jaeseong Jeong),최진희(Jinhee Choi) 환경독성보건학회 2021 한국독성학회 심포지움 및 학술발표회 Vol.2021 No.5
화학물질 안전사고를 예방하고 체계적인 안전관리를 위해서 화학물질의 독성을 사전에 평가해야 한다. 최근, 인공지능(AI)이 빠르게 발전하면서 화학물질 안전성 평가분야에서도 널리 활용되고 있다. 우리는 Tox21의 어세이 데이터를 이용하여 6종의 기계학습모델(Machine learning)을 만들고 최적의 모델을 선정하였다. Tox21 데이터베이스에서 AHR, CYP19A1 수용체에 대한 9005종의 화학물질 활성 데이터를 확보하였으며, 데이터 플랫폼 KNIME을 통해 전처리 과정을 거친 후, 5종의 분자지문 (Morgan, MACCS, RDkit, Pattern, Layered)과 분자표현자를 계산하였다. 이후 SMOTE와 ENN 리샘플링 기법으로 데이터의 균형을 맞춘 후, 6종의 기계학습 알고리즘(Gradient Boosting Tree, Random Forest, Multi-layered Perceptron Network, k-Nearest Neighborhood, Logistic Regression, Naive Bayes)을 이용하여 학습시켰다. 이어서 모델 평가 과정을 통해 최적의 독성 예측모델을 선정하였다. 그 결과, 가장 우수한 성능을 보여준 기계학습 알고리즘은 Random Forest였으며, 리샘플링 기법은 SMOTE가 우수하였다. 분자특성의 경우 AhR은 MACCS, CYP19A1은 Pattern 분자지문이 우수하였다. 이러한 연구를 통해 선정된 최적의 기계학습 모델로, 등록되지 않은 미지의 화학물질에 대해 효과적인 독성예측지표로 이용하여 독성 사고 피해를 최소화할 수 있음을 기대해본다.