http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
바이오 분야의 정보 추출을 위한 BioLUKE 모델 개발
김성민(Seong-Min Kim),최중연(Joongyeon Choi),홍우재(Woojae Hong),정수환(Soohwan Jeong),고민성(Minsung Ko),김형건(Hyunggun Kim) 한국통신학회 2022 한국통신학회 학술대회논문집 Vol.2022 No.2
현존하는 자연어 처리 모델은 포괄적인 자연어 처리 데이터에 최적화되어 있고 생소한 단어들에 대한 모델링의 정밀도가 낮아 바이오 연구 분야와 같이 국부적인 분야의 정보 추출에서 뛰어난 성능을 보이지 못하고 있다. 본 연구진은 바이오 분야의 데이터를 이용한 사전 학습과 Entity 기반의 임베딩 방식을 접목한 BioLUKE 모델을 생성하여 이러한 한계점을 극복하고자 하였다. 기학습된 LUKE 모델에 대해 생명과학 문헌 데이터베이스에서 확보한 자연어 데이터셋을 활용한 사전 학습이 이루어졌으며, BioASQ 챌린지 데이터셋을 이용한 검증이 이루어졌다. 기존 LUKE 모델과 대비하여 바이오 연구 분야에 적용한 모델링의 정밀도가 상승하였음을 다양한 척도에서 확인할 수 있었고, 각 챌린지에서 상위의 점수를 기록한 모델들 이상의 정확도를 보였다. 이러한 바이오 연구 분야의 사전 학습과 Entity 기반의 임베딩 방식을 접목한 접근은 아직까지 시도된 바가 없으며, 타 분야로의 확장성이 높다.