우울증 환자들은 자신의 증세와 치료와 관련된 경험을 지인이나 가족에게 털어놓기보다는 소셜 미디어나 건강 관련 온라인 커뮤니티에서 익명의 타인과 소통하는 것을 선호한다. 따라서 항...

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=T16626599
서울 : 연세대학교 대학원, 2023
2023
한국어
서울
Using BERT-based models for detecting adverse drug events of antidepressants in social media and online community data
vi, 92 p. : 삽화(일부천연색) ; 26 cm
지도교수: 송민
I804:11046-000000544886
0
상세조회0
다운로드우울증 환자들은 자신의 증세와 치료와 관련된 경험을 지인이나 가족에게 털어놓기보다는 소셜 미디어나 건강 관련 온라인 커뮤니티에서 익명의 타인과 소통하는 것을 선호한다. 따라서 항...
우울증 환자들은 자신의 증세와 치료와 관련된 경험을 지인이나 가족에게 털어놓기보다는 소셜 미디어나 건강 관련 온라인 커뮤니티에서 익명의 타인과 소통하는 것을 선호한다. 따라서 항우울제에 대한 부작용을 탐색할 때 소셜미디어 및 온라인 커뮤니티 데이터는 유용하게 활용될 수 있다. 본 연구는 자연어 처리 기술을 활용한 디지털 약물 감시를 위해, 항우울제에 대한 부작용 관련 내용을 탐지하는 자연어 처리 파이프라인을 구축하여 대표적인 소셜 미디어인 트위터(Twitter)와 온라인 커뮤니티인 레딧(Reddit) 데이터에 적용했다.
부작용 탐지를 위한 파이프라인은 BERT(Bidirectional Encoder Representations from Transformers) 기반의 사전학습 언어모델을 파인튜닝(fine-tuning, 미세조정) 하여 구성하였고, 모델의 성능을 높이기 위해, 파인튜닝 단계 이전에 intermediate 학습(추가적인 사전학습)을 수행했다. 항우울제와 관련한 웹 문서나 약물 리뷰사이트에서 수집한 부작용 관련 텍스트를 intermediate 학습 데이터로 활용하여 BERT의 사전학습 방식 중 하나인 Masked-Language Modeling(MLM) 학습을 진행하였다.
파인튜닝 단계에서는 해당 작업과 관련된 학습 데이터 세트를 충분히 확보하기 위해 부작용 탐지 관련 선행연구와 shared task에 의해 공개된 다양한 벤치마크 데이터 세트들을 통합했다. 또한 해당 작업의 도메인에 적합한 사전학습 모델을 가려내기 위해 총 6개의 BERT 기반 사전학습 모델 간의 성능을 비교했고 가장 최적의 성능을 보이는 모델과 방법론을 채택했다.
파이프라인의 마지막 단계인 부작용 표현 정규화를 위해서는 BERT 기반의 샴 네트워크(Siamese Network) 구조로 이루어진 SBERT (Sentence BERT)를 활용했다. 최종적으로, 파이프라인을 통해 약물별로 추출된 부작용들을 관찰하고, 선행 연구의 내용과 비교하여 소셜 데이터에서 관찰되는 항우울제 부작용의 종류와 패턴을 밝혔다.
기존의 자연어 처리 기술을 활용한 약물감시 연구는 주로 알고리즘을 개선하거나 새로운 데이터 세트를 제시하고 이들의 성능을 측정하는 단계에 머물러 있는 반면, 본 연구는 구축한 부작용 탐지 파이프라인을 실제 소셜 데이터에 적용하여 유의미한 분석 결과를 제시하였다. 이를 통해 디지털 약물감시의 가능성을 증명하였고 건강과 관련된 소셜 데이터가 약물 부작용 탐지에 유용하게 활용될 수 있음을 보여주었다.
목차 (Table of Contents)