RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      BERT 구조를 이용한 항우울제 부작용 탐지 : 소셜 미디어 및 온라인 커뮤니티 데이터를 중심으로

      한글로보기

      https://www.riss.kr/link?id=T16626599

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract) kakao i 다국어 번역

      우울증 환자들은 자신의 증세와 치료와 관련된 경험을 지인이나 가족에게 털어놓기보다는 소셜 미디어나 건강 관련 온라인 커뮤니티에서 익명의 타인과 소통하는 것을 선호한다. 따라서 항우울제에 대한 부작용을 탐색할 때 소셜미디어 및 온라인 커뮤니티 데이터는 유용하게 활용될 수 있다. 본 연구는 자연어 처리 기술을 활용한 디지털 약물 감시를 위해, 항우울제에 대한 부작용 관련 내용을 탐지하는 자연어 처리 파이프라인을 구축하여 대표적인 소셜 미디어인 트위터(Twitter)와 온라인 커뮤니티인 레딧(Reddit) 데이터에 적용했다.

      부작용 탐지를 위한 파이프라인은 BERT(Bidirectional Encoder Representations from Transformers) 기반의 사전학습 언어모델을 파인튜닝(fine-tuning, 미세조정) 하여 구성하였고, 모델의 성능을 높이기 위해, 파인튜닝 단계 이전에 intermediate 학습(추가적인 사전학습)을 수행했다. 항우울제와 관련한 웹 문서나 약물 리뷰사이트에서 수집한 부작용 관련 텍스트를 intermediate 학습 데이터로 활용하여 BERT의 사전학습 방식 중 하나인 Masked-Language Modeling(MLM) 학습을 진행하였다.

      파인튜닝 단계에서는 해당 작업과 관련된 학습 데이터 세트를 충분히 확보하기 위해 부작용 탐지 관련 선행연구와 shared task에 의해 공개된 다양한 벤치마크 데이터 세트들을 통합했다. 또한 해당 작업의 도메인에 적합한 사전학습 모델을 가려내기 위해 총 6개의 BERT 기반 사전학습 모델 간의 성능을 비교했고 가장 최적의 성능을 보이는 모델과 방법론을 채택했다.

      파이프라인의 마지막 단계인 부작용 표현 정규화를 위해서는 BERT 기반의 샴 네트워크(Siamese Network) 구조로 이루어진 SBERT (Sentence BERT)를 활용했다. 최종적으로, 파이프라인을 통해 약물별로 추출된 부작용들을 관찰하고, 선행 연구의 내용과 비교하여 소셜 데이터에서 관찰되는 항우울제 부작용의 종류와 패턴을 밝혔다.

      기존의 자연어 처리 기술을 활용한 약물감시 연구는 주로 알고리즘을 개선하거나 새로운 데이터 세트를 제시하고 이들의 성능을 측정하는 단계에 머물러 있는 반면, 본 연구는 구축한 부작용 탐지 파이프라인을 실제 소셜 데이터에 적용하여 유의미한 분석 결과를 제시하였다. 이를 통해 디지털 약물감시의 가능성을 증명하였고 건강과 관련된 소셜 데이터가 약물 부작용 탐지에 유용하게 활용될 수 있음을 보여주었다.
      번역하기

      우울증 환자들은 자신의 증세와 치료와 관련된 경험을 지인이나 가족에게 털어놓기보다는 소셜 미디어나 건강 관련 온라인 커뮤니티에서 익명의 타인과 소통하는 것을 선호한다. 따라서 항...

      우울증 환자들은 자신의 증세와 치료와 관련된 경험을 지인이나 가족에게 털어놓기보다는 소셜 미디어나 건강 관련 온라인 커뮤니티에서 익명의 타인과 소통하는 것을 선호한다. 따라서 항우울제에 대한 부작용을 탐색할 때 소셜미디어 및 온라인 커뮤니티 데이터는 유용하게 활용될 수 있다. 본 연구는 자연어 처리 기술을 활용한 디지털 약물 감시를 위해, 항우울제에 대한 부작용 관련 내용을 탐지하는 자연어 처리 파이프라인을 구축하여 대표적인 소셜 미디어인 트위터(Twitter)와 온라인 커뮤니티인 레딧(Reddit) 데이터에 적용했다.

      부작용 탐지를 위한 파이프라인은 BERT(Bidirectional Encoder Representations from Transformers) 기반의 사전학습 언어모델을 파인튜닝(fine-tuning, 미세조정) 하여 구성하였고, 모델의 성능을 높이기 위해, 파인튜닝 단계 이전에 intermediate 학습(추가적인 사전학습)을 수행했다. 항우울제와 관련한 웹 문서나 약물 리뷰사이트에서 수집한 부작용 관련 텍스트를 intermediate 학습 데이터로 활용하여 BERT의 사전학습 방식 중 하나인 Masked-Language Modeling(MLM) 학습을 진행하였다.

      파인튜닝 단계에서는 해당 작업과 관련된 학습 데이터 세트를 충분히 확보하기 위해 부작용 탐지 관련 선행연구와 shared task에 의해 공개된 다양한 벤치마크 데이터 세트들을 통합했다. 또한 해당 작업의 도메인에 적합한 사전학습 모델을 가려내기 위해 총 6개의 BERT 기반 사전학습 모델 간의 성능을 비교했고 가장 최적의 성능을 보이는 모델과 방법론을 채택했다.

      파이프라인의 마지막 단계인 부작용 표현 정규화를 위해서는 BERT 기반의 샴 네트워크(Siamese Network) 구조로 이루어진 SBERT (Sentence BERT)를 활용했다. 최종적으로, 파이프라인을 통해 약물별로 추출된 부작용들을 관찰하고, 선행 연구의 내용과 비교하여 소셜 데이터에서 관찰되는 항우울제 부작용의 종류와 패턴을 밝혔다.

      기존의 자연어 처리 기술을 활용한 약물감시 연구는 주로 알고리즘을 개선하거나 새로운 데이터 세트를 제시하고 이들의 성능을 측정하는 단계에 머물러 있는 반면, 본 연구는 구축한 부작용 탐지 파이프라인을 실제 소셜 데이터에 적용하여 유의미한 분석 결과를 제시하였다. 이를 통해 디지털 약물감시의 가능성을 증명하였고 건강과 관련된 소셜 데이터가 약물 부작용 탐지에 유용하게 활용될 수 있음을 보여주었다.

      더보기

      목차 (Table of Contents)

      • 표 차례 iii
      • 그림 차례 iv
      • 국 문 요 약 v
      • 제1장 서론 1
      • 1.1. 연구의 배경 및 필요성 1
      • 표 차례 iii
      • 그림 차례 iv
      • 국 문 요 약 v
      • 제1장 서론 1
      • 1.1. 연구의 배경 및 필요성 1
      • 1.2. 연구 목적 및 의의 4
      • 제2장 이론적 배경 6
      • 2.1. 소셜 데이터를 활용한 디지털 약물감시 6
      • 2.2. 약물 부작용 탐지를 위한 파이프라인 11
      • 2.3. BERT 17
      • 2.4. 부작용 표현 정규화 21
      • 2.5. Intermediate 학습 24
      • 제3장 연구 방법 28
      • 3.1. 연구 절차 28
      • 3.2. 데이터 31
      • 3.2.1. 항우울제 관련 소셜 데이터 31
      • 3.2.2. Intermediate 학습을 위한 데이터 37
      • 3.2.3. 부작용 문장 탐지를 위한 학습 데이터 세트 40
      • 3.2.4. 부작용 표현 추출을 위한 학습 데이터 세트 42
      • 3.2.5. 부작용 표현 정규화를 위한 평가 데이터 46
      • 3.3. 모델 구축 48
      • 3.3.1. Intermediate 학습 48
      • 3.3.2. 부작용 문장 탐지 모델 48
      • 3.3.3. 부작용 표현 추출 모델 49
      • 3.3.4. 부작용 표현 정규화를 위한 SBERT 49
      • 제4장 실험 및 분석 결과 51
      • 4.1. 부작용 문장 탐지 모델 성능 실험 결과 51
      • 4.2. 부작용 표현 추출 모델 성능 실험 결과 54
      • 4.3. 부작용 표현 정규화를 위한 SBERT 성능 평가 56
      • 4.4. 소셜 데이터 분석 결과 58
      • 제5장 결론 및 제언 70
      • 참고문헌 73
      • 부록 82
      • ABSTRACT 88
      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼