RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      임상문서에서 임상검사명을 추출하기 위한 q-gram 기반의 새로운 유사문자열 추출 알고리즘 개발

      한글로보기

      https://www.riss.kr/link?id=T14509219

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract) kakao i 다국어 번역

      임상검사명 및 임상 검사항목들은 임상의가 환자의 내과적 외과적 질환을 진단하기 위해 사용하는 기본정보이다. 그러나 이러한 정보들의 대다수는 정형화되어있지 않으며, 특정 질병의 진단에 중요한 검사 항목들은 임상의들이 환자들을 진료하는 동안에 진료기록지에 서술하여 기록된다. 이러한 문서내의 정보들은 사람에 의해 기록되므로, "cholesterol"을 "chol"로 줄여 쓰는 것처럼 편의상 축약되어 등장하거나 오타가 발생 할 수 도 있다. 이런 이유로 중요한 임상 정보들이 다른 예기치 못한 형태로서 등장할 수도 있으며, 이는 기존의 표준 용어를 활용한 사전기반의 정보추출 방식의 성능을 떨어뜨리는 요인이 된다. 대량의 문헌 정보들을 일일이 찾아서 이런 예기치 못한 표현의 패턴들을 일일이 찾아 사전 또는 정규표현식으로 구축하는 것은 신뢰도 높은 결과를 얻을 수는 있지만, 시간이 오래 걸리며, 연구자에게 긴 노동시간을 강요하게 된다. 따라서 본 논문에서는 임상검사명 및 그 항목을 찾아내기 위해, 축약된 표현을 포함한 유사문자열을 자동으로 찾아낼 수 있는 새로운 알고리즘들을 개발하고자 한다.
      이를 위해서 본 연구는 유사문자열을 찾아내는 기존의 알고리즘 중 q-gram기반의 카운터 필터링(counter filtering)을 기반으로 새로운 알고리즘들을 단계적으로 개발하였다. q-gram 기반의 카운터 필터링이란 문자열을 q만큼의 길이로 잘라내어 새로운 문자열들을 생성한 후 공통된 문자열의 개수가 역치(threshold)를 넘으면 유사하다고 판정한다. 그러나 고전적인 카운터 필터링은 너무 낮은 역치로 인해 너무 높은 위양성을 생성한다는 에러를 지니고 있다. 이를 해결하고자 본 논문에서는 수정된 q-gram 필터링(modified q-gram filtering)을 제안한다. 그 후 축약된 표현을 찾아낼 수 있는 orthogonal distance filtering을 제안하고 높은 위양성을 낮출 수 있는 triangular area filtering, modified triangular area filtering을 제안한다.
      실험 결과, i2b2 학습 데이터에서 기존의 사전 매칭보다 제안한 modified triangular area filtering의 f1-score가 3.91 향상되었고(Precision / Recall / F1-score : (89.76 / 73.51 / 80.83) → (85.39 / 84.11 / 84.74)), 평가 데이터에서는 6.29가 향상되어 가장 큰 상승 폭을 보였다. (Precision / Recall / F1-score : (88.68 / 69.34 / 77.83) → (86.26 / 82.08 / 84.12)). 서울대학교 병원에 내원한 당뇨환자들에 대한 학습 데이터에서도 기존의 사전 매칭보다 제안한 modified triangular area filtering의 f1-score가 2.74 더 높았으며 (Precision / Recall / F1-score : (95.2 / 76.76 / 84.99) → (91.26 / 84.47 / 87.73)), 평가 데이터에서는 2.86이 향상되는 것을 확인하였다(Precision / Recall / F1-score : (95.08 / 80.92 / 87.43) → (92.69 / 88.02 / 90.29)).
      번역하기

      임상검사명 및 임상 검사항목들은 임상의가 환자의 내과적 외과적 질환을 진단하기 위해 사용하는 기본정보이다. 그러나 이러한 정보들의 대다수는 정형화되어있지 않으며, 특정 질병의 진...

      임상검사명 및 임상 검사항목들은 임상의가 환자의 내과적 외과적 질환을 진단하기 위해 사용하는 기본정보이다. 그러나 이러한 정보들의 대다수는 정형화되어있지 않으며, 특정 질병의 진단에 중요한 검사 항목들은 임상의들이 환자들을 진료하는 동안에 진료기록지에 서술하여 기록된다. 이러한 문서내의 정보들은 사람에 의해 기록되므로, "cholesterol"을 "chol"로 줄여 쓰는 것처럼 편의상 축약되어 등장하거나 오타가 발생 할 수 도 있다. 이런 이유로 중요한 임상 정보들이 다른 예기치 못한 형태로서 등장할 수도 있으며, 이는 기존의 표준 용어를 활용한 사전기반의 정보추출 방식의 성능을 떨어뜨리는 요인이 된다. 대량의 문헌 정보들을 일일이 찾아서 이런 예기치 못한 표현의 패턴들을 일일이 찾아 사전 또는 정규표현식으로 구축하는 것은 신뢰도 높은 결과를 얻을 수는 있지만, 시간이 오래 걸리며, 연구자에게 긴 노동시간을 강요하게 된다. 따라서 본 논문에서는 임상검사명 및 그 항목을 찾아내기 위해, 축약된 표현을 포함한 유사문자열을 자동으로 찾아낼 수 있는 새로운 알고리즘들을 개발하고자 한다.
      이를 위해서 본 연구는 유사문자열을 찾아내는 기존의 알고리즘 중 q-gram기반의 카운터 필터링(counter filtering)을 기반으로 새로운 알고리즘들을 단계적으로 개발하였다. q-gram 기반의 카운터 필터링이란 문자열을 q만큼의 길이로 잘라내어 새로운 문자열들을 생성한 후 공통된 문자열의 개수가 역치(threshold)를 넘으면 유사하다고 판정한다. 그러나 고전적인 카운터 필터링은 너무 낮은 역치로 인해 너무 높은 위양성을 생성한다는 에러를 지니고 있다. 이를 해결하고자 본 논문에서는 수정된 q-gram 필터링(modified q-gram filtering)을 제안한다. 그 후 축약된 표현을 찾아낼 수 있는 orthogonal distance filtering을 제안하고 높은 위양성을 낮출 수 있는 triangular area filtering, modified triangular area filtering을 제안한다.
      실험 결과, i2b2 학습 데이터에서 기존의 사전 매칭보다 제안한 modified triangular area filtering의 f1-score가 3.91 향상되었고(Precision / Recall / F1-score : (89.76 / 73.51 / 80.83) → (85.39 / 84.11 / 84.74)), 평가 데이터에서는 6.29가 향상되어 가장 큰 상승 폭을 보였다. (Precision / Recall / F1-score : (88.68 / 69.34 / 77.83) → (86.26 / 82.08 / 84.12)). 서울대학교 병원에 내원한 당뇨환자들에 대한 학습 데이터에서도 기존의 사전 매칭보다 제안한 modified triangular area filtering의 f1-score가 2.74 더 높았으며 (Precision / Recall / F1-score : (95.2 / 76.76 / 84.99) → (91.26 / 84.47 / 87.73)), 평가 데이터에서는 2.86이 향상되는 것을 확인하였다(Precision / Recall / F1-score : (95.08 / 80.92 / 87.43) → (92.69 / 88.02 / 90.29)).

      더보기

      목차 (Table of Contents)

      • 제 1 장 서론 1
      • 제 1 절 연구의 배경 및 필요성 1
      • 제 2 절 연구 배경 및 주안점 2
      • 제 3 절 연구 순서 4
      • 제 1 장 서론 1
      • 제 1 절 연구의 배경 및 필요성 1
      • 제 2 절 연구 배경 및 주안점 2
      • 제 3 절 연구 순서 4
      • 제 2 장 기존이론 5
      • 제 1 절 문제 정의 5
      • 제 2 절 q-gram 기반의 문자열 필터링 6
      • 제 3 절 q-gram 기반의 고전적인 counter 필터링 7
      • 제 3 장 알고리즘 개발 8
      • 제 1 절 2차원 q-gram 모델 제안 8
      • 제 2 절 수정된 q-gram filtering 10
      • 제 3 절 orthogonal distance filtering 13
      • 제 4 절 linear threshold filtering 16
      • 제 5 절 triangular area filtering 20
      • 제 6 절 modified triangluar area filtering 24
      • 제 4 장 추가적인 필터링 기법 25
      • 제 1 절 길이 필터링 25
      • 제 2 절 접두사 필터링 25
      • 제 3 절 연속적으로 일치하는 q-gram을 활용한 가중치 26
      • 제 4 절 공백을 포함하는 q-gram의 삭제 26
      • 제 5 절 선택적인 쿼리문자열 선택 27
      • 제 6 절 같은 토큰의 개수를 가지는 문자열끼리의 비교 27
      • 제 5 장 실험 28
      • 제 1 절 실험 환경 구축 28
      • 1. 알고리즘 29
      • 2. 사전 29
      • 3. 데이터셋 30
      • 제 2 절 텍스트 전처리 31
      • 1. Space separating character elimination 31
      • 2. Clinical jargon elimination 31
      • 3. Stop word elimination 32
      • 4. String purification 32
      • 제 3 절 프레임웤 34
      • 제 4 절 평가방법론 35
      • 제 6 장 결과 36
      • 제 1 절 각 알고리즘 특성 36
      • 제 2 절 가장 높은 성능의 알고리즘 40
      • 제 3 절 알고리즘 안정도 42
      • 제 4 절 알고리즘 속도 44
      • 제 7 장 고찰 45
      • 제 1 절 위양성의 영향 46
      • 제 2 절 modified triangluar area filtering의 최적의 매개변수 46
      • 제 3 절 q 값의 지정 근거 47
      • 제 4 절 추가적인 필터링의 영향 48
      • 제 5 절 알고리즘의 속도 49
      • 제 6 절 데이터셋의 특성 51
      • 제 7 절 향후 가능성 51
      • 제 8 장 관련연구 52
      • 제9장 결론 54
      • 참고문헌 56
      • 부록 59
      • Abstract 83
      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼