RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      Robust and scalable subword tokenizer evaluation for medical LLM

      한글로보기

      https://www.riss.kr/link?id=T17387356

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      다국어 초록 (Multilingual Abstract) kakao i 다국어 번역

      As Large Language Models (LLMs) rapidly grow, Integrating LLMs into the medical domain is increasingly being explored. Because an LLM's computational cost and sequence length limits are directly related to its token count, subword tokenization is essential for managing inputs efficiently. However, appropriate subword segmentation is difficult because of complex medical terminology and abbreviations. Because subword tokens are used to train LLMs, the tokenizer plays an important role in an LLM’s performance. In this paper we define two evaluation criteria (1) the out-of-vocabulary (OOV) rate, the extent to which medical terms are preserved, and (2) the token split rate (TSR), which captures the stability of token boundaries, and we propose two corresponding metrics for assessing tokenizers. First, we compare the distributions of each criterion with ground-truth (GT) distributions using Kullback–Leibler (KL) divergence and normalize the resulting score. Second, we fit a Gaussian regression model to the GT distribution and measure the tokenizer’s error with the normalized root-mean-square error (NRMSE). The proposed evaluation scheme offers practical, objective evidence for selecting an appropriate tokenizer in medical LLM applications.
      번역하기

      As Large Language Models (LLMs) rapidly grow, Integrating LLMs into the medical domain is increasingly being explored. Because an LLM's computational cost and sequence length limits are directly related to its token count, subword tokenization is esse...

      As Large Language Models (LLMs) rapidly grow, Integrating LLMs into the medical domain is increasingly being explored. Because an LLM's computational cost and sequence length limits are directly related to its token count, subword tokenization is essential for managing inputs efficiently. However, appropriate subword segmentation is difficult because of complex medical terminology and abbreviations. Because subword tokens are used to train LLMs, the tokenizer plays an important role in an LLM’s performance. In this paper we define two evaluation criteria (1) the out-of-vocabulary (OOV) rate, the extent to which medical terms are preserved, and (2) the token split rate (TSR), which captures the stability of token boundaries, and we propose two corresponding metrics for assessing tokenizers. First, we compare the distributions of each criterion with ground-truth (GT) distributions using Kullback–Leibler (KL) divergence and normalize the resulting score. Second, we fit a Gaussian regression model to the GT distribution and measure the tokenizer’s error with the normalized root-mean-square error (NRMSE). The proposed evaluation scheme offers practical, objective evidence for selecting an appropriate tokenizer in medical LLM applications.

      더보기

      국문 초록 (Abstract) kakao i 다국어 번역

      초대형언어모델(LLM)의 급속한 발전과 함께 의료 분야에서의 언어모델 연구도 각광받고 있다. LLM 네트워크 출력 길이가 곧 토큰 수와 직결되므로 토큰 수를 줄이기 위한 subword 토크나이징 기법이 필수적이다. 그러나 의료 텍스트는 전문 용어와 약어가 많아 올바른 subword 분할이 어렵다. LLM은 subword 단위를 기반으로 학습하므로 LLM 성능에 토크나이저가 중요한 역할을 한다. 따라서 본 논문에서는 의학용어 보존력을 측정하는 Out-of-Vocabulary(OOV) 비율과 Token Split Rate(TSR)로 분절 안정성을 평가 지표로 정의하고, 이를 기반으로 두 가지 토크나이저 평가 방법을 제안한다. 첫 번째, KL Divergence로 각 지표의 분포와 GT(Ground Truth) 분포를 비교하여 토크나이저의 성능을 정량화한다. 두 번째, GT 기반 Gaussian 회귀 분석을 수행하고 오차를 NRMSE (Normalized Root Mean Square Error)로 계산해 토크나이저의 성능을 비교한다. 제안한 평가 방식을 통해 토크나이저 선택 과정에 합리적이고 실질적인 근거를 제공할 것으로 기대된다.
      번역하기

      초대형언어모델(LLM)의 급속한 발전과 함께 의료 분야에서의 언어모델 연구도 각광받고 있다. LLM 네트워크 출력 길이가 곧 토큰 수와 직결되므로 토큰 수를 줄이기 위한 subword 토크나이징 기...

      초대형언어모델(LLM)의 급속한 발전과 함께 의료 분야에서의 언어모델 연구도 각광받고 있다. LLM 네트워크 출력 길이가 곧 토큰 수와 직결되므로 토큰 수를 줄이기 위한 subword 토크나이징 기법이 필수적이다. 그러나 의료 텍스트는 전문 용어와 약어가 많아 올바른 subword 분할이 어렵다. LLM은 subword 단위를 기반으로 학습하므로 LLM 성능에 토크나이저가 중요한 역할을 한다. 따라서 본 논문에서는 의학용어 보존력을 측정하는 Out-of-Vocabulary(OOV) 비율과 Token Split Rate(TSR)로 분절 안정성을 평가 지표로 정의하고, 이를 기반으로 두 가지 토크나이저 평가 방법을 제안한다. 첫 번째, KL Divergence로 각 지표의 분포와 GT(Ground Truth) 분포를 비교하여 토크나이저의 성능을 정량화한다. 두 번째, GT 기반 Gaussian 회귀 분석을 수행하고 오차를 NRMSE (Normalized Root Mean Square Error)로 계산해 토크나이저의 성능을 비교한다. 제안한 평가 방식을 통해 토크나이저 선택 과정에 합리적이고 실질적인 근거를 제공할 것으로 기대된다.

      더보기

      목차 (Table of Contents)

      • Chapter 1. Introduction 1
      • Chapter 2. Related Works 4
      • 2.1. Background 4
      • 2.2. Tokenization Evaluation 6
      • A. Extrinsic Evaluation 6
      • Chapter 1. Introduction 1
      • Chapter 2. Related Works 4
      • 2.1. Background 4
      • 2.2. Tokenization Evaluation 6
      • A. Extrinsic Evaluation 6
      • B. Intrinsic Evaluation 7
      • Chapter 3. Shared Criteria: Coverage & Segmentation 10
      • 3.1. Out-of-Vocabulary (OOV) rate 10
      • 3.2. The Token Split Rate (TSR) 10
      • 3.3. Dataset 11
      • Chapter 4. Metric 1: ToM 13
      • 4.1. Proposed Methods 13
      • 4.2. Experimental Setup 16
      • 4.3. Result 16
      • A. Qualitative Evaluation 17
      • B. Quantitative Evaluation 18
      • C. Results of Proposed Metric 21
      • D. Comparison Using the Proposed Metric 24
      • Chapter 5. Metric 2: MedSeg 27
      • 5.1. Proposed Methods 27
      • 5.2. Experimental Setup 30
      • 5.3. Result 31
      • A. TSR 32
      • B. OOV 34
      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼