최근 인공지능(AI) 기술이 의료 영상 판독 분야에 도입되면서, 흉부 X-ray 이상 소견 탐지 및 임상 판독문 자동 생성 연구가 활발하게 진행되고 있다. 특히 비전-언어 모델(Vision-Language Model, VLM)...

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=T17371720
김해 : 인제대학교 일반대학원, 2026
학위논문(석사) -- 인제대학교 일반대학원 , AI융합로봇학 AI융합로봇학 , 2026. 2
2026
한국어
경상남도
51 ; 26 cm
지도교수: 김희철
I804:48012-200000953232
0
상세조회0
다운로드최근 인공지능(AI) 기술이 의료 영상 판독 분야에 도입되면서, 흉부 X-ray 이상 소견 탐지 및 임상 판독문 자동 생성 연구가 활발하게 진행되고 있다. 특히 비전-언어 모델(Vision-Language Model, VLM)...
최근 인공지능(AI) 기술이 의료 영상 판독 분야에 도입되면서, 흉부 X-ray 이상 소견 탐지 및 임상 판독문 자동 생성 연구가 활발하게 진행되고 있다. 특히 비전-언어 모델(Vision-Language Model, VLM)은 의료 영상의 시각적 정보를 이해하고 그 결과를 자연어로 기술할 수 있게 되면서, 임상 판독문 작성 자동화의 가능성을 크게 확장 시켰다. 그러나 기존 연구는 고정된 데이터셋과 정답 문장을 중심으로 한 지도 학습(Supervised Learning)에 머물러 실제 임상 판독문의 구조적 특성이나 임상의의 추론 과정을 충분히 반영하지 못하는 한계가 존재한다.본 연구는 이러한 한계를 극복하기 위해, 의료진 피드백 기반 도제식 학습(Human-in-the-loop) 개념을 적용하여, VLM을 활용한 흉부 X-ray 판독문 생성 시스템을 제안한다. 연구의 구성은 (1) 의료 특화 VLM인 Lingshu-7B 모델을 기반으로 LoRA 기법을 활용한 지도 미세 조정(Supervised Fine-Tuning, SFT)을 수행하고, (2) 의료진 피드백을 보상 신호로 변환하여 TRL(Transformer Reinforcement Learning) 중 DPO(Direct Preference Optimization) 알고리즘을 적용한 강화학습 기반 도제식 학습 파이프라인을 구축하며, (3) 웹 인터페이스를 통한 실시간 피드백 루프를 구현하여, 모델이 의료진의 판독문 및 판단 기준으로 지속적인 학습할 수 있는 환경을 조성하였다. 연구에는 MIMIC-CXR-JPG 데이터셋의 총 370,000여 장 중 15,000장을 다운로드 후 사용하였고, AP/PA 촬영 이미지 총 9,700장이 사용되었으며, 이 중 8,700장은 학습 및 검증용, 1,000장은 학습에 사용되지 않은 테스트 세트로 구성하였다. 학습 데이터의 메타데이터(성별, 나이, 촬영 방향)는 MIMIC에서 제공하는 CSV 파일에서 추출하였고, 웹 인터페이스에서 업로드된 이미지는 CNN 모델로 예측 후 프롬프트에 포함하였다.웹 인터페이스는 총 세 단계로 구성된다. 첫째, CoT(Chain-of-Though) 데이터셋 수집 페이지에서는 의료진이 학습에 사용된 흉부 X-ray 이미지를 직접 판독하고 Findings 및 Impression, 추론 과정을 작성함으로써, 임상적 사고가 반영된 데이터셋을 구축 후 TRL+LoRA 모델을 재학습하였다. 둘째, 판독문 생성 및 비교 페이지에서는 사용자가 업로드한 흉부 X-ray 이미지에 대해 LoRA 기반 모델과 TRL+LoRA 모델이 각각 생성한 판독문을 제시하며, Meditron-7B-Instruct 모델을 통해 감별 진단 및 추가 검사를 제공한다. 셋째, 의료진은 두 모델이 생성한 결과를 10점 만점의 척도로 평가하고, 이 평가는 JSON 형식으로 저장되어 TRL(DPO) 학습의 보상 신호로 반영된다. 연구 결과, BERTScore-F1은 0.06(baseline) → 0.11(LoRA) → 0.14(TRL+LoRA) 로 향상되었으며, 이는 의료진의 피드백을 반영한 강화학습이 모델의 임상적 문맥 이해와 언어적 일관성을 실질적으로 개선함을 시사한다. 본 연구는 의료진의 평가를 직접 보상 신호로 활용하여 모델이 스스로 발전하는 도제식 강화학습 구조(Human Feedback Reinforcement Learning, HFRL)를 제시하였으며, 이는 숙련된 의료진이 후배 의료진을 교육하며 지식과 경험을 전수하는 과정과 유사하다. 본 연구는 단순한 자동 판독 시스템을 넘어, 의료 인공지능이 의료진의 판단 기준을 내재화하고 스스로 진화할 수 있는 새로운 학습 패러다임을 제시함으로써 흉부 X-ray 판독문 작성 자동화와 임상적 신뢰성 향상에 기여한다.
다국어 초록 (Multilingual Abstract)
With the recent introduction of artificial intelligence(AI) into medical image interpretation, studies on detecting abnormalities in chest X-rays and automatically generating radiology reports have rapidly progressed. In particular, Vision-Language Mo...
With the recent introduction of artificial intelligence(AI) into medical image interpretation, studies on detecting abnormalities in chest X-rays and automatically generating radiology reports have rapidly progressed. In particular, Vision-Language Models(VLMs) have greatly expanded the potential of automated report generation by enabling the comprehension of visual information in medical images and its description in natural language. However, most prior studies relied on supervised learning using fixed datasets and reference sentences, limiting their ability to reflect the structure and inference process of actual clinical reports. To overcome these limitations, this study proposes a chest X-ray report generation system using Human-in-the-loop learning based on clinician feedback. The system consists components: (1) supervised fine-tuning(SFT) of the medical-domain VLM(Lingshu-7B) using LoRA; (2) Transformer Reinforcement Learning(TRL) with the Direct Preference Optimization(DPO) algorithm, which converts clinician feedback into reward signals; and (3) a real-time web-based feedback loop that allows the model to continuously learn from clinician evaluations. A Total of 15,000 images were selectively downloaded from the 370,000 images in the MIMIC-CXR-JPG dataset due to storage limits. Among them, 9,700 AP/PA images were used: 8,700 for training and validation, and 1,000 unseen images for testing. Metadata such as gender, age, and view position were extracted from the official MIMIC CSV files, while newly uploaded images were processed by a CNN-based model to predict patient gender, age, and view position, which were added to the model prompt. The web interface has three stages. First, in the CoT(Chain-of-Thought) dataset collection page, radiologists review chest X-ray images and write Findings, Impression, and 추론 steps, creating a dataset that reflects clinical thinking for retraining the TRL+LoRA model, Second, in the report generation and comparison pages, users upload chest X-ray images to generate reports using both the LoRA and TRL+LoRA models, while Meditron-7B-Instruct provides automatic differential diagnoses and further test suggestions. Third, clinicians evaluate the generate reports on a 10-point scale, and the scores are stored in JSON format as reward signals for TRL(DPO) training. The BERTScore-F1 imporved from 0.06(baseline) to 0.11(LoRA) and 0.14(TRL+LoRA), showing that clinician-guided reinforcement learning enhances the models’s clinical understanding and linguistic coherence, The proposed Human Feedback Reinforcement Learning(HFRL) framework enables self-improvement through direct use of clinician evaluations, similar to how experienced physicians train junior doctors, This study presents a new paradigm where medical AI internalizes clinical inference and evolves autonomously, improving both the automation and clinical reliability of chest X-ray report generation.
목차 (Table of Contents)