본 연구는 딥시크(DeepSeek)와 같은 최신 대규모 언어 모델(LLM)의 통계 모델링 능력을 체계적으로 평가하고자 한다. 인공지능 기술의 급속한 발전으로 LLM은 다양한 분야에서 인간 수준의 추론 ...

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=T17282761
서울 : 고려대학교 정책대학원, 2025
학위논문(석사) -- 고려대학교 정책대학원 , 데이터통계학과 , 2025. 8
2025
한국어
서울
143p ; 26 cm
지도교수: 정윤서
I804:11009-000000305230
0
상세조회0
다운로드본 연구는 딥시크(DeepSeek)와 같은 최신 대규모 언어 모델(LLM)의 통계 모델링 능력을 체계적으로 평가하고자 한다. 인공지능 기술의 급속한 발전으로 LLM은 다양한 분야에서 인간 수준의 추론 ...
본 연구는 딥시크(DeepSeek)와 같은 최신 대규모 언어 모델(LLM)의 통계 모델링 능력을 체계적으로 평가하고자 한다. 인공지능 기술의 급속한 발전으로 LLM은 다양한 분야에서 인간 수준의 추론 능력을 보여주고 있으나, 통계 모델링이라는 특수한 영역에서의 성능은 아직 충분히 검증되지 않았다. 본 연구에서는 기초 통계, 중급 통계, 고급 통계 영역을 포괄하는 체계적인 문제 세트를 구성하여 DeepSeek R1, GPT-4.5, Claude 3.7 Sonnet 세 가지 주요 LLM의 통계 모델링 능력을 비교 분석하였다. 평가는 초기 응답 정확도와 오류 해결 능력을 중심으로 이루어졌으며, 코드 품질은 Codacy를 통해 자동화된 방식으로 평가되었다. 연구 결과, 세 모델 모두 기초 통계 문제에서는 높은 정확도를 보였으나, 복잡한 베이지안 모델링과 다변량 분석과 같은 고급 통계 문제에서는 성능 차이가 뚜렷하게 나타났다. 특히 DeepSeek R1은 수학적 추론이 필요한 문제에서 상대적으로 우수한 성능을 보였으며, GPT-4.5는 코드 품질 측면에서, Claude 3.7 Sonnet는 오류 해결 능력 측면에서 강점을 보였다. 본 연구는 LLM이 통계 모델링 분야에서 보이는 강점과 한계를 명확히 하고, 통계학자와 LLM의 상호보완적 관계를 통해 통계 연구의 효율성을 높일 수 있는 방안을 제시한다. 이를 통해 AI 시대의 통계학의 역할을 재정의하고, 데이터 프라이버시와 같은 잠재적 위험에 대한 인식을 높이는 데 기여하고자 한다.
다국어 초록 (Multilingual Abstract)
This study systematically evaluates the statistical modeling capabilities of advanced Large Language Models (LLMs) such as DeepSeek. While LLMs have demonstrated human-level reasoning abilities across various domains due to rapid advancements in artif...
This study systematically evaluates the statistical modeling capabilities of advanced Large Language Models (LLMs) such as DeepSeek. While LLMs have demonstrated human-level reasoning abilities across various domains due to rapid advancements in artificial intelligence technology, their performance in the specialized field of statistical modeling has not been thoroughly validated. This research constructs a comprehensive set of problems spanning basic, intermediate, and advanced statistical domains to compare and analyze the statistical modeling capabilities of three major LLMs: DeepSeek R1, GPT-4.5, and Claude 3.7 Sonnet. The evaluation focused on initial response accuracy and error resolution ability, with code quality assessed through automated evaluation using Codacy. Results show that while all three models demonstrated high accuracy in basic statistical problems, significant performance differences emerged in advanced statistical problems such as complex Bayesian modeling and multivariate analysis. Notably, DeepSeek showed relatively superior performance in problems requiring mathematical reasoning, while GPT-4.5 excelled in code quality aspects, and Claude 3.7 demonstrated strengths in error resolution capabilities. This study clarifies the strengths and limitations of LLMs in statistical modeling and suggests ways to enhance the efficiency of statistical research through the complementary relationship between statisticians and LLMs. Through this, we aim to redefine the role of statistics in the AI era and raise awareness of potential risks such as data privacy concerns.
목차 (Table of Contents)
[제18회 김옥길기념강좌] 인공지능, 감정, 휴머니즘(Human-Compatible Artificial Intelligence’)’
이화여자대학교 스튜어드 러셀누구나 할 수 있는 데이터 분석과 인공지능[Data Analysis and Artificial Intelligence for Everyone]
K-MOOC 인하공업전문대학 이세훈누구나 할 수 있는 데이터 분석과 인공지능[Data Analysis and Artificial Intelligence for Everyone]
K-MOOC 인하공업전문대학 이세훈경제통계학 2부 - 통계적 추론을 위한 개념, 도구, 사례
K-MOOC 서울대학교 류근관인공지능
충북대학교 이건명