대규모 언어모델은 파라미터 수가 증가할수록 성능이 향상되지만, 추론 시 방대한 가중치를 저장하기 위한 메모리 요구가 커져 소규모 환경에서의 활용에 제약이 된다. 이를 완화하기 위해 ...

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=T17370260
전주 : 전북대학교 대학원, 2026
학위논문(석사) -- 전북대학교 대학원 , 전자.정보공학부(컴퓨터공학) 컴퓨터공학 , 2026. 2
2026
한국어
경량화 ; 저순위화 ; 모델 압축 ; 레이어 간 파라미터 공유 ; 파라미터 공유
전북특별자치도
iv, 28 p. ; 26 cm
지도교수: 이세호
I804:45011-000000063669
0
상세조회0
다운로드대규모 언어모델은 파라미터 수가 증가할수록 성능이 향상되지만, 추론 시 방대한 가중치를 저장하기 위한 메모리 요구가 커져 소규모 환경에서의 활용에 제약이 된다. 이를 완화하기 위해 ...
대규모 언어모델은 파라미터 수가 증가할수록 성능이 향상되지만, 추론 시 방대한 가중치를 저장하기 위한 메모리 요구가 커져 소규모 환경에서의 활용에 제약이 된다. 이를 완화하기 위해 널리 사용되는 특이값 분해(SVD)는 가중치 행렬을 저랭크로 근사하여 모델을 압축하며, 최근에는 여러 레이어가 파라미터를 공유하여 압축하는 방법에도 활용되고 있다. 그러나 레이어마다 입력의 크기가 달라, 압축에 사용되는 레이어별 입력의 Gram 행렬간 크기가 차이나고, 이로 인해 파라미터 공유 후 특이값 분해를 수행할 때 작은 입력을 갖는 레이어의 정확도가 낮아질 수 있다. 본 논문은 레이어별 입력 스케일을 정량화한 뒤 이를 이용해 레이어별 Gram 행렬의 크기를 보정한 뒤 특이값 분해를 수행하는 것으로 레이어간 파라미터 공유 기반 언어모델 압축 방법을 개선한다. Llama2-7B 모델에 대한 실험을 통해 제안 방법이 극단적인 압축 환경에서 기존 보다 더 나은 성능을 보임을 확인한다.
다국어 초록 (Multilingual Abstract)
Large language models (LLMs) generally achieve better performance as the number of parameters increases, but their inference-time memory footprint grows accordingly, limiting their deployment in resource-constrained environments. Singular Value Decomp...
Large language models (LLMs) generally achieve better performance as the number of parameters increases, but their inference-time memory footprint grows accordingly, limiting their deployment in resource-constrained environments. Singular Value Decomposition (SVD) is a widely used approach to mitigate this issue by approximating weight matrices with low-rank factors, and it has recently been adopted in compression methods that share parameters across multiple layers. However, because input activations can have different scales across layers, the corresponding per-layer Gram matrices used for compression may vary significantly in magnitude. This imbalance can bias the shared decomposition and degrade approximation quality for layers with smaller input scales when applying parameter sharing followed by SVD. In this paper, we improve parameter-sharing–based compression for language models by quantifying layer-wise input scales and rescaling each layer’s Gram matrix to align their magnitudes before performing SVD. Experiments on Llama2-7B show that the proposed method achieves better performance than prior approaches, particularly under extreme compression settings.
목차 (Table of Contents)