언어모델 파라미터 공유 기반 압축 방법 개선 : 레이어별 입력 크기 보정을 통한 성능 향상 = Improving Parameter Sharing Based Compression for Language Models|RISS 상세보기

국문 초록 (Abstract)

대규모 언어모델은 파라미터 수가 증가할수록 성능이 향상되지만, 추론 시 방대한 가중치를 저장하기 위한 메모리 요구가 커져 소규모 환경에서의 활용에 제약이 된다. 이를 완화하기 위해 널리 사용되는 특이값 분해(SVD)는 가중치 행렬을 저랭크로 근사하여 모델을 압축하며, 최근에는 여러 레이어가 파라미터를 공유하여 압축하는 방법에도 활용되고 있다. 그러나 레이어마다 입력의 크기가 달라, 압축에 사용되는 레이어별 입력의 Gram 행렬간 크기가 차이나고, 이로 인해 파라미터 공유 후 특이값 분해를 수행할 때 작은 입력을 갖는 레이어의 정확도가 낮아질 수 있다. 본 논문은 레이어별 입력 스케일을 정량화한 뒤 이를 이용해 레이어별 Gram 행렬의 크기를 보정한 뒤 특이값 분해를 수행하는 것으로 레이어간 파라미터 공유 기반 언어모델 압축 방법을 개선한다. Llama2-7B 모델에 대한 실험을 통해 제안 방법이 극단적인 압축 환경에서 기존 보다 더 나은 성능을 보임을 확인한다.

번역하기

대규모 언어모델은 파라미터 수가 증가할수록 성능이 향상되지만, 추론 시 방대한 가중치를 저장하기 위한 메모리 요구가 커져 소규모 환경에서의 활용에 제약이 된다. 이를 완화하기 위해 ...

다국어 초록 (Multilingual Abstract)

Large language models (LLMs) generally achieve better performance as the number of parameters increases, but their inference-time memory footprint grows accordingly, limiting their deployment in resource-constrained environments. Singular Value Decomposition (SVD) is a widely used approach to mitigate this issue by approximating weight matrices with low-rank factors, and it has recently been adopted in compression methods that share parameters across multiple layers. However, because input activations can have different scales across layers, the corresponding per-layer Gram matrices used for compression may vary significantly in magnitude. This imbalance can bias the shared decomposition and degrade approximation quality for layers with smaller input scales when applying parameter sharing followed by SVD. In this paper, we improve parameter-sharing–based compression for language models by quantifying layer-wise input scales and rescaling each layer’s Gram matrix to align their magnitudes before performing SVD. Experiments on Llama2-7B show that the proposed method achieves better performance than prior approaches, particularly under extreme compression settings.

번역하기

목차 (Table of Contents)

I 서론 1
I.I 연구 배경 및 필요성 1
I.II 문제 정의 1
I.III 제안 방법 개요: 레이어별 입력 크기 보정 2
II 관련 연구 3

I 서론 1
I.I 연구 배경 및 필요성 1
I.II 문제 정의 1
I.III 제안 방법 개요: 레이어별 입력 크기 보정 2
II 관련 연구 3
II.I 가지치기 3
II.II 레이어간 파라미터 공유 4
II.III 양자화 5
II.IV 저랭크 모델 압축 6
II.IV.I FWSVD: Fisher-weighted SVD 6
II.IV.II ASVD: Activation-aware SVD 6
II.V Whitening 기반 저랭크 모델 압축 7
II.V.I SVD-LLM 7
II.V.II Basis Sharing 8
III 제안 방법 9
III.I 사전 정의: Gram 및 whitening 기반 저랭크 근사 9
III.II 관찰: 레이어별 입력 스케일 차이가 결합 통계에 미치는 영향 10
III.III 제안: Layer-wise Input Scale Calibration 11
III.III.I 레이어별 스케일 지표 12
III.III.II Gram 재스케일링 12
III.III.III 보정된 합산 Gram 및 whitening 행렬 13
III.IV 제안방법 적용시 WS 근사 효과 13
III.V Basis Sharing과의 관계 14
IV 실험 설정 및 결과 16
IV.I 실험 설정 16
IV.I.I 모델 및 데이터셋 16
IV.I.II 비교 방식 17
IV.II 실험 결과 분석 18
IV.II.I 압축률 20% 및 40%: 큰 그룹 크기에서 보정 효과 두드러짐 18
IV.II.II 압축률 60% 및 80%: 극단적인 압축 상황에서 성능 완화 19
IV.II.III 스케일 보정 계수 αℓ 형태에 대한 Ablation 20
IV.II.IV 요약 21
IV.II.V 한계 및 논의 21
V 결론 22
V.I 연구 요약 22
V.II 연구의 주요 기여 22
V.III 향후 연구 방향 23
V.IV 맺음말 24

상세검색

RISS 보유자료

상세검색

해외전자자료

언어모델 파라미터 공유 기반 압축 방법 개선 : 레이어별 입력 크기 보정을 통한 성능 향상 = Improving Parameter Sharing Based Compression for Language Models

부가정보

분석정보

연관 공개강의(KOCW)

이 자료와 함께 이용한 RISS 자료

나만을 위한 추천자료