RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      KCI등재

      비전 트랜스포머 기반 SAM-Adapter를 활용한 터널 막장면 내 불연속면 경계선 추출 = Discontinuity Trace Extraction on Tunnel Faces Using a Vision Transformer-based SAM-Adapter

      한글로보기

      https://www.riss.kr/link?id=A109978323

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract) kakao i 다국어 번역

      본 연구는 텍스트 임베딩 벡터의 크기를 잔차 양자화(residual quantization) 기법을 통해 축소하고, 저장 공간을 효율적으로 활용하는 방법을 제안한다. 텍스트 임베딩 벡터는 자연어 처리(NLP) 및 정보 검색 작업에서 중요한 역할을 하며, 특히 LLM(Large Language Model)에서의 환각 현상을 완화하기 위한 RAG(Retrieval-Augmented Generation) 방식에서 적극적으로 활용되고 있다. 그러나 임베딩 벡터의 크기가 원천 데이터보다 더 많은 저장 공간을 필요로 함에 따라, 저장 비용이 증가 되고 있다. 본 연구에서는 잔차 양자화 기법을 활용하여 텍스트 임베딩 벡터를 압축하는 방법을 제안하며, 이를 검증하기 위해 12개의 임베딩 모델을 선정하고 유사 텍스트 데이터 및 질의응답 데이터를 사용하여 실험을 진행하였다. 실험 결과, 잔차 양자화를 적용한 임베딩 벡터는 평균 0.8% 수준으로 저장 공간이 감소됐으며, 유사 텍스트 데이터의 유사도 비교 실험에서는 유사도의 손실율이 평균 3.6%로 확인되었다. 또한, 질의응답 데이터에서는 양자화된 벡터를 활용했을 때 정확도(Precision@1)가 평균 26% 향상된 효과를 확인했다. 본 연구에서는 임베딩 벡터의 저장 비용을 절감할 수 있는 방법을 제안했고, 질의 응답 태스크에서 성능을 향상시켰다. 제안한 방법은 큰 차원의 벡터 표현을 다루는 분야에서도 활용할 수 있을 것으로 기대된다.
      번역하기

      본 연구는 텍스트 임베딩 벡터의 크기를 잔차 양자화(residual quantization) 기법을 통해 축소하고, 저장 공간을 효율적으로 활용하는 방법을 제안한다. 텍스트 임베딩 벡터는 자연어 처리(NLP) 및 ...

      본 연구는 텍스트 임베딩 벡터의 크기를 잔차 양자화(residual quantization) 기법을 통해 축소하고, 저장 공간을 효율적으로 활용하는 방법을 제안한다. 텍스트 임베딩 벡터는 자연어 처리(NLP) 및 정보 검색 작업에서 중요한 역할을 하며, 특히 LLM(Large Language Model)에서의 환각 현상을 완화하기 위한 RAG(Retrieval-Augmented Generation) 방식에서 적극적으로 활용되고 있다. 그러나 임베딩 벡터의 크기가 원천 데이터보다 더 많은 저장 공간을 필요로 함에 따라, 저장 비용이 증가 되고 있다. 본 연구에서는 잔차 양자화 기법을 활용하여 텍스트 임베딩 벡터를 압축하는 방법을 제안하며, 이를 검증하기 위해 12개의 임베딩 모델을 선정하고 유사 텍스트 데이터 및 질의응답 데이터를 사용하여 실험을 진행하였다. 실험 결과, 잔차 양자화를 적용한 임베딩 벡터는 평균 0.8% 수준으로 저장 공간이 감소됐으며, 유사 텍스트 데이터의 유사도 비교 실험에서는 유사도의 손실율이 평균 3.6%로 확인되었다. 또한, 질의응답 데이터에서는 양자화된 벡터를 활용했을 때 정확도(Precision@1)가 평균 26% 향상된 효과를 확인했다. 본 연구에서는 임베딩 벡터의 저장 비용을 절감할 수 있는 방법을 제안했고, 질의 응답 태스크에서 성능을 향상시켰다. 제안한 방법은 큰 차원의 벡터 표현을 다루는 분야에서도 활용할 수 있을 것으로 기대된다.

      더보기

      다국어 초록 (Multilingual Abstract) kakao i 다국어 번역

      This study proposes a method to reduce the size of text embedding vectors using residual quantization (RQ), with the goal of improving storage efficiency. Text embeddings are essential in natural language processing (NLP) and information retrieval tasks, especially in Retrieval-Augmented Generation (RAG) systems designed to mitigate hallucinations in Large Language Models (LLMs). However, embedding vectors can demand more storage space than the original data itself, leading to increased storage costs at scale. To address this challenge, we apply residual quantization to compress embedding vectors and evaluate the effectiveness of the method across 12 different embedding models using both semantic similarity and question-answering (QA) datasets. Experimental results show that the quantized embeddings achieve an average storage reduction of 0.8%, with a 3.6% average loss in similarity scores for semantic retrieval tasks. Notably, in QA tasks, the quantized vectors yield an average improvement of 26% in Precision@1, indicating that slight compression can contribute to meaningful gains in downstream performance. The proposed method demonstrates that even marginal compression of embedding vectors can lead to measurable efficiency and performance improvements. This approach offers a practical direction for managing high-dimensional representations in large-scale NLP systems.
      번역하기

      This study proposes a method to reduce the size of text embedding vectors using residual quantization (RQ), with the goal of improving storage efficiency. Text embeddings are essential in natural language processing (NLP) and information retrieval tas...

      This study proposes a method to reduce the size of text embedding vectors using residual quantization (RQ), with the goal of improving storage efficiency. Text embeddings are essential in natural language processing (NLP) and information retrieval tasks, especially in Retrieval-Augmented Generation (RAG) systems designed to mitigate hallucinations in Large Language Models (LLMs). However, embedding vectors can demand more storage space than the original data itself, leading to increased storage costs at scale. To address this challenge, we apply residual quantization to compress embedding vectors and evaluate the effectiveness of the method across 12 different embedding models using both semantic similarity and question-answering (QA) datasets. Experimental results show that the quantized embeddings achieve an average storage reduction of 0.8%, with a 3.6% average loss in similarity scores for semantic retrieval tasks. Notably, in QA tasks, the quantized vectors yield an average improvement of 26% in Precision@1, indicating that slight compression can contribute to meaningful gains in downstream performance. The proposed method demonstrates that even marginal compression of embedding vectors can lead to measurable efficiency and performance improvements. This approach offers a practical direction for managing high-dimensional representations in large-scale NLP systems.

      더보기

      동일학술지(권/호) 다른 논문

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼