RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      데이터 매칭 최적 성능을 위한 자료연계 방법에 관한 연구 = A Study on Record Linkage Methods for Data Matching Performance Optimization

      한글로보기

      https://www.riss.kr/link?id=T17177948

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract) kakao i 다국어 번역

      제4차 산업혁명 시대에 접어들며 데이터 활용의 중요성이 점차 강조되고 있다. 다양한 분야에서 데이터를 매칭하고 활용하려는 수요가 증가하면서 새 로운 가치 창출의 가능성이 열리고 있다. 국외에서는 데이터 매칭과 관련된 다양한 방법론이 오래전부터 활발히 연구되었으나, 국내에서는 주로 주민등록 번호와 같은 고유 식별자를 기반으로 한 결정적 자료연계 방식이 활용되어 왔 다. 이러한 방식은 데이터 불일치, 오류 문제, 그리고 개인정보 보호 규정 강 화로 인해 한계를 드러내고 있다. 본 연구는 이러한 한계를 해결하기 위해 확률적 자료연계 방법을 활용하여 데이터 매칭 성능을 최적화하고자 하였다. 더 나아가, 로지스틱 회귀, 랜덤 포 레스트, 그라디언트 부스팅 등 기계학습 방법을 도입하여 기존 방법론과 매칭 성능을 비교·분석하였다. 분석 결과, 기계학습 기반 자료연계 방식이 기존 확 률적 자료연계 방법보다 우수한 성능을 보였으며, 데이터 매칭에 있어 충분히 실용적인 가능성을 확인하였다. 본 연구는 데이터 통합 문제를 해결하기 위한 기계학습 기반 자료연계의 실용적이고 견고한 해결책을 제안한다. 주요 용어 : 데이터 매칭, 확률적 자료연계, 기계학습 접근방법
      번역하기

      제4차 산업혁명 시대에 접어들며 데이터 활용의 중요성이 점차 강조되고 있다. 다양한 분야에서 데이터를 매칭하고 활용하려는 수요가 증가하면서 새 로운 가치 창출의 가능성이 열리고 있...

      제4차 산업혁명 시대에 접어들며 데이터 활용의 중요성이 점차 강조되고 있다. 다양한 분야에서 데이터를 매칭하고 활용하려는 수요가 증가하면서 새 로운 가치 창출의 가능성이 열리고 있다. 국외에서는 데이터 매칭과 관련된 다양한 방법론이 오래전부터 활발히 연구되었으나, 국내에서는 주로 주민등록 번호와 같은 고유 식별자를 기반으로 한 결정적 자료연계 방식이 활용되어 왔 다. 이러한 방식은 데이터 불일치, 오류 문제, 그리고 개인정보 보호 규정 강 화로 인해 한계를 드러내고 있다. 본 연구는 이러한 한계를 해결하기 위해 확률적 자료연계 방법을 활용하여 데이터 매칭 성능을 최적화하고자 하였다. 더 나아가, 로지스틱 회귀, 랜덤 포 레스트, 그라디언트 부스팅 등 기계학습 방법을 도입하여 기존 방법론과 매칭 성능을 비교·분석하였다. 분석 결과, 기계학습 기반 자료연계 방식이 기존 확 률적 자료연계 방법보다 우수한 성능을 보였으며, 데이터 매칭에 있어 충분히 실용적인 가능성을 확인하였다. 본 연구는 데이터 통합 문제를 해결하기 위한 기계학습 기반 자료연계의 실용적이고 견고한 해결책을 제안한다. 주요 용어 : 데이터 매칭, 확률적 자료연계, 기계학습 접근방법

      더보기

      다국어 초록 (Multilingual Abstract) kakao i 다국어 번역

      The importance of data utilization has been increasingly emphasized in the Fourth Industrial Revolution. As the demand for data matching and utilization grows across various fields, new opportunities for value creation are emerging. While diverse methodologies related to data matching have been extensively researched internationally, Korea has predominantly relied on deterministic record linkage methods based on unique identifiers such as resident registration numbers. These methods, however, face limitations due to data inconsistencies, errors, and the tightening of privacy protection regulations. This study aims to address these limitations by optimizing data matching performance through probabilistic record linkage methods. Furthermore, machine learning techniques such as logistic regression, random forests, and gradient boosting were introduced to compare and analyze performance against existing methods. The results demonstrate that machine learning-based record linkage methods outperform traditional 1) A thesis for the degree of Doctor of Philosophy in February 2025. probabilistic approaches, showing substantial practical applicability in data matching. This study proposes machine learning-based record linkage as a practical and robust solution to the challenges of data integration. Keywords : data matching, probabilistic record linkage, machine learning approach
      번역하기

      The importance of data utilization has been increasingly emphasized in the Fourth Industrial Revolution. As the demand for data matching and utilization grows across various fields, new opportunities for value creation are emerging. While diverse meth...

      The importance of data utilization has been increasingly emphasized in the Fourth Industrial Revolution. As the demand for data matching and utilization grows across various fields, new opportunities for value creation are emerging. While diverse methodologies related to data matching have been extensively researched internationally, Korea has predominantly relied on deterministic record linkage methods based on unique identifiers such as resident registration numbers. These methods, however, face limitations due to data inconsistencies, errors, and the tightening of privacy protection regulations. This study aims to address these limitations by optimizing data matching performance through probabilistic record linkage methods. Furthermore, machine learning techniques such as logistic regression, random forests, and gradient boosting were introduced to compare and analyze performance against existing methods. The results demonstrate that machine learning-based record linkage methods outperform traditional 1) A thesis for the degree of Doctor of Philosophy in February 2025. probabilistic approaches, showing substantial practical applicability in data matching. This study proposes machine learning-based record linkage as a practical and robust solution to the challenges of data integration. Keywords : data matching, probabilistic record linkage, machine learning approach

      더보기

      목차 (Table of Contents)

      • Ⅰ. 서 론 1
      • 1. 배경 및 목적 1
      • 2. 주요 선행 연구 5
      • Ⅱ. 자료연계 방법 10
      • 1. 결정적 자료연계 10
      • Ⅰ. 서 론 1
      • 1. 배경 및 목적 1
      • 2. 주요 선행 연구 5
      • Ⅱ. 자료연계 방법 10
      • 1. 결정적 자료연계 10
      • 2. 확률적 자료연계 12
      • 3. 유사도 함수 24
      • Ⅲ. 자료연계 절차 28
      • 1. 데이터 전처리 28
      • 2. 인덱싱 32
      • 3. 레코드 쌍 비교 36
      • 4. 레코드 쌍 분류 39
      • 5. 평가 및 검토 41
      • Ⅳ. 기계학습을 이용한 자료연계 49
      • 1. 로지스틱 회귀 51
      • 2. 랜덤 포레스트 55
      • 3. 그라디언트 부스팅 59
      • Ⅴ. 실증 분석 62
      • Ⅵ. 결 론 79
      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼