RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      프레임 단위 적응형 데이터셋 프루닝을 이용한 종단간 자율주행 학습 데이터 선별

      한글로보기

      https://www.riss.kr/link?id=T17374250

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract) kakao i 다국어 번역

      자율주행 시스템은 오랫동안 차선 인식, 객체 탐지, 경로 계획, 행동 결 정 등을 개별 모듈로 분리하고, 각 모듈의 출력 위에 수많은 규칙과 예외 처리를 쌓아 올리는 모듈식·룰베이스 구조에 기반해 발전해 왔다. 이러 한 방식은 기능별 책임이 분명하고 디버깅이 용이하다는 장점이 있으나, 복잡한 도시 환경, 다양한 교통 주체의 상호작용, 도로 공사·악천후·야 간과 같은 롱테일(long-tail) 상황이 증가할수록 필요한 규칙의 수와 상호 작용이 기하급수적으로 늘어난다. 그 결과 특정 시나리오를 다루기 위해 추가한 규칙이 다른 상황에서 예기치 않은 부작용을 유발하고, 차량 플랫 폼·지역·법규가 바뀔 때마다 규칙 세트를 다시 손봐야 하는 등 시스템 유지·보수 비용이 크게 증가하는 한계를 드러내고 있다. 이러한 구조적 한계를 보완하기 위해, 최근에는 센서 입력으로부터 주 변 인지, 주행 의사결정, 조향·가감속 제어에 이르는 전체 파이프라인을 하나의 신경망 또는 소수의 네트워크로 통합하는 End-to-End(E2E) 자율 주행 패러다임이 주목받고 있다. E2E 방식은 사람이 규칙과 중간 표현을 일일이 설계하기보다는, 대규모 주행 로그로부터 네트워크가 표현과 정책 을 동시에 학습하도록 함으로써, 명시적 규칙으로 열거하기 어려운 복잡 한 상호작용과 롱테일 상황에 보다 유연하게 대응할 수 있다는 기대를 준 다. 그러나 이와 같은 이점은 동시에, 모델 구조의 정교함만으로는 충분 하지 않고, 다양한 환경·상황을 고밀도로 포괄하는 대규모·고품질 학습 데이터가 사실상 성능을 좌우한다는 점을 의미한다. 실제 서비스 수준의 자율주행을 위해서는 장시간의 주행 로그에 대해 3차원 객체 바운딩 박 스, 궤적, 차선·차로, 신호·표지판 등 정밀한 시맨틱 라벨을 부여해야 하며, 이는 고가의 전문 인력과 다단계 검수 과정을 필요로 하는 매우 비 용 집약적인 작업이다. 그럼에도 실제 로그의 상당 부분은 고속도로 직 진, 정속 크루즈, 한산한 직선 도로와 같은 단조롭고 위험 요소가 적은 장 면으로 구성되어, 서로 유사한 센서 패턴과 제어 명령을 반복할 뿐 모델 의 일반화 성능 향상에는 기여도가 낮은 중복·저정보 데이터가 된다. 반 대로, 공사 구간, 비정형 차선 변경, 갑작스러운 보행자 진입과 같은 중요 한 롱테일 시나리오는 전체 데이터에서 차지하는 비율이 작아 학습 과정 에서 충분히 반영되기 어렵다. 이로 인해 E2E 자율주행 학습 파이프라인 은 막대한 라벨링·연산 비용을 투입하고도, 실제로는 쉬운 샘플 위주로 자원이 낭비되는 비효율적인 구조를 갖게 되며, 얼마나 많은 데이터를 쓰 는가보다 어떤 데이터를 얼마나 선택적으로 쓰는가가 성능과 비용을 결정 하는 핵심 문제가 되고 있다. 본 연구는 이러한 문제의식을 바탕으로, 프레임 단위 데이터셋 프루닝 을 이용해 더 많은 데이터보다 더 중요한 데이터에 학습 자원을 집중하는 적응형 데이터셋 프루닝(Adaptive Dataset Pruning, ADP) 기법을 제안한 다. 제안 기법은 먼저 BEV(Bird’s Eye View) 중간 표현 공간에서 주행 샘플을 임베딩하고, 코사인 유사도 기반 K-center Coverage를 통해 전체 분포를 잘 대표하는 대표 데이터셋을 구성한다. 이후 예측 손실, MC Dropout 기반 불확실성, 표현 공간에서의 대표성을 통합하여 샘플 중요도 를 정의한다. 각 샘플에 대해 연속적인 마스크 변수를 도입해 중요도가 높은 샘플은 자주 사용되고 중복·저정보 샘플은 점진적으로 제거되도록 하는 선택 손실을 설계한다. 이때 전체 평균 마스크 값이 목표 프루닝 비 율 스케줄을 따르도록 제약을 부여함으로써, 학습이 진행될수록 자동으로 적절한 데이터 서브셋이 형성되도록 한다. nuScenes 데이터셋 기반 E2E 자율주행 모델 실험에서, 전체 데이터의 10~50%만 사용하더라도 제안 기법으로 선별한 서브셋은 전량 데이터를 사용한 경우와 유사한 궤적 오차·충돌률을 유지하면서, 무작위 서브샘플 링보다 일관되게 우수한 성능을 보였다. 또한 CARLA 시뮬레이터 closed-loop 주행 평가에서도, 축소된 데이터셋으로 학습한 모델이 주행 점수와 성공률을 유지하거나 향상시키며 데이터·연산 비용을 절감할 수 있음을 확인하였다. 본 연구의 ADP 프레임워크는 특정 모델 구조나 구현 환경에 종속되지 않고, E2E 자율주행을 포함한 다양한 대규모 시계열·영 상 학습 설정에 적용 가능한 일반적인 데이터 선택 메커니즘으로서 의의 를 가진다.
      번역하기

      자율주행 시스템은 오랫동안 차선 인식, 객체 탐지, 경로 계획, 행동 결 정 등을 개별 모듈로 분리하고, 각 모듈의 출력 위에 수많은 규칙과 예외 처리를 쌓아 올리는 모듈식·룰베이스 구조�...

      자율주행 시스템은 오랫동안 차선 인식, 객체 탐지, 경로 계획, 행동 결 정 등을 개별 모듈로 분리하고, 각 모듈의 출력 위에 수많은 규칙과 예외 처리를 쌓아 올리는 모듈식·룰베이스 구조에 기반해 발전해 왔다. 이러 한 방식은 기능별 책임이 분명하고 디버깅이 용이하다는 장점이 있으나, 복잡한 도시 환경, 다양한 교통 주체의 상호작용, 도로 공사·악천후·야 간과 같은 롱테일(long-tail) 상황이 증가할수록 필요한 규칙의 수와 상호 작용이 기하급수적으로 늘어난다. 그 결과 특정 시나리오를 다루기 위해 추가한 규칙이 다른 상황에서 예기치 않은 부작용을 유발하고, 차량 플랫 폼·지역·법규가 바뀔 때마다 규칙 세트를 다시 손봐야 하는 등 시스템 유지·보수 비용이 크게 증가하는 한계를 드러내고 있다. 이러한 구조적 한계를 보완하기 위해, 최근에는 센서 입력으로부터 주 변 인지, 주행 의사결정, 조향·가감속 제어에 이르는 전체 파이프라인을 하나의 신경망 또는 소수의 네트워크로 통합하는 End-to-End(E2E) 자율 주행 패러다임이 주목받고 있다. E2E 방식은 사람이 규칙과 중간 표현을 일일이 설계하기보다는, 대규모 주행 로그로부터 네트워크가 표현과 정책 을 동시에 학습하도록 함으로써, 명시적 규칙으로 열거하기 어려운 복잡 한 상호작용과 롱테일 상황에 보다 유연하게 대응할 수 있다는 기대를 준 다. 그러나 이와 같은 이점은 동시에, 모델 구조의 정교함만으로는 충분 하지 않고, 다양한 환경·상황을 고밀도로 포괄하는 대규모·고품질 학습 데이터가 사실상 성능을 좌우한다는 점을 의미한다. 실제 서비스 수준의 자율주행을 위해서는 장시간의 주행 로그에 대해 3차원 객체 바운딩 박 스, 궤적, 차선·차로, 신호·표지판 등 정밀한 시맨틱 라벨을 부여해야 하며, 이는 고가의 전문 인력과 다단계 검수 과정을 필요로 하는 매우 비 용 집약적인 작업이다. 그럼에도 실제 로그의 상당 부분은 고속도로 직 진, 정속 크루즈, 한산한 직선 도로와 같은 단조롭고 위험 요소가 적은 장 면으로 구성되어, 서로 유사한 센서 패턴과 제어 명령을 반복할 뿐 모델 의 일반화 성능 향상에는 기여도가 낮은 중복·저정보 데이터가 된다. 반 대로, 공사 구간, 비정형 차선 변경, 갑작스러운 보행자 진입과 같은 중요 한 롱테일 시나리오는 전체 데이터에서 차지하는 비율이 작아 학습 과정 에서 충분히 반영되기 어렵다. 이로 인해 E2E 자율주행 학습 파이프라인 은 막대한 라벨링·연산 비용을 투입하고도, 실제로는 쉬운 샘플 위주로 자원이 낭비되는 비효율적인 구조를 갖게 되며, 얼마나 많은 데이터를 쓰 는가보다 어떤 데이터를 얼마나 선택적으로 쓰는가가 성능과 비용을 결정 하는 핵심 문제가 되고 있다. 본 연구는 이러한 문제의식을 바탕으로, 프레임 단위 데이터셋 프루닝 을 이용해 더 많은 데이터보다 더 중요한 데이터에 학습 자원을 집중하는 적응형 데이터셋 프루닝(Adaptive Dataset Pruning, ADP) 기법을 제안한 다. 제안 기법은 먼저 BEV(Bird’s Eye View) 중간 표현 공간에서 주행 샘플을 임베딩하고, 코사인 유사도 기반 K-center Coverage를 통해 전체 분포를 잘 대표하는 대표 데이터셋을 구성한다. 이후 예측 손실, MC Dropout 기반 불확실성, 표현 공간에서의 대표성을 통합하여 샘플 중요도 를 정의한다. 각 샘플에 대해 연속적인 마스크 변수를 도입해 중요도가 높은 샘플은 자주 사용되고 중복·저정보 샘플은 점진적으로 제거되도록 하는 선택 손실을 설계한다. 이때 전체 평균 마스크 값이 목표 프루닝 비 율 스케줄을 따르도록 제약을 부여함으로써, 학습이 진행될수록 자동으로 적절한 데이터 서브셋이 형성되도록 한다. nuScenes 데이터셋 기반 E2E 자율주행 모델 실험에서, 전체 데이터의 10~50%만 사용하더라도 제안 기법으로 선별한 서브셋은 전량 데이터를 사용한 경우와 유사한 궤적 오차·충돌률을 유지하면서, 무작위 서브샘플 링보다 일관되게 우수한 성능을 보였다. 또한 CARLA 시뮬레이터 closed-loop 주행 평가에서도, 축소된 데이터셋으로 학습한 모델이 주행 점수와 성공률을 유지하거나 향상시키며 데이터·연산 비용을 절감할 수 있음을 확인하였다. 본 연구의 ADP 프레임워크는 특정 모델 구조나 구현 환경에 종속되지 않고, E2E 자율주행을 포함한 다양한 대규모 시계열·영 상 학습 설정에 적용 가능한 일반적인 데이터 선택 메커니즘으로서 의의 를 가진다.

      더보기

      목차 (Table of Contents)

      • 제1장 서 론 1
      • 1.1 연구 배경 및 목적 1
      • 1.1.1 룰베이스 자율주행 시스템의 구조와 한계 2
      • 1.1.2 End-to-End 자율주행의 등장과 데이터 의존성 4
      • 1.1.3 라벨링 비용, 롱테일 분포, 중복 데이터 문제 5
      • 제1장 서 론 1
      • 1.1 연구 배경 및 목적 1
      • 1.1.1 룰베이스 자율주행 시스템의 구조와 한계 2
      • 1.1.2 End-to-End 자율주행의 등장과 데이터 의존성 4
      • 1.1.3 라벨링 비용, 롱테일 분포, 중복 데이터 문제 5
      • 1.2 연구 목적 및 기여 7
      • 1.2.1 중요한 데이터 선별의 목표 정의 8
      • 1.2.2 본 연구의 주요 기여점 9
      • 1.3 자율주행 시스템과 End-to-End 학습 11
      • 1.3.1 모듈식 자율주행 파이프라인 11
      • 1.3.2 End-to-End 주행 모델 구조 및 특징 13
      • 1.4 불확실성 추정 및 MC Dropout 16
      • 1.5 BEV 표현과 시공간 특징 17
      • 1.6 소결 19
      • 제2장 Adaptive Dataset Pruning(ADP) 프레임워크 21
      • 2.1 문제 정의 및 전체 프레임워크 개요 21
      • 2.1.1 데이터셋 프루닝 문제 정식화 22
      • 2.1.2 중요한 데이터의 개념 정의 23
      • 2.1.3 전체 프레임워크 24
      • 2.2 BEV 기반 대표 샘플 선정 27
      • 2.2.1 BEV 특징 추출 및 유사도 계산 28
      • 2.2.2 K-center 및 커버리지 기반 대표 샘플 선택 34
      • 2.3 샘플 중요도 산정 39
      • 2.3.1 손실·예측 분산 기반 난이도 지표 40
      • 2.3.2 self-attention 기반 대표성(centrality) 지표 42
      • 2.3.3 종합 중요도 함수 설계 44
      • 2.4 마스크 기반 선택 최적화 47
      • 2.4.1 샘플별 연속 마스크 모델링 47
      • 2.4.2 선택 손실 및 압축 손실(compactness loss) 49
      • 2.4.3 데이터 유지 비율 스케줄 및 학습 절차 50
      • 2.5 중요도 전파와 최종 서브셋 형성 53
      • 2.5.1 대표 샘플에서 전체 데이터로의 유사도 기반 전파 54
      • 제3장 실험 환경 및 구현 세부 사항 56
      • 3.1 데이터셋 및 베이스라인 모델 56
      • 3.1.1 nuScenes 데이터셋 구성 57
      • 3.1.2 Bench2Drive 데이터셋 구성 57
      • 3.1.3 베이스라인 모델 58
      • 3.2 학습 및 평가 환경 59
      • 3.2.1 데이터 프루닝 비율 설정 및 비교 방법 59
      • 3.2.2 Open-loop 평가 환경 및 지표 60
      • 3.2.3 Closed-loop 평가 환경 및 지표 61
      • 제4장 실험 결과 및 분석 64
      • 4.1 Open-Loop 평가 및 성능 분석 64
      • 4.2 Closed-Loop 평가 및 성능 분석 66
      • 4.2.1 전역 지표 관점(DS/SR, Efficiency, Comfortness) 66
      • 4.2.2 능력별 성공률(multi-ability) 관점 67
      • 4.2.3 종합 논의 68
      • 제5장 결 론 70
      • 5.1 연구 요약 70
      • 5.2 연구 성과 71
      • 5.3 종합 결론 72
      • 참고문헌 74
      • ABSTRACT 77
      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼