RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      KCI등재 SCOPUS

      UNet 기반 딥러닝 모델의 배치 크기 변화에 따른 영상 분할 성능비교 분석 = Comparative Analysis of Image Segmentation Performance Based on Batch Size Variations in UNet Based Deep Learning Models

      한글로보기

      https://www.riss.kr/link?id=A109514788

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract)

      의미론적 영상 분할 기술은 원격탐사 분야에서 지표 속성의 분류나 특정 객체의 추출을 위해 최근에 널리 사용되는 방법이다. 의미론적 영상 분할의 성능은 사용하는 딥러닝 모델의 종류에 따라 성능이 달라질 뿐만 아니라 학습률이나 배치 크기(batch size)와 같이 딥러닝 모델의 학습 파라미터(parameter) 설정방법에도 영향을 받는다. 딥러닝 학습 파라미터 가운데 학습 데이터셋의 배치 크기는 일반적으로 큰 값으로 설정하는 것이 딥러닝 성능 향상에 좋은 것으로 알려져 있으나 일반적인 딥러닝 시스템의 그래픽 처리장치(graphics processing unit, GPU)의 처리 용량은 제한되기 때문에 적절한 크기의 배치 크기 설정이 필요하다. 본 논문에서는 위성 및 항공 영상을 사용한 의미론적 영상 분할을 위한 딥러닝 시스템에서 배치 크기가 건물 검출 성능에 미치는 영향을 분석하였다. 성능 분석을 위하여 의미론적 영상 분할의 대표적인 모델인 UNet을 포함하여 ResUNet, DeepResUNet, CBAM-DRUNet을 기본 모델로 사용하였으며 전이학습(transfer learning)을 적용한 UNet-VGG19, UNet-ResNet50, CBAM-DRUNet-VGG19 모델을 추가적으로 사용하였다. 학습 데이터셋은 의미론적 영상 분할을 위한 대표적인 데이터셋인WHU와 INRIA 데이터셋과함께 Kompsat-3A 데이터셋을 이용하였다. 실험 결과에서 배치 크기가 2 이상인 경우에 각 모델마다 모든데이터셋에서 F1 score가 향상되었다. 데이터셋 크기가 제일 작은 WHU 데이터셋의 경우 CBAM-DRUNet-VGG19 모델을 제외하고 배치 크기가 증가할수록 F1 score가 증가하다 감소하는 경향을 보였다. WHU 데이터셋 크기보다 약 1.5배 큰 INRIA 데이터셋에서는 전이학습 모델들은 배치 크기가 증가할 때 F1 score가일정한 수준을 유지한 반면에 그 외 모델들은 F1 score가 증가하다가 감소하는 경향을 보였다. WHU 데이터셋 크기보다 4배, 5배 큰 두 종류의 Kompsat-3A 데이터셋의 경우에는 배치 크기가 2일 때 모든 모델들이F1 score가 크게 증가하고 2보다 큰 경우에는 F1 score의 추가적인 큰 상승이 없이 일정한 수준의 값으로 수렴하는 결과를 보였다. 학습 시간 측면에서는 배치 크기가 증가할수록 모든 모델의 학습 시간이 단축되는경향을 보였다. 따라서 학습데이터셋의 크기가 충분히 큰 경우에는 F1 score 정확도 향상 측면에서는 배치크기를 2로 설정하는 정도만으로도 성능 향상을 충분히 달성할 수 있음을 확인하였다. 배치 크기를 2보다크게 설정하는 것은 딥러닝 시스템의 GPU 용량이 충분히 처리 가능하다면 학습 시간의 추가적인 단축 측면에서 유리할 것으로 판단된다.
      번역하기

      의미론적 영상 분할 기술은 원격탐사 분야에서 지표 속성의 분류나 특정 객체의 추출을 위해 최근에 널리 사용되는 방법이다. 의미론적 영상 분할의 성능은 사용하는 딥러닝 모델의 종류에 ...

      의미론적 영상 분할 기술은 원격탐사 분야에서 지표 속성의 분류나 특정 객체의 추출을 위해 최근에 널리 사용되는 방법이다. 의미론적 영상 분할의 성능은 사용하는 딥러닝 모델의 종류에 따라 성능이 달라질 뿐만 아니라 학습률이나 배치 크기(batch size)와 같이 딥러닝 모델의 학습 파라미터(parameter) 설정방법에도 영향을 받는다. 딥러닝 학습 파라미터 가운데 학습 데이터셋의 배치 크기는 일반적으로 큰 값으로 설정하는 것이 딥러닝 성능 향상에 좋은 것으로 알려져 있으나 일반적인 딥러닝 시스템의 그래픽 처리장치(graphics processing unit, GPU)의 처리 용량은 제한되기 때문에 적절한 크기의 배치 크기 설정이 필요하다. 본 논문에서는 위성 및 항공 영상을 사용한 의미론적 영상 분할을 위한 딥러닝 시스템에서 배치 크기가 건물 검출 성능에 미치는 영향을 분석하였다. 성능 분석을 위하여 의미론적 영상 분할의 대표적인 모델인 UNet을 포함하여 ResUNet, DeepResUNet, CBAM-DRUNet을 기본 모델로 사용하였으며 전이학습(transfer learning)을 적용한 UNet-VGG19, UNet-ResNet50, CBAM-DRUNet-VGG19 모델을 추가적으로 사용하였다. 학습 데이터셋은 의미론적 영상 분할을 위한 대표적인 데이터셋인WHU와 INRIA 데이터셋과함께 Kompsat-3A 데이터셋을 이용하였다. 실험 결과에서 배치 크기가 2 이상인 경우에 각 모델마다 모든데이터셋에서 F1 score가 향상되었다. 데이터셋 크기가 제일 작은 WHU 데이터셋의 경우 CBAM-DRUNet-VGG19 모델을 제외하고 배치 크기가 증가할수록 F1 score가 증가하다 감소하는 경향을 보였다. WHU 데이터셋 크기보다 약 1.5배 큰 INRIA 데이터셋에서는 전이학습 모델들은 배치 크기가 증가할 때 F1 score가일정한 수준을 유지한 반면에 그 외 모델들은 F1 score가 증가하다가 감소하는 경향을 보였다. WHU 데이터셋 크기보다 4배, 5배 큰 두 종류의 Kompsat-3A 데이터셋의 경우에는 배치 크기가 2일 때 모든 모델들이F1 score가 크게 증가하고 2보다 큰 경우에는 F1 score의 추가적인 큰 상승이 없이 일정한 수준의 값으로 수렴하는 결과를 보였다. 학습 시간 측면에서는 배치 크기가 증가할수록 모든 모델의 학습 시간이 단축되는경향을 보였다. 따라서 학습데이터셋의 크기가 충분히 큰 경우에는 F1 score 정확도 향상 측면에서는 배치크기를 2로 설정하는 정도만으로도 성능 향상을 충분히 달성할 수 있음을 확인하였다. 배치 크기를 2보다크게 설정하는 것은 딥러닝 시스템의 GPU 용량이 충분히 처리 가능하다면 학습 시간의 추가적인 단축 측면에서 유리할 것으로 판단된다.

      더보기

      다국어 초록 (Multilingual Abstract)

      Semantic image segmentation techniques have recently gained widespread adoption in the fieldof remote sensing for tasks such as classifying surface properties and extracting specific objects. Theperformance of semantic image segmentation is influenced not only by the choice of deep learning modelbut also by the configuration of key hyperparameters, including learning rate and batch size. Among thesehyperparameters, the batch size is typically set to a larger value to improve model performance. However,since the processing capacity of a typical deep learning system’s graphics processing unit (GPU) is limited,selecting an appropriate batch size is necessary. This paper investigates the impact of batch size on buildingdetection performance in deep learning systems for semantic image segmentation using satellite and aerialimagery. For the performance analysis, representative models for semantic image segmentation, includingUNet, ResUNet, DeepResUNet, and CBAM-DRUNet, were used as baseline models. Additionally, transferlearning models such as UNet-VGG19, UNet-ResNet50, and CBAM-DRUNet-VGG19 were incorporatedfor comparison. The training datasets used in this study included the WHU and INRIA datasets, whichare commonly used for semantic image segmentation tasks, as well as the Kompsat-3A dataset. Theexperimental results revealed that a batch size of 2 or larger led to an improvement in F1 scores across allmodels and datasets. For the WHU dataset, the smallest of the datasets, the F1 score initially increasedwith batch size, but after reaching a certain threshold, it began to decline, except for the CBAM-DRUNet-VGG19 model. In contrast, for the INRIA dataset, which is approximately 1.5 times larger than WHU,transfer learning models maintained relatively stable F1 scores as the batch size increased, while othermodels showed a similar trend of increasing F1 scores followed by a decrease. In the case of the Kompsat-3A datasets, which are 4 to 5 times larger than the WHU dataset, all models showed a substantial increasein F1 score when the batch size was set to 2. Beyond this point, F1 scores stabilized without furthersignificant improvements. In terms of training time, increasing the batch size generally resulted in reduced training time for all models. Therefore, when the training dataset is sufficiently large, setting the batch sizeto 2 is already sufficient to achieve significant improvements in F1 score accuracy. Furthermore, settingthe batch size to a value greater than 2 may be advantageous in terms of further reducing training time,provided that the GPU capacity of the deep learning system is sufficient to handle the larger batch size.
      번역하기

      Semantic image segmentation techniques have recently gained widespread adoption in the fieldof remote sensing for tasks such as classifying surface properties and extracting specific objects. Theperformance of semantic image segmentation is influenced...

      Semantic image segmentation techniques have recently gained widespread adoption in the fieldof remote sensing for tasks such as classifying surface properties and extracting specific objects. Theperformance of semantic image segmentation is influenced not only by the choice of deep learning modelbut also by the configuration of key hyperparameters, including learning rate and batch size. Among thesehyperparameters, the batch size is typically set to a larger value to improve model performance. However,since the processing capacity of a typical deep learning system’s graphics processing unit (GPU) is limited,selecting an appropriate batch size is necessary. This paper investigates the impact of batch size on buildingdetection performance in deep learning systems for semantic image segmentation using satellite and aerialimagery. For the performance analysis, representative models for semantic image segmentation, includingUNet, ResUNet, DeepResUNet, and CBAM-DRUNet, were used as baseline models. Additionally, transferlearning models such as UNet-VGG19, UNet-ResNet50, and CBAM-DRUNet-VGG19 were incorporatedfor comparison. The training datasets used in this study included the WHU and INRIA datasets, whichare commonly used for semantic image segmentation tasks, as well as the Kompsat-3A dataset. Theexperimental results revealed that a batch size of 2 or larger led to an improvement in F1 scores across allmodels and datasets. For the WHU dataset, the smallest of the datasets, the F1 score initially increasedwith batch size, but after reaching a certain threshold, it began to decline, except for the CBAM-DRUNet-VGG19 model. In contrast, for the INRIA dataset, which is approximately 1.5 times larger than WHU,transfer learning models maintained relatively stable F1 scores as the batch size increased, while othermodels showed a similar trend of increasing F1 scores followed by a decrease. In the case of the Kompsat-3A datasets, which are 4 to 5 times larger than the WHU dataset, all models showed a substantial increasein F1 score when the batch size was set to 2. Beyond this point, F1 scores stabilized without furthersignificant improvements. In terms of training time, increasing the batch size generally resulted in reduced training time for all models. Therefore, when the training dataset is sufficiently large, setting the batch sizeto 2 is already sufficient to achieve significant improvements in F1 score accuracy. Furthermore, settingthe batch size to a value greater than 2 may be advantageous in terms of further reducing training time,provided that the GPU capacity of the deep learning system is sufficient to handle the larger batch size.

      더보기

      동일학술지(권/호) 다른 논문

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼