http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
조태현(Tae Hyun Cho),한승엽(Sung Yeob Han),이희수(Hee Soo Lee),이경재(Kyung Jae Lee),이정우(Jung Woo Lee) 한국통신학회 2022 한국통신학회 학술대회논문집 Vol.2022 No.2
분포형 강화 학습(Distributional Reinforcement Learning; DRL)은 확률적 환경에서 보상 분포(return distribution)를 학습하는 것을 목표로 한다. 학습된 보상 분포에는 환경의 확률에 대한 다양한 정보가 포함되어 있으므로, 이전 연구에서는 불확실성에 직면한 낙관론(Optimism in Face of Uncertainty; OFU)을 따르는 표준 편차와 같은 통계량에 의존해왔다. 이러한 선행연구는 위험추구(risk-seeking)와 회피(reverse) 방법으로 나뉘는데, 이와 같은 방법은 위험에 대한 일방적인 경향이 있다고 볼 수 있으며, 의도하지 않게 수렴을 방해하게 된다. 이 논문에서는 위험 중립적인 최적정책에 도달하기 위해 위험 기준을 무작위화하여 탐색하는 새로운 분포형 강화학습을 제안한다. 첫째, 행동 선택에서 위험 측도를 왜곡하여 섭동형 분포 벨만 최적성 연산자를 제공한다. 둘째, 약한 수축 특성(weaker contraction property)을 이용하여 제안한 방법의 수렴성과 최적성을 보장한다. 우리의 이론적 결과는 제안된 방법이 편향된 탐색에 속하지 않고 최적의 보상 분포로 수렴하는 것을 보장한다. 마지막으로 우리의 방법이 Atari 게임을 포함한 다양한 환경에서 기존의 다른 분포 기반 알고리즘보다 성능을 비교할 것이다.