RISS 검색 - 국내학술지논문

무료
기관 내 무료
유료

내보내기
내책장담기
한글로보기

정확도순

내림차순

내림차순

10개씩 출력

1
효율적인 탐색을 위한 강화학습에서의 분포형 섭동 연구

조태현(Tae Hyun Cho),한승엽(Sung Yeob Han),이희수(Hee Soo Lee),이경재(Kyung Jae Lee),이정우(Jung Woo Lee) 한국통신학회 2022 한국통신학회 학술대회논문집 Vol.2022 No.2
- 원문보기
분포형 강화 학습(Distributional Reinforcement Learning; DRL)은 확률적 환경에서 보상 분포(return distribution)를 학습하는 것을 목표로 한다. 학습된 보상 분포에는 환경의 확률에 대한 다양한 정보가 포함되어 있으므로, 이전 연구에서는 불확실성에 직면한 낙관론(Optimism in Face of Uncertainty; OFU)을 따르는 표준 편차와 같은 통계량에 의존해왔다. 이러한 선행연구는 위험추구(risk-seeking)와 회피(reverse) 방법으로 나뉘는데, 이와 같은 방법은 위험에 대한 일방적인 경향이 있다고 볼 수 있으며, 의도하지 않게 수렴을 방해하게 된다. 이 논문에서는 위험 중립적인 최적정책에 도달하기 위해 위험 기준을 무작위화하여 탐색하는 새로운 분포형 강화학습을 제안한다. 첫째, 행동 선택에서 위험 측도를 왜곡하여 섭동형 분포 벨만 최적성 연산자를 제공한다. 둘째, 약한 수축 특성(weaker contraction property)을 이용하여 제안한 방법의 수렴성과 최적성을 보장한다. 우리의 이론적 결과는 제안된 방법이 편향된 탐색에 속하지 않고 최적의 보상 분포로 수렴하는 것을 보장한다. 마지막으로 우리의 방법이 Atari 게임을 포함한 다양한 환경에서 기존의 다른 분포 기반 알고리즘보다 성능을 비교할 것이다.
2
일반연제 발표 : Gambro 연구비 결과보고 ; 고포도당 배지로 배양한 복막중피세포에서 Stem-loop형 TGF-β1 Antisense Oligodeoxynucleotide를 이용한 TGF-β1 발현의 억제 효과

이진구 ( Lee Jin Gu ),김현철 ( Kim Hyeon Cheol ),박성배 ( Park Seong Bae ),한승엽 ( Han Seung Yeob ),황은아 ( Hwang Eun A ),한상미 ( Han Sang Mi ),노혜정 ( No Hye Jeong ),이정호 ( Lee Jeong Ho ),박관규 ( Park Gwan Gyu ) 대한신장학회 2003 춘계학술대회 초록집 Vol.22 No.1
- 원문보기

내보내기
내책장담기
한글로보기

정확도순

내림차순

내림차순

10개씩 출력

맨처음 페이지로 1 맨끝 페이지로

상세검색

RISS 보유자료

상세검색

해외전자자료

연관 검색어 추천