RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        계획을 위한 자기모델로서의 이중정책

        유재성,Fernanda de la Torre,Guangyu Robert Yang 한국지능시스템학회 2024 한국지능시스템학회논문지 Vol.34 No.1

        계획은 에이전트가 가능한 미래 상태를 탐색하며 후보 행동을 선택하는 데이터 효율적인 의사결정 전략이다. 탐색할 미래 행동이 무한한 고차원 행동 공간에서 계획을 할 때, 탐색을제한하기 위해서는 자신의 의사결정 전략에 대한 지식인 자기모델을 사용하여 후보 행동을만들어야 한다. 자기 모델 설계법이 불분명한 가운데 신경과학에서 영감을 받아, 본 연구는자기 모델로서 정제된 정책 네트워크를 사용하는 이중 정책 에이전트의 이점과 한계를 탐구한다. 이중 정책 에이전트에서는 모델-자유 정책과 정제된 정책이 각각 모델-자유 행동과계획된 행동에 사용된다. 매개변수화한 생태적인 환경에서 실험한 결과, 자기 모델을 위한정제된 정책 네트워크는 훈련을 안정화시키고, 모델-자유 정책을 사용하는 것보다 빠른 추론을 가능하게 하며, 더 나은 탐색을 촉진하고, 자신의 행동에 대한 포괄적인 이해를 학습할수 있음을 발견하였다. Planning is a data efficient decision-making strategy where an agent selectscandidate actions by exploring possible future states. To simulate future states in ahigh-dimensional action space with infinite action candidates, the knowledge ofone’s decision making strategy must be used to sample candidate actions to beexplored. We refer to the model used to simulate one’s decisions as the agent’sself-model. While self-models are often implicitly used in planning, it remainsunclear how self-models should be designed. Inspired by current reinforcementlearning approaches and neuroscience, we explore the benefits and limitations ofusing a distilled policy network as the self-model. In such dual-policy agents, amodel-free policy and a distilled policy are used for model-free actions and plannedactions, respectively. Our results on a ecologically relevant, parametric environmentindicate that distilled policy network for self-model stabilizes training, has fasterinference than using model-free policy, promotes better exploration, and could learna comprehensive understanding of its own behaviors, at the cost of distilling a newnetwork apart from the model-free policy.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼