RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
          펼치기
        • 등재정보
          펼치기
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재
      • KCI등재

        적대적 멀티 에이전트 환경에서 효율적인 강화 학습을 위한 정책 모델링

        권기덕(Kiduk Kwon),김인철(Incheol Kim) 한국정보과학회 2008 정보과학회논문지 : 소프트웨어 및 응용 Vol.35 No.3

        멀티 에이전트 강화 학습에서 해결해야 할 중요한 문제는 자신의 작업 성능에 영향을 미칠 수 있는 다른 에이전트들이 존재하는 동적 환경에서 한 에이전트가 시행착오적 상호작용을 통해 어떻게 자신의 최적 행동 정책을 학습할 수 있느냐 하는 것이다. 멀티 에이전트 강화 학습을 위한 기존 연구들은 대부분 단일 에이전트 MDP 기반의 강화 학습기법들을 큰 변화 없이 그대로 적용하거나 비록 다른 에이전트에 관한 별도의 모델을 이용하더라도 다른 에이전트에 관해 요구되는 정보나 가정이 현실적이지 못하다는 한계점을 가지고 있다. 본 논문에서는 멀티 에이전트 강화 학습기술에 기초가 되는 기본 개념들을 정형화하고 이들을 기초로 기존 연구들의 특징과 한계점을 비교한다. 그리고 새로운 행동 정책 모델을 소개한 뒤, 이것을 이용한 강화 학습 방법을 설명한다. 본 논문에서 제안하는 멀티 에이전트 강화학습 방법은 상대 모델을 이용하는 기존의 멀티 에이전트 강화 학습 연구들에서 주로 시도되었던 상대 에이전트의 Q 평가 함수 모델 대신 상대 에이전트의 행동 정책 모델을 학습하며, 표현력은 풍부하나 학습에 시간과 노력이 많이 요구되는 유한 상태 오토마타나 마코프 체인과 같은 행동 정책 모델들에 비해 비교적 간단한 형태의 행동정책 모델을 이용함으로써 학습의 효율성을 높였다. 또한, 본 논문에서는 대표적인 적대적 멀티 에이전트 환경인 고양이와 쥐게임을 소개하고, 이 게임을 테스베드삼아 비교 실험들을 수행하고 그 결과를 설명함으로써 본 논문에서 제안하는 정책 모델 기반의 멀티 에이전트 강화 학습의 효과를 분석해본다. An important issue in multiagent reinforcement learning is how an agent should learn its optimal policy through trial-and-error interactions in a dynamic environment where there exist other agents able to influence its own performance. Most previous works for multiagent reinforcement learning tend to apply single-agent reinforcement learning techniques without any extensions or are based upon some unrealistic assumptions even though they build and use explicit models of other agents. In this paper, basic concepts that constitute the common foundation of multiagent reinforcement learning techniques are first formulated, and then, based on these concepts, previous works are compared in terms of characteristics and limitations. After that, a policy model of the opponent agent and a new multiagent reinforcement learning method using this model are introduced. Unlike previous works, the proposed multiagent reinforcement learning method utilize a policy model instead of the Q function model of the opponent agent. Moreover, this learning method can improve learning efficiency by using a simpler one than other richer but time-consuming policy models such as Finite State Machines(FSM) and Markov chains. In this paper, the Cat and Mouse game is introduced as an adversarial multiagent environment. And effectiveness of the proposed multiagent reinforcement learning method is analyzed through experiments using this game as testbed.

      • KCI등재

        무인항공기 공통 플랫폼 표준화를 위한 최적 분류 및 할당 모형

        권기덕 ( Gi-duck Kwon ),이문걸 ( Moon-gul Lee ) 한국항공경영학회 2021 한국항공경영학회지 Vol.19 No.3

        국방 분야에서 표준화의 필요성은 국방자원의 사용을 저비용이면서 고효율 기반으로 보장하므로 매우 중요하다. 군용 무인항공기 분야는 더욱 기술 진보화에 민감한 특성을 보인다. 현재의 우리나라의 산학연의 기술 수준과 소요군 목표 요구성능 간의 차이가 좁혀지지 않으면 획득이 지연되거나 현장 적시 적용성이 현저히 떨어지는 결과로 이어질 것이다. 또한 연구개발을 담당하는 입장에서는 다품종 소량생산이라는 구조 때문에 발생하는 낮은 사업성으로 인해 국가기술의 경쟁력이 저하될 것이다. 따라서 본 연구에서는 이러한 문제점에 대한 대안을 찾기 위하여 무인항공기의 계열화 및 군집화를 전제로 최적화 알고리듬을 적용한 수리모델을 기반으로 하여 공통 플랫폼 최적 분류 및 할당 모형을 개발하였다. 본 모형의 활용을 통해 현재 추진 중인 다양한 무인항공기 개발 및 획득 사업에서 개발하여야 할 대상 체계 범위를 축소하고 공통플랫폼화 및 기술표준화에 기여할 것으로 예상된다. The necessity of defense standardization is very important as it ensures that defense resources can be utilized at low cost and high efficiency. The military unmanned aerial vehicle sector is characterized by being a more sensitive business due to fast technological advancement. If the gap between the performance specifications required by the required military and the position of researching to make an unmanned aerial vehicle that satisfies the conditions is not narrowed, the relevant weapon system cannot be developed and introduced in a timely manner. Eventually, there will be a problem that the utility value of the weapon system is lowered, and the national technological competitiveness will also be deteriorated due to the low business viability arising from the structure of small-scale production of multi-species from the standpoint of research and development. Therefore, in order to solve the problem, this study proposes a common platform optimal classification and matching model based on a mathematical model for applying by basis of the premise of unmanned aerial vehicle sequencing and clustering. Through suggested model, it we can contribute to rearrange and mange to current numerous UAV programs efficiently.

      • KCI등재
      • KCI등재

        자립형 지역공동체 형성 구성요소가 주민참여태도에 미치는 영향 : 서울시 용산구 해방촌 도시재생사업을 중심으로

        권기덕(Kwon, Gi Duck),정남식(Jung, Nam Sick) 한국지역개발학회 2020 韓國地域開發學會誌 Vol.32 No.1

        In urban regeneration project, the residents voluntary participation is regarded as one of the most important elements to increase the execution, by increasing the residents bond of sympathy and establishing the project plan desired by the residents in the policy-making process. With the increased roles of community, it was needed to form the voluntary community by members, and for the sustainable urban regeneration project, the vitalization of community is emphasized. Thus, this study focused on the concept of the elements of community as the measures for the enhancement of sustainable residents participation in urban regeneration project. In order to perform an empirical research on community mentioned as the measures for vitalizing the residents participation in urban regeneration project, this study examined the elements and meanings of community changed in modern society, and also the influence relations between elements of the re-established modern community and residents participation. The objective of this study was to suggest the measures for the enhancement of sustainable residents participation through the vitalization of community in urban regeneration project. Especially, the significance of this study is to verify the elements for the independence of community by adding the public interest and profitability in the aspect of project and the elements of community changed in modern society for the differentiation from the existing preceding researches. As a result, this study could contribute to the suggestion of diverse theoretical perspectives for the meanings of modern community and the enhancement of residents participation.

      • 강화학습에 기초한 로봇 축구 에이전트의 동적 위치 결정

        권기덕(Ki-Duk Kwon),김인철(In-Cheol Kim) 한국정보과학회 2001 한국정보과학회 학술발표논문집 Vol.28 No.2Ⅱ

        강화학습은 한 에이전트가 자신이 놓여진 환경으로부터의 보상을 최대화할 수 있는 최적의 행동 전략을 학습하는 것이다. 따라서 강화학습은 입력(상태)과 출력(행동)의 쌍으로 명확한 훈련 예들이 제공되는 교사 학습과는 다르다. 특히 Q-학습과 같은 비 모델 기반(model-free)의 강화학습은 사전에 환경에 대한 별다른 모델을 설정하거나 학습할 필요가 없으며 다양한 상태와 행동들을 충분히 자주 경험할 수만 있으면 최적의 행동전략에 도달할 수 있어 다양한 응용분야에 적용되고 있다. 하지만 실제 응용분야에서 Q-학습과 같은 강화학습이 겪는 최대의 문제는 큰 상태 공간을 갖는 문제의 경우에는 적절한 시간 내에 각 상태와 행동들에 대한 최적의 Q값에 수렴할 수 없어 효과를 거두기 어렵다는 점이다. 이런 문제점을 고려하여 본 논문에서는 로봇 축구 시뮬레이션 환경에서 각 선수 에이전트의 동적 위치 결정을 위해 효과적인 새로운 Q-학습 결과를 단순히 결합하는 종래의 모듈화 Q-학습(Modular Q-Learning)을 개선하여, 보상에 끼친 각 모듈의 기여도에 따라 모듈들의 학습결과를 적응적으로 결합하는 방법이다. 이와 같은 적응적 중재에 기초한 모듈화 Q-학습법(Adaptive Mediation based Modular Q-Learning, AMMQL)은 종래의 모듈화 Q-학습법의 장점과 마찬가지로 큰 상태공간의 문제를 해결할 수 있을 뿐 아니라 보다 동적인 환경변화에 유연하게 적응하여 새로운 행동 전략을 학습할 수 있다는 장점을 추가로 가질 수 있다. 이러한 특성을 지닌 AMMQL 학습법은 로봇축구와 같이 끊임없이 실시간적으로 변화가 일어나는 다중 에이전트 환경에서 특히 높은 효과를 볼 수 있다. 본 논문에서는 AMMQL 학습방법의 개념을 소개하고, 로봇축구 에이전트의 동적 위치 결정을 위한 학습에 어떻게 이 학습방법을 적용할 수 있는지 세부 설계를 제시한다.

      • 다중 에이전트 강화 학습을 위한 상태 공간 타일링과 확률적 행동 선택

        권기덕(Kwon Ki Duk),김인철(Kim In Cheol) 한국정보과학회 2006 한국정보과학회 학술발표논문집 Vol.33 No.1

        강화 학습은 누적 보상 값을 최대화할 수 있는 행동 선택 전략을 학습하는 온라인 학습의 한 형태이다. 효과적인 강화 학습을 위해 학습 에이전트가 매 순간 고민해야 하는 문제가 탐험(exploitation)과 탐색(exploration)의 문제이다. 경험과 학습이 충분치 않은 상태의 에이전트는 어느 정도의 보상 값을 보장하는 과거에 경험한 행동을 선택하느냐 아니면 보상 값을 예측할 수 없는 새로운 행동을 시도해봄으로써 학습의 폭을 넓힐 것이냐를 고민하게 된다. 특히 단일 에이전트에 비해 상태공간과 행동공간이 더욱 커지는 다중 에이전트 시스템의 경우, 효과적인 강화학습을 위해서는 상태 공간 축소방법과 더불어 탐색의 기회가 많은 행동 선택 전략이 마련되어야 한다. 본 논문에서는 로봇축구 Keepaway를 위한 효율적인 다중 에이전트 강화학습 방법을 설명한다. 이 방법의 특징은 상태 공간 축소를 위해 함수근사방법의 하나인 타일코딩을 적용하였고, 다양한 행동 선택을 위해 룰렛 휠 선택 전략을 적용한 것이다. 본 논문에서는 이 방법의 효과를 입증하기 위한 실험결과를 소개한다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼