http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
MATLAB에서 회전형 2단 도립 진자 제어를 위한 DDPG 기반 강화 학습
지창훈(Chang-Hun Ji),김주봉(Ju-Bong Kim),최호빈(Ho-Bin Choi),한연희(Youn-Hee Han) 한국통신학회 2021 한국통신학회 학술대회논문집 Vol.2021 No.2
강화 학습은 최적의 행동을 찾을 때까지 반복 학습을 수행한다. 이러한 특징은 현실 세계에 강화학습 적용을 어렵게 만든다. 이를 해결하기 위해 본 논문은 제어분야에서 제어기의 성능을 검증하기 위해 사용되는 Rotary Double Inverted Pendulum 을 모델링하여 가상 환경을 구축한다. 또한 연속적인 행동 범위 내에서 행동을 결정하기 위해 Deep Deterministic Policy Gradient 알고리즘이 적용된 에이전트를 이용하여 가상 환경에서 학습을 수행한다. 이를 통해서 강화 학습의 반복적인 학습으로 인한 실제 환경의 제약을 해결할 수 있음을 보여준다.
배달과 수집을 수행하는 차량경로문제 휴리스틱에 관한 연구
지창훈(Chang Hun Ji),김미이(Mi-Yi Kim),이영훈(Young Hoon Lee) 한국경영과학회 2007 經營 科學 Vol.24 No.2
VRP (Vehicle Routing Problem) is studied in this paper, where two different kinds of missions are to be completed. The objective is to minimize the total vehicle operating distance. A mixed integer programming formulation and a heuristic algorithm for a practical use are suggested. A heuristic algorithm consists of three phases such as clustering, constructing routes, and adjustment. In the first phase, customers are clustered so that the supply nodes are grouped with demand nodes to be served by the same vehicle. Vehicle routes are generated within the cluster in the second phase. Clusters and routes are adjusted in the third phase using the UF (unfitness) rule designed to determine the customers and the routes to be moved properly. It is shown that the suggested heuristic algorithm yields good performances within a relatively short computational time through computational experiment.
로봇 제어 환경에서 Soft Actor-Critic 알고리즘의 엔트로피 가중치 파라미터의 영향 분석
지창훈(Chang-Hun Ji),최호빈(Ho-Bin Choi),최요한(Yo-Han Choi),한연희(Youn-Hee Han) 한국통신학회 2022 한국통신학회 학술대회논문집 Vol.2022 No.2
Soft-Actor-Critic(SAC) 알고리즘은 continuous action space 환경에서 좋은 학습 성능을 가지고 있는 강화 학습 알고리즘 중 하나이다. SAC 알고리즘은 Actor-Critic 알고리즘의 구조를 따르고 있으며, 탐험과 학습의 강건함을 위해 Actor의 objective에 엔트로피를 추가하였다. Actor의 object 내에서 엔트로피와 상태 행동 가치(state action value) 간 중요도를 설정하는 하이퍼 파라미터로 α가 있다. α는 민감한 하이퍼 파라미터이기 때문에 환경에 따라 실험을 통해 직접 정해주어야 한다는 단점이 존재한다. 이를 해결하기 위해 학습이 진행됨에 따라 자동으로 α를 조정하는 엔트로피 가중치 자동 조정 알고리즘이 제안되었다. 하지만 엔트로피 가중치 자동조정 알고리즘은 학습이 진행되면서 α의 값이 0에 수렴하여 엔트로피가 역할을 하지 못 하는 경우가 생긴다. 이를 해결하기 위해 본 논문에서는 엔트로피 가중치 자동 조정 알고리즘 수행 시에 최소 α값의 설정을 제안한다. 제안하는 알고리즘의 검증을 위하여 Robotics Simulation 환경인 MuJoCo 환경과 PyBullet 환경을 이용하여 다양한 α조건들을 실험한다.
회전형 2단 도립 진자에 대한 DDPG와 TD3 제어 성능 비교
지창훈(Chang-Hun Ji),임현교(Hyun-Kyo Lim),허주성(Joo-Seong Heo),한연희(Youn-Hee Han) 한국통신학회 2021 한국통신학회 학술대회논문집 Vol.2021 No.6
강화 학습의 환경은 action space 를 기준으로 discrete action space 를 가진 환경과 continuous action space 를 가진 환경으로 나눌 수 있다. continuous action space 를 가진 환경을 학습시키는 강화 학습의 대표적인 알고리즘으로 Deep Deterministic Policy Gradient(DDPG)와 DDPG 의 단점을 보완한 Twin Delayed Deep Deterministic Policy(TD3)가 있다. 본 논문에서는 전통적인 제어 시스템 분야에서 controller 의 성능을 검증하는데 사용되는 Rotary Double Inverted Pendulum(RDIP)시뮬레이션을 활용하여 DDPG 와 TD3 의 실험을 진행한다. 그 후 DDPG 와 TD3 의 성능을 비교 분석하여 RDIP 시뮬레이션 환경 내에서 TD3 가 DDPG 보다 좋은 성능을 보여주고 있음을 확인한다.