RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 학위유형
        • 주제분류
          펼치기
        • 수여기관
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 지도교수
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 강화학습에 의한 리니어 동기모터의 정밀 모션제어

        정승현 영남대학교 대학원 2009 국내박사

        RANK : 248703

        영구자석형 리니어동기모터(PMLSM : Permanent Magnet Linear Synchronous Motor)의 고정밀 위치제어를 위하여, 7차 또는 그이상의 고차 방정식 또는 정현파 기반의 고기능 위치, 속도, 가속도, 저크 프로파일을 생성하는 것은 매우 중요하다. 이를 기반으로 하여 본 논문에서는 PID 제어기, 뉴럴네트워크, 강인한 내부루프 보상기(Robust Internal Loop Compensator), RIC 극배치 제어기, 자기강화학습, 강화학습 기반의 PID 제어기, 강화학습을 이용한 RIC 기반의 극배치 제어기 등의 다양한 제어알고리즘들을 PMLSM의 고정밀 제어기를 구현하기위해서 모의실험, 시스템 구성 및 실험을 실시하였다. 모의실험을 통해 강화학습을 이용하여 PID-피드포워드 제어기 및 RIC 기반의 극배치 제어기가 적응적으로 제어 파라미터를 찾을 수 있음을 보였고, RIC 기반의 극배치 제어기의 외란제거 성능이 PID 제어기에 비해 훨씬 우수함을 알 수 있었다. PMLSM 시스템 실험을 통하여 랜덤변수를 이용한 강화학습이 PID-피드포워드 제어기 및 RIC 기반의 극배치 제어기의 제어 파라미터를 적응적으로 찾을 수 있음을 보였다. 또한, PID-뉴럴네트워크 기반의 학습형 피드포워드제어기의 경우 뉴럴네트워크의 위치오차 역전파 학습에 의해서 계산되어진 토크값이 피드포워드 제어입력 값으로 사용되어 정지 위치구간에서 우수한 추종 성능을 나타내었다. 특정 구간에서의 스프링에 의한 가변부하 외란인가의 실험에서 RIC 기반의 극배치 제어기가 Q필터작용을 통해 고주파 성분의 외란을 효과적으로 제거함을 알 수 있었다. 또한, 뉴럴네트워크 기반의 학습형 피드포워드제어기는 특정 구간의 가변부하 자체에 대한 뉴럴네트워크의 오차역전파 학습이 이루어져서 미리 계산 되어진 부하보상 토크값과 리플력을 보상하는 토크값을 피드포워드 제어값으로 사용하여 가변부하 인가 전후의 성능에 별 차이가 없음을 보였다. To realize the high speed and high precision motion control of PMLSM(Permanent Magnet Linear Synchronous Motor), it is important to make high functional position, velocity, acceleration, jerk motion profiles based on 7th-order or higher-order equation or sine wave for fast, smooth and efficient motion. Several control algorithms such as conventional PID, Neural network, RIC(Robust Internal loop Compensator), RIC Pole placement, Self organized Reinforcement Learning, Leaning Feedforward controller, Reinforcement leaning based PID controller, Reinforcement leaning RIC based Pole placement controller are adopted and compared to obtain high precision controller of PMLSM. Through the MATLAB simulation and the experiment to make high precision PMLSM control, it was known that reinforcement leaning RIC based pole placement controller's performance is faster and more accurate than conventional PID-Feedforward controller. And it is also more robust when the external disturbance such as variable load was applied. Afterwards obtaining more accurate model of PMLSM, the studies for learning rate, linear or nonlinear activation function are necessary to make better adaptive PMLSM motion controller.

      • 가솔린 차량의 탄소 배출을 저감을 위한 강화학습 기반 주행 최적화 모델

        김영성 한양대학교 공학대학원 2025 국내석사

        RANK : 248703

        본 연구는 실시간 탄소 배출 저감을 목적으로, 실제 가솔린 차량에서 수집한 OBD-II 기반의 센서 데이터를 바탕으로 강화학습 기반 주행 최적화 모델을 제안한다. 최근 자동차 산업에서 친환경 기술의 수요가 높아지고 있는 가운데, 기존 연구는 연료 소비량 또는 CO₂ 배출량의 단순 예측에 집중되어 왔다. 하지만 예측 결과만으로는 운전자의 행동을 실질적으로 변화시키거나 탄소 배출을 직접적으로 줄이기 어렵다는 한계가 존재한다. 이에 본 논문에서는 Flutter로 개발된 모바일 앱과 V-Gate사의 iCar2 OBD-II 장치를 통해 10,788건의 실차 데이터를 수집하였고, 수집한 데이터는 AWS 기반의 EC2인스턴스에 Node.js기반의 API서버 환경을 통해 AWS RDS Database에 저장하였다. 수집된 데이터는 Speed, RPM, Throttle Position, Fuel Consumption, Mass Air Flow 등 총 14개의 주요 변수를 포함하며, 15초 이내 연속 구간을 그룹화하여 하나의 주행 시퀀스로 재구성하였다. 이후 결측치 및 이상치를 정제하고 정규화 및 표준화를 수행하여, 머신러닝 학습에 적합한 형태로 전처리하였다. 지도학습 단계에서는 RandomForest, XGBoost, LightGBM 모델을 활용하여 Fuel Consumption 및 계산된 탄소 배출량을 예측하였으며, 성능 평가지표로는 MAE, RMSE, R²를 사용하였다. 특히 LightGBM 모델이 가장 높은 예측 정확도를 보이며 주요 변수로는 Mass Air Flow(질량 공기 유량)과 Throttle Position을 도출하였다. 이러한 예측 결과를 기반으로, 본 연구는 강화학습 환경을 OpenAI Gym 구조로 구성하고, 행동(Action)으로는 Speed, RPM, Throttle Position의 3차원 연속 제어 공간을 설정하였다. 보상 함수는 연료 소비, 탄소 배출, 주행의 부드러움(Smoothness)을 통합한 다면적 기준으로 설계되었으며, 지도학습 모델의 예측 값을 활용해 실시간 보상을 계산하는 방식으로 정책을 학습하였다. 강화학습 알고리즘으로는 DQN(Deep Q-Network)을 기반으로 한 연속 제어 에이전트를 구현하여 500 에피소드에 걸쳐 학습을 진행하였고, RandomForest 기반의 보상 모델이 가장 높은 평균 보상값(372.98)을 기록하였다. 뿐만 아니라, Chain-of-Thought(CoT) 기반의 자기검증 기법을 도입하여 단순 수치 기반 평가를 넘어서 모델의 추론 과정의 논리적 일관성과 주행 조건별 안정성을 분석하였다. 저속/중속/고속 주행, 저부하/고부하 조건으로 나누어 성능을 재평가한 결과, LightGBM이 모든 조건에서 높은 일관성과 정확도를 보이며 최종 모델로 선정되었다. 본 연구는 다음과 같은 기여점을 가진다. 첫째, 실제 차량 데이터를 수집하고 직접 시뮬레이션 환경을 구축하여 학습 가능한 강화학습 기반 주행 최적화 모델을 설계했다는 점. 둘째, 단일 예측모델이 아닌, 예측과 행동을 통합하는 복합 AI 구조를 제안함으로써 실질적인 탄소 배출 저감 방안을 제시한 점. 셋째, CoT 기반의 자기검증을 통해 정량 지표뿐 아니라 주행 시나리오별 타당성까지 평가할 수 있는 다차원 검증 체계를 구축했다는 점이다.

      • 학습동기강화 수업이 아동들의 수학 학업성취도 및 교과에 대한 태도에 미치는 효과

        이희애 동아대학교 2001 국내석사

        RANK : 248703

        학습자의 학습활동을 시작하게 하고 지속하게 하는 학습동기가 교육효과에 미치는 영향력이 관심을 받아왔음에도 불구하고 수업에 구체적으로 처방할 수 있는 방안이 제시되지 못하고 있다. 본 연구는 학습동기를 촉진시키는 전략들을 수업장면에 적용시킨 Keller(1983;1987)의 ARCS 모형을 초등학교 1학년 아동들의 수학학습에 처치하여 그 효과를 밝히고자 하였다. 본 연구에서 설정된 연구문제는 다음과 같다. 첫째, 학습동기강화 수학수업과 일반 수학수업이 초등학교 1학년 아동들의 수학 학업성취도에 미치는 효과는 어떠한가? 둘째, 학습동기강화 수학수업과 일반 수학수업이 초등학교 1학년 아동들의 수학 교과에 대한 태도에 미치는 효과는 어떠한가? 셋째, 학습동기강화 수학수업과 일반 수학수업이 초등학교 1학년 아동들의 수학 학업성취에 미치는 효과는 성적수준에 따라 어떠한가? 넷째, 학습동기강화 수학수업과 일반 수학수업이 초등학교 1학년 아동들의 수학 교과에 대한 태도에 미치는 효과는 성적수준에 따라 어떠한가? 본 연구의 대상은 부산광역시 소재 O초등학교 1학년 74명으로, 두 연구집단에 37명씩 배치되었다. 본 연구의 독립변인은 수업유형으로서, Keller (1987)의 ARCS 전략을 사용한 학습동기강화 수학수업과 일반 수학수업이었다. 학습동기강화 수업은 ARCS 네 요인에 해당하는 하위동기전략 21개를 수업내용에 맞추어 재구성시킨 것이었다. 5주의 실험기간 동안 학습동기강화 수업집단에서는 학습동기강화 수업을, 일반 수업집단에서는 일반 수업을 실시하였다. 연구절차는 사전검사, 수업처치, 사후검사 순으로 진행되었다. 본 연구의 결과를 분석하기 위한 통계처리는 중다공변량분석과 이원변량분석이 사용되었다. 본 연구의 결과와 논의를 통해 얻어진 결론은 다음과 같다. 첫째, 학습동기강화수업은 일반수업보다 초등학교 1학년 아동들의 수학 학업성취도 향상에 더 효과적이다. 따라서 초등학교 1학년 아동의 수학 학업성취도 향상을 위하여서는 주의집중, 관련성, 자신감 및 만족감 전략을 적용하는 학습동기강화수업을 활용하는 것이 바람직하다. 둘째, 학습동기강화수업은 일반수업보다 초등학교 1학년 아동들의 수학 교과에 대한 태도 향상에 더 효과적이다. 따라서 초등학교 1학년 아동들의 수학 교과에 대한 태도 향상을 위하여서는 주의집중, 관련성, 자신감 및 만족감 전략을 적용하는 학습동기강화수업을 제공하는 것이 바람직하다. 셋째, 학습동기강화수업이 초등학교 1학년 아동들의 수학 학업성취도 및 교과에 대한 태도에 미치는 효과는 성적수준에 관계없이 모든 아동들에게 효과적이다. 따라서 모든 성적수준의 아동들의 수학 학업성취도 및 교과에 대한 태도 향상을 위하여서는 학습동기강화수업을 활용하는 것이 바람직하다. Learning motivation starts and maintains a learner's learning activities. Even though its considerable influence on educational effects has taken consistent interest, no concrete methods of its application in class have been produced. This research aims to administer Keller's (1983; 1987) ARCS model on the math learning of first graders. The following topics were examined: 1) How different are the effects of a ARCS fortified math instruction and a regular math instruction on the performance of first graders? 2) What are the effects of these two instructions on children's attitudes? 3) How different are the performance effects according to children's achievement levels? 4) How different are the attitude effects according to children's achievement levels? The subjects for this study were 74 first graders in an elementary school in Busan, 37 for each group. The independent variable was instruction types, a regular math instruction and an ARCS fortified math instruction. The treatments had been done for 5 weeks. Pretest, treatment, and a posttest were administered. The data were under went MANCOVA and two-way analysis of varience. The conclusion from the discussion of this study are as follows. 1. ARCS model is more effective than regular model to improve children's math academic achievements. Therefore, it is desirable to utilize ARCS model in elementary schools. 2. ARCS model is more effective than regular model to improve children's attitudes toward math. Therefore, it is desirable to utilize ARCS model in elementary schools. 3. The effects of ARCS model on children's academic achievements and attitude toward math do not vary regardless of their levels of prior learning. Therefore, ARCS model can be utilized to improve academic achievements and attitudes toward math of all levels of children.

      • SBOORL : 강화학습 기반 스타크래프트 빌드오더 최적화

        김경석 한국항공대학교 대학원 2021 국내석사

        RANK : 248703

        SBOORL : 강화학습 기반 스타크래프트 빌드오더 최적화 요 약 인공지능의 발전으로 현실 세계와 유사하고 복잡한 환경을 갖고 있는 실시간 전략 게임인 스타크래프트가 주요 연구대상이 되고 있다. 스타크래프트는 가위-바위-보 게임처럼 단순한 최고 전략이 없는 게임이며 원인과 결과가 즉각적이지 않다. 스타크래프트에서는 마이크로 매니지먼트와 매크로 매니지먼트의 적절한 조화가 필요하다. 특히 매크로 매니지먼트에서 게임 승리를 위하여 빌드오더의 최적화가 요구된다. 경험상 스타크래프트에서 빌드오더는 승리와 패배의 결정 요인 중 대략 1/3 이상을 차지한다. 본 논문에서는 스타크래프트 빌드오더의 기존 연구에 대하여 개선할 수 있는 해법으로써 강화학습을 적용한 빌드오더 모델인 SBOORL을 제시한다. 또한, 강화학습을 하기 위한 필수요소인 MDP를 정의하였고, 두 가지 형태의 보상을 제안하였다. 온전한 강화학습을 적용하기 어려움을 극복하기 위해 지도학습과 강화학습을 결합한 방식을 제안했다. Replay data[1][2]로부터 data set을 사용하는 지도학습과 실시간으로 추출되는 data를 사용하는 강화학습을 결합하기 위하여 같은 형식의 data로 정의하였다. 강화학습의 환경 구축 및 스타크래프트 인공지능 봇이 full-game으로 동작될 수 있도록 UAlbertaBot[3]의 매크로매니지먼트 중 Production Manager를 수정하여 SBOORL 모델과 통합하였다. 제안한 모델을 평가·적용하기 위하여 지도학습 모델을 data set으로 기본적인 지표측정은 물론 빌트인 인공지능 봇과의 대전 실험을 통해 확인하였다. 또한, 본 논문의 결과에서 SSCAIT[4]에 등재되어 있는 중간 레벨의 인공지능 봇과의 대전을 통하여 가장 높은 승률을 기록하였다. 그러나 SBOORL 모델의 결점은 대전 결과 다양한 빌드오더를 내리기 보다는 특정 빌드오더의 방향으로 학습된 결과를 보이는 점이다. 이 문제에 대하여 Self-play 학습과정을 도입하여 보다 동적이고 창의적인 빌드오더를 내리는 인공지능 봇에 대한 연구의 필요성을 향후 연구로써 남긴다. 본 연구는 추상적이고 소규모의 문제 공간을 풀이한 것이 아니다. 그래서 본 연구에서 다룬 빌드오더 문제를 현실 세계에서 복잡한 환경을 가진 문제로 삼을 수 있다. 이에 따라 본 논문에서 제안한 모델은 현실 세계에서 순서가 존재하는 수많은 의사 결정 문제에 대입하여 문제풀이 하는데 도움 되고 적용할만한 가치가 있다고 본다. SUMMARY SBOORL : Starcraft Build Order Optimization Based on Reinforcement Learning Kim, Kyeong Seok Dep. of Computer Engineering Graduate School of Korea Aerospace University (Advisor : Prof. Song, Dong Ho, Ph. D.) With the advancement of artificial intelligence, Starcraft, a real-time strategy game that has a similar and complex environment to the real world, is becoming a major research topic. StarCraft is a game that does not have a simple top strategy like a rock-scissor-paper game, and its cause and effect are not obvious. In Starcraft, the proper balance of micro and macro-management is required, and In particular, optimization of the build order is required to win the game in macro-management. By rule of thumb, build order could contribute to one-third of the decision factors for winning or losing in Starcraft. In this paper, we present SBOORL, a build order model applying reinforcement learning, as a solution that can improve the existing research on StarCraft build orders. The model specifies Markov Decision Process (MDP) an essential element for reinforcement learning and two types of rewards were proposed. To combine supervised learning using data set from Replay data[1][2] and reinforcement learning using data extracted in real-time, it was defined as data of the same format. SBOORL model was implemented by modifying the production manager of UAlbertaBot[3] macro-management so that the environment of reinforcement learning and the StarCraft artificial intelligence bot can operate interactively as a full-game. In order to evaluate and apply the proposed model, the supervised learning model was verified as a data set through basic index measurement as well as a battle experiment with a built-in A.I. bot. SBOORL has been evaluated by battling several times against the middle-ranked games in SSCAIT[4] and scored the highest winning rate as shown in the test result in this paper. However, the shortcoming of the SBOORL model is that it shows the result of learning in the direction of a specific build order rather than giving various build orders as a result of the match. For this problem, the need for research on artificial intelligence bots that give more dynamic and creative build orders by introducing a self-play learning process is left as a future study. This study is neither an abstract nor a small-scale problem space. Therefore, the build order problem dealt with in this study is being considered as a complex environment in the real world. Accordingly, in this paper, the proposed model helps solve the problem by substituting it into many decision-making problems that have an order in the real world, and it is considered worth applying.

      • 강화학습을 활용한 주택의 공간배치 방법론 제안

        한지후 명지대학교 대학원 2023 국내석사

        RANK : 248703

        본 연구는 기존 건축에 대한 강화학습 연구에서 한발짝 더 나아가 강화학습에 의한 공간배치가 실제 설계에 이용될 가능성을 탐구해 보는 것에 목적이 있다. 가상의 건축주와의 인터뷰를 통하여, 공간배치 프로그램의 요구사항을 받아, 강화학습의 상 벌점체계에 적용하여 강화학습을 이용하여 공간배치를 하고, 같은 공간배치의 요구사항을 토대로 인간 건축가에 의한 공간배치를 얻어내어 생성해낸 공간배치를 공간구문론 (Space Syntax)를 이용하여 비교, 분석하여 공간배치에 대하여 강화학습의 가능성을 입증하고 주택설계 분야에서 공간배치에 대한 창의적인 해결책을 얻기 위한 방법론을 제시하는 것에 목적이 있다. 정해진 평면과 계획에 맞추어 동이나 호수를 선택하는 아파트와는 달리, 단독주택은 건축주의 의도에 맞춰서 공간을 배치할 수 있다. 보통의 계획설계 과정에서의 공간배치는 건축물의 목적에 따른 기능수행이 용이한 공간배치가 가장 중요하지만, 주택설계에서의 공간배치는 건축주가 선호하는 공간배치를 하는 것이 가장 중요하다고 할 수 있다. 건축주마다 선호하는 공간의 배치가 다르고 가장 주관적이고 형식에 얽매이지 않은 공간배치를 할 수 있는 주택설계에서 가장 좋은 공간배치 방법은 건축주의 요구에 맞는 모든 경우의 수를 검토하고 최적의 경우를 제안하고 설계에 반영하는 것이다. 건축설계란 주어진 공간을 어떻게 나열하고 배치하는가의 문제라고 볼 수 있다. 그리고 최종 ‘선택’되어진 공간배치가 건축주, 또는 공간의 사용자가 원하는 최적의 대안이라고 말하기에도 어렵다. 모든 경우의 대안을 검토하기에는 불가능하고 기존 주택과의 차별성을 가지는 공간배치를 하기도 힘들기 때문이다. 32평 아파트, 32평 주택을 떠올려보면 머릿속에 집 구조가 대략적으로 자동으로 그려진다. 종합예술로도 일컬어지는 건축이라는 분야에서, 특히 가장 다양하고 자유로운 공간배치가 가능한 주택설계 분야에서, 조금 더 다양한 공간배치안을 생성 해낼 대안이 필요하다고 볼 수 있다. 따라서 본 연구에서는 건축설계에 대한 배경 지식, 또는 어떠한 편견도 없는 인공지능(강화학습)이 주택의 공간배치에 대하여 새로운 창의적인 방안을 제시하는지, 건축주의 요구사항에 따른 공간배치가 가능한지를 확인해보고자 한다. 이를 확인하기 위해 본 연구에서는 임의 건축주에게 주택에 대한 공간배치 요구사항을 받아서, 공간의 인접 관계 정도에 따른 보상 값을 정량화하여 강화학습의 보상체계에 적용하여 공간배치안을 생성하고, 같은 정량화 되어진 인접 관계 요구사항을 인간건축가에게 전달하여 공간배치를 하게 하였다. 생성된 공간배치안을 공간구문론(space syntax)을 이용하여 비교분석하고, 인접 관계에 대한 요구사항에 대한 반영 정도를 비교하였다. The purpose of this study is to go one step further from the existing reinforcement learning study on architecture and to explore the possibility that spatial arrangement by reinforcement learning can be used in actual design.Through interviews with virtual architects, space layout program requirements are applied to the reward system of reinforcement learning, and space layout created by human architects based on the same space layout requirements is compared and analyzed using space syntax to prove the possibility of reinforcement learning. Unlike apartments that choose a building or lake according to a set plan and plan, detached houses can arrange spaces according to the intention of the builder. In the general planning design process, spatial arrangement that is easy to perform functions according to the purpose of the building is the most important, but in housing design, spatial arrangement preferred by the owner is the most important. Each owner has a different preferred layout of space, and the best way to arrange it is to review the number of cases that meet the owner's needs, propose optimal cases, and reflect them in the design. Architectural design can be seen as a matter of how to list and arrange a given space. And it is difficult to say that the final 'selected' spatial arrangement is the optimal alternative desired by the owner or the user of the space. This is because it is impossible to review alternatives in all cases, and it is difficult to arrange a space that is differentiated from existing houses. When you think of a 32-pyeong apartment and a 32-pyeong house, you can automatically picture the structure of the house in your head. In the field of architecture, which is also referred to as comprehensive art, especially in the field of housing design where the most diverse and free space arrangement is possible, a more diverse space arrangement plan is created.It can be seen that an alternative is needed to do it. Therefore, in this study, we will check whether the background knowledge of architectural design or artificial intelligence (reinforcement learning) without any prejudice presents a new creative plan for housing space layout, and whether it is possible to arrange space according to the owner's requirements. To confirm this, this study received the spatial arrangement requirement for housing from a random owner, quantified the compensation value according to the degree of spatial adjacency, applied it to the compensation system of reinforcement learning, and delivered the same quantified adjacency requirement to the human architect to arrange the space arrangement. The generated spatial arrangement was compared and analyzed using space syntax, and the degree of reflection on the requirements for adjacent relationships was compared.

      • 단말 대 단말 클러스터 통신에서의 강화학습 기반 자원할당기법에 관한 연구

        유서영 中央大學校 大學院 2019 국내석사

        RANK : 248703

        본 논문에서는 D2DC 통신 언더레이 네트워크를 위한 강화학습 기반의 주파수 자원 및 송신전력레벨 할당기법을 제안하였다. 각 D2D 송신단말은 강화학습의 에이전트로 동작하여 주변 환경과의 상호작용을 통해 셀룰러의 QoS를 만족하면서 클러스터 내 achievable rate의 합을 최대화할 수 있는 재사용 주파수와 송신전력레벨을 학습한다. 이 때 학습에 있어 각 D2D 송신단말들이 강화학습을 위해서 재사용하는 셀룰러 채널에 대한 QoS 보장 여부에 대한 피드백과 그리고 해당 클러스터에 속한 D2D 수신단말들로부터 측정한 SINR 값들로부터의 피드백을 받을 수 있는지 여부에 따라 네 가지 시나리오를 구성하여 각기 다른 큐러닝 기반의 강화학습 모델을 제시하였다. 또한 제안한 강화학습 모델들의 성능 한계를 극복하기 위한 기법들도 제안하였다. 강화학습의 학습속도와 성능을 개선하기 위해 병렬 Q-value 업데이트 기법, D2D 송신단말들의 최대송신전력 제한 기법, 추정된 SINR 또는 SNR값 기반의 긍정적 Q-value 초기화 기법 그리고. 주파수 자원 제한 기법을 제안하였다. 모의실험 결과에 따르면 기지국으로 피드백을 받아 학습을 진행하는 시나리오들의 경우 병렬 Q-value 업데이트, 긍정적 Q-value 초기화 그리고 채널 주파수 자원 제한 기법을 통해 재사용하는 셀룰러 채널의 QoS를 보장하면서 전체 클러스터의 더 높은 achievable rate을 가지는 재사용 주파수 및 송신전력레벨의 조합을 학습할 수 있다. 한편 기지국으로부터 셀룰러의 QoS 관련 피드백을 받지 못하는 시나리오들의 경우 병렬 Q-value 업데이트, 긍정적 Q-value 초기화 그리고 채널 주파수 자원 제한 기법을 적용하면 셀룰러 채널의 QoS 보장 확률이 오히려 감소함을 확인할 수 있었다. 이를 해결하기 위해 D2D 송신단말의 최대송신전력 제한 기법을 적용하였고 이에 따라 전체 클러스터의 achievable rate이 감소하지만 QoS 관련 피드백 없이 셀룰러 채널의 QoS를 높은 확률로 보장할 수 있는 주파수 자원 및 송신전력레벨을 학습할 수 있음을 알 수 있었다. In this paper, we proposed a joint resource allocation scheme based on reinforcement learning in Device-to-Device communications underlay network. Each D2D transmitter acts as an agent of reinforcement learning to learn a set of reuse frequency resource and transmission power level to maximize the sum of achievable rates in corresponding D2D cluster while satisfying the QoS of reused cellular channel by interacting with environment. Depending on the existence of feedback from base station about satisfaction of the QoS of cellular channel and feedback from D2D receivers about estimated SINR value, we proposed the Q-learning based learning model for each different scenarios. Also we proposed the methods for improving the performance of the proposed learning models. to improve the speed of learning and performance, parallel Q-value update, maximum transmission power restriction, optimistic Q-value initialization and frequency resource limitation are proposed. According to simulation result, for the scenarios which can obtain the feedback from base station, using Q-value update, maximum transmission power restriction, and frequency resource limitation can increase the achievable rates of whole cluster while satisfying the QoS of cellular channels. On the other hand, applying the mentioned methods to the scenarios which can't obtain the feedback from base station incurs degradation in probability of QoS satisfaction in cellular channels. To overcome this, adaptation of maximum transmission power restriction can make agent learn the set of reuse frequency resource and transmission power level while satisfying the QoS of reused cellular channel at the cost of degradation of total achievable rates in whole clusters.

      • Multi-Goal 구조를 활용한 정책 경사 최적화를 위한 강화학습 연구 방법 : 최적 정책 생성을 위한 강화학습 구조 설계

        김정현 상명대학교 천안캠퍼스 일반대학원 2025 국내석사

        RANK : 248703

        Reinforcement learning may not learn well due to problems such as sparse rewards and structural limitations of the algorithm. In particular, most reinforcement learning algorithms fail to converge and diverge when learning in a low-reward environment. Various attempts have been made to solve this problem, such as the concept of multi-goal, which is a way to gradually reach a goal in a low-reward environment. However, even in the multi-goal environment, learning was not possible when applying general reinforcement learning, so a previous study, Hindsight Experience Replay (HER), solved this problem by applying Achieved-Goal to Desired-Goal and using pseudo-reward for learning. In this paper, we propose Prioritized Hindsight Experience Replay (PHER) by fully integrating HER with Prioritized Experience Replay (PER). Basically, it aims to make efficient use of the experiences used by Buffer. The structure is to store the maximum number of steps per episode, select episodes in batch size by calculating the overall probability, recalculate the probability of the data in the selected episode, and use an experience to use the entire data to avoid high correlation, which was a problem in early reinforcement learning. The selected data was then subjected to HER's performance evaluation method and showed high stability and performance in most of the gym-fetch environments tested. In addition, there are cases where learning is not possible due to external factors such as scarce rewards, but there are also cases where learning is not possible due to various causes such as internal factors such as hyperparameters and network structure. Therefore, in this paper, we proposed the Maximum Actor-Critical structure based on TD3, which was judged to have the best performance among the Actor-Critical structures. The overall structure judged that the optimal path was created when the maximum reward was obtained, and applied the update method of On-Policy. At this point, the update method iterates. Since the Gym-Mujoco environment is commonly used to generate performance metrics for reinforcement learning, we compared the performance of TD3, PPO, and DDPG against this environment and found performance improvements ranging from a low of 4.12% to a high of 27.1%. 최적 정책 생성을 위한 강화학습 구조 설계 강화학습은 희소 보상(Sparse Rewards) 및 알고리즘의 구조적 한계 등 의 문제로, 정상적으로 학습하지 못할 수가 있다. 특히 보상이 적은 환경 에서 학습을 진행할 경우 대부분의 강화학습 알고리즘은 수렴하지 못하고 발산하는 결과로 이어지기도 한다. 이런 문제를 다양한 방법으로 해결하 려는 시도가 존재했는데, 이때 Multi-Goal의 개념을 제작하여 보상은 적 은 환경에서 점진적으로 목표에 도달할 수 있도록 했다. 하지만 Multi-Goal 환경에서도 일반적인 강화학습을 적용하여 학습을 진행할 경 우 학습이 불가능했기 때문에, 선행 연구인 Hindsight Experience Replay(HER)에서는 도달 목표(Achieved-Goal)를 최종 목표(Desired-Goal) 에 적용한 후 유사 보상(Pseudo reward)을 학습에 사용함으로써 이를 해 결했다. 본 논문에서는 이 HER과 Prioritized Experience Replay(PER)와 완전히 통합하여 Prioritized Hindsight Experience Replay(PHER)를 제안한다. 기 본적으로 버퍼(Buffer)에서 사용되는 경험(Experience)을 효율적으로 사용 하는 것을 목적으로 했다. 이때 구조는 최대 스텝의 수만큼 에피소드별로 저장하여 진행했으며, 전체적인 확률 분포를 계산하여 에피소드를 배치 크기(Batch size)만큼 선택하고 선택된 에피소드 안 데이터의 확률 분포를 다시 계산한 뒤 하나의 경험을 사용함으로써 전체적인 데이터를 사용함으 로써 초기 강화학습의 문제였던 높은 상관관계(High correlation)를 방지 했다. 그리고 선택된 데이터를 이후 HER의 방식을 적용하여 성능 평가를 진행했고 실험을 진행한 Gym-Fetch 환경의 대부분 환경에서 높은 안정성 과 성능을 보였다. 더하여 희소 보상과 같은 외부적 요인으로 학습이 안 되는 때도 있지만 내부적인 요인인 하이퍼 파라미터(Hyper-parameter) 및 네트워크의 구조 등 다양한 원인으로 학습이 정상적으로 학습을 못 하는 경우가 발생할 수 있다. 그러므로 본 논문에서는 Actor-Critic 구조 중 성 능이 가장 좋은 것으로 판단한 TD3를 기반으로 Maximum Actor-Critic 구조를 제안했다. 전체적인 구조는 최대 보상을 얻었을 때가 최적의 경로 를 생성했다고 판단하고, On-Policy의 업데이트 방식을 적용했다. 이때 Update 방식은 에피소드가 끝났을 때 최대 보상을 얻었을 경우 K 번 반 복하여 정책 업데이트를 진행하는 데 이때 최대 보상을 얻었던 Actor-Critic 구조인 Max-Actor와 Max-Critic을 Target-Network 대신 적용 하여 업데이트가 진행됨으로써 현재 정책과 업데이트 정책을 같게 하였 다. 이때 성능 평가는 일반적으로 강화학습의 성능 지표를 생성할 때 Gym-Mujoco 환경을 사용했기 때문에 이 환경을 기준으로 TD3, PPO, DDPG와 성능을 비교했고 적게는 4.12%에서 높게는 27.1%의 성능 향상 을 확인할 수 있었다. 최종적으로 PHER과 MAC 알고리즘을 함께 사용하여 성능 평가를 했 을 때, TD3+HER 및 TD3+PHER 에 비해 빠르게 수렴했다. 이러한 성능 지표를 기반으로 추후 연구에서 제작된 알고리즘을 적용하여 활용할 예정 이다.

      • 과포화 제어를 위한 AI 기반 강화학습 신호제어 시스템의 현장 적용 연구

        이효선 서울시립대학교 일반대학원 2023 국내석사

        RANK : 248703

        Recently, as traffic congestion in urban areas has increased, there are many studies on reinforcement learning for traffic signal control that enable efficient traffic control in a complex environment that is difficult for humans to control. However, most existing reinforcement learning for traffic signal control studies are implemented based on simulation, and there are few cases where they are applied to the real world. In addition, existing reinforcement learning for traffic signal control methods use a step method that controls the signal every short step. However, a step method is inefficient in oversaturated traffic conditions with large differences between movements because the signal cannot be controlled based on the overall situation of the movements. Therefore, this study focuses on transferring simulation-based reinforcement learning for traffic signal control to reality and develops an reinforcement learning for traffic signal control method that can respond to oversaturated traffic conditions. The action space is designed so that the agent derives an optimal signal set for every cycle length by understanding the traffic situation of all movements. During each cycle length performing signal optimization, the proposed model finds the optimal signal in the iterative strategy search process. We developed a kinematic wave-based mesoscopic model for a fast and accurate strategy search process. Based on the collected traffic information, the kinematic wave-based meso model estimates the traffic information of the entire link and obtains the status and reward. The proposed reinforcement learning for traffic signal control method has been verified for field applicability through demonstration in the real world at a congested intersection in Seoul, Korea. As a result, the average queue length at intersection was improved by up to 11.4%. 최근 도시 지역의 교통 체증이 증가함에 따라 인간이 제어하기 어려운 복잡한 환경에서 효율적인 교통 제어를 가능하게 하는 AI 강화학습 기반의 신호제어에 대한 연구가 많이 이루어지고 있다. 그러나 대부분의 기존 강화학습 신호제어 연구는 시뮬레이션을 기반으로 구현되어 실제 현장에 적용된 사례는 거의 없다. 기존 강화학습 신호제어 연구에서는 짧은 시간 단위마다 신호를 제어하는 ​​스텝 방식을 사용한다. 그러나 이는 전반적인 교통 상황에 따라 신호를 제어할 수 없어 이동류 간 교통량 차이가 큰 과포화 교통 상황에서 비효율적이다. 이에 본 연구에서는 시뮬레이션 기반의 강화학습 신호제어를 현실에 적용하는 데 초점을 맞추어 과포화 교통 상황에 대응할 수 있는 강화학습 신호제어 알고리즘을 개발하였다. AI 에이전트가 모든 움직임의 교통 상황을 파악하여 신호 주기 단위로 최적 신호를 도출할 수 있도록 행동 공간을 설계하였다. 또한 신호 최적화 주기 동안 모델은 전략 탐색 과정에서 최적의 신호를 도출한다. 현장 적용성을 고려하기 위해 가상 환경을 설정하여 빠르고 정확한 전략 탐색 과정을 도입하였다. 본 연구의 강화학습 신호제어 시스템은 전략 탐색 과정을 통해 신호 주기 단위의 안정적인 최적 신호를 도출함으로써 이동류 간 편차가 큰 과포화 상황에 대응할 수 있을 것으로 기대된다. 또한 서울의 혼잡한 교차로 대상의 실증 테스트를 통해 교차로 평균 대기행렬 길이가 최대 11.4% 감소함으로써 현장 적용성을 검증하였다.

      • System and Methods for RL-Based Congestion Control of Real-Time Communications

        어정윤 서울대학교 대학원 2024 국내박사

        RANK : 248703

        COVID-19 팬데믹과 함께 비디오 컨퍼런싱부터 클라우드 게이밍까지 다양한 실시간 커뮤니케이션 애플리케이션들이 일상 생활 속에 보편화되고 있다. 점점 다양해지는 애플리케이션과 인터넷 환경에서 지속적으로 높은 체감 품질을 달성하는 정체 제어 알고리즘을 개발하기 위해 최근 강화학습 기반의 실시간 커뮤니케이션 정체 제어 기술들이 다수 등장하였다. 강화학습 기반 정체 제어 알고리즘 연구를 촉진하는 데 있어 중요한 문제점 중 하나는 강화학습 기반 정체 제어 알고리즘의 학습, 평가 및 검증을 지원하는 공개 프레임워크의 부재이다. 본 논문의 첫 번째 부분에서는 이러한 문제점을 해결하는 공개 프레임워크인 오픈넷랩을 제안한다. 오픈넷랩은 다음 세 가지로 구성되어 있다. 첫째, 강화학습 에이전트 설계에 있어 사용자 편의성과 프로그래머빌리티를 향상시키기 위해 실시간 커뮤니케이션 시스템 내부 디테일과 분리된 Gym 환경 및 사용하기 쉬운 인터페이스를 제공한다. 둘째, 알고리즘 개발 단계에서의 학습 및 평가를 위해 밀리초 단위 타이밍 정렬을 갖춘 고해상도 시뮬레이션 네트워크 환경을 사용하여 빠른 훈련 및 재현 가능한 평가를 가능하게 한다. 셋째, 실제 인터넷 환경에서 성능을 검증하기 위해 사용자 정의 가능한 실시간 커뮤니케이션 콜을 실행할 수 있는 공용 인터넷 테스트베드를 제공한다. 초기 사용 사례는 오픈넷랩이 네트워크 성능 및 체감 품질 메트릭 모두에서 널리 쓰이는 규칙 기반 정체 제어 알고리즘을 능가하는 새로운 강화 학습 기반 정체 제어 알고리즘 개발을 촉진했음을 보여준다. 추가로, 강화학습 기반 정체 제어 알고리즘에 특수한 대역폭 과다 사용 및 과소 사용으로 인한 성능 문제를 완화할 수 있는 지문 기반 방법을 제시한다. 두 번째 문제점은 체감 품질 지향 강화학습 기반 정체 제어를 달성하는 데 있어 해결해야 할 핵심 과제를 이해하는 것이다. GCC와 같은 널리 사용되는 규칙 기반 정체 제어 알고리즘에 비해 더 나은 엔드 투 엔드 체감 품질을 달성하는 강화학습 기반 정체 제어 알고리즘 디자인 연구는 늘어나고 있다. 그러나 주어진 네트워크 환경과 여러 타겟 체감 품질 지표가 있을 때 이를 만족시키도록 강화학습 기반 정체 제어 알고리즘을 명시적으로 디자인, 학습, 추론하는 데 어떤 과제를 해결해야 하는지에 대한 연구가 부족한 상황이다. 본 논문의 두 번째 부분에서는 이 문제를 해결하기 위해 다중 목표 강화학습을 활용하는 체감 품질 지향 강화학습 기반 정체 제어 알고리즘의 디자인, 학습 및 추론 방법을 제안한다. 구체적으로, 정체 제어 알고리즘이 최적화하는 서비스 품질 지표와 정체 제어 알고리즘의 최종 성능 목표인 체감 품질 지표 간 격차를 제대로 처리해야 한다는 점, 체감 품질 지표의 서비스 품질 지표에 대한 민감도가 네트워크 환경 특성에 따라 다르다는 관찰을 이용한다. 이에 기반해 다양한 네트워크 환경에서 높은 체감 품질을 달성하기 위해 여러 성능 목표, 즉 여러 보상 함수를 구성하는 서비스 품질 지표 가중치들을 학습할 수 있는 모델 아키텍처를 설계한다. 또한, 해당 모델로 추론을 수행하기 위해 주어진 네트워크 환경에서의 체감 품질 민감도를 고려해 가장 적합한 서비스 품질 가중치 값 선택을 자동화하는 메서드를 제안한다. Recently, real-time communication (RTC) applications have gained popularity from video conferencing to cloud gaming. Various techniques have been proposed that leverage reinforcement learning (RL) for congestion control (CC) to achieve consis- tently high quality-of-experience (QoE). The first part of this dissertation introduces OpenNetLab, an open framework that addresses this missing piece. For researchers that design RL-based CC for RTC, it provides simple interfaces with a customizable gym environment. The framework enables fast training and reproducible evaluation with a high-fidelity simulated net- work environment. Finally, it offers a public Internet testbed for running customizable end-to-end RTC calls for validation under unseen network conditions. Additionally, we present a fingerprint-based method that can mitigate performance issues specific to a given RL-based CC algorithm, such as bandwidth overuse and underuse. The second part of this dissertation presents measurement studies on QoS sensi- tivity of an RL-based CC for RTC under different network environments. Building on the understanding obtained from the measurement study, we introduce design, train- ing, and deployment of a QoE-oriented RL-based CC algorithm that aims to bridge the gap between the QoS and the QoE metrics by multi-objective RL-based approach that exploits QoS sensitivity-based clustering of network environments. For fast training and high performance deployment, we present amethod for choosing the appropriate performance objective for the sensitivity observed in a given network environment, based on sensitivity-aware K-means clustering of network environments. Keywords: Reinforcement learning, congestion control, real-time communications Student Number: 2018-33251

      • 강화학습을 위한 내적 동기기반 탐색

        박현수 세종대학교 대학원 2018 국내박사

        RANK : 248703

        최근, 기계학습 방법의 하나인 강화학습은 여러 분야에서 성공적인 결과를 보여주면서 많은 관심을 받고 있다. 하지만 현재의 강화학습 알고리즘은 보상이 드물게 발생하는 환경처럼 학습이 어려운 환경에서 부족한 성능을 보여준다. 강화학습 인공지능 에이전트는 주어진 환경에서 행동하면서, 학습을 수행하기 때문에, 에이전트가 하는 행동에 따라 학습 데이터의 분 포가 달라지고, 이로 인해 전체 학습 성능이 영향을 받는다. 보통 학습이 부족한 초반에 에이전트는 우연히 결정한 행동 때문에 보상을 얻고, 보상을 획득하는 횟수가 많아질수록 어떤 상황에서 어떤 행동을 하면 보상을 얻을 수 있는가를 점차 정확하게 판단할 수 있게 된다. 하지만 실용적인 특성이 반영된 많은 환경에서는 우연한 행동으로 보상을 얻기는 어려우므 로, 보상을 획득할 기회가 적어서 학습 성능이 낮다. 반면 인간은 호기심과 놀라움 같은 내적 동기를 이용해 외부에서 주어지는 명시적인 보상과 처벌이 없더라도 환경을 능동적으로 탐색하고 학습하여 환경에 대한 풍부한 지식을 쌓을 수 있는 능력이 있으므로 이런 문제를 겪지 않는다. 본 연구에서는 이런 내적 동기를 모방한 강화학습 기법을 기존 알고리즘과 결합하여 더욱 효율적인 탐색이 가능한 강화학습 기법을 연구한다. 본 연구는 기존의 내적 동기기반 기계학습 연구를 조사 정리하고, 최신 강화학습 알고리즘에 이것을 결합하여 사용하는 방법을 제안하였다. 마지막으로 제안하는 방법들을 실제 환경과 유사한 특성을 보인 비디오 게임 환경에서 실험하였다. 실험 결과에 의하면 본 논문에서 제안하는 방법은 비록 주어진 환경에따라 불안정한 결과를 보일 때도 있지만, 학습이 어려운 몇 가지 상황에서 기존의 알고리즘으로 달성하기 어려운 성능을 보여줬다. 최근, 기계학습 방법의 하나인 강화학습은 여러 분야에서 성공적인 결과를 보여주면서 많은 관심을 받고 있다. 하지만 현재의 강화학습 알고리즘은 보상이 드물게 발생하는 환경처럼 학습이 어려운 환경에서 부족한 성능을 보여준다. 강화학습 인공지능 에이전트는 주어진 환경에서 행동하면서, 학습을 수행하기 때문에, 에이전트가 하는 행동에 따라 학습 데이터의 분 포가 달라지고, 이로 인해 전체 학습 성능이 영향을 받는다. 보통 학습이 부족한 초반에 에이전트는 우연히 결정한 행동 때문에 보상을 얻고, 보상을 획득하는 횟수가 많아질수록 어떤 상황에서 어떤 행동을 하면 보상을 얻을 수 있는가를 점차 정확하게 판단할 수 있게 된다. 하지만 실용적인 특성이 반영된 많은 환경에서는 우연한 행동으로 보상을 얻기는 어려우므 로, 보상을 획득할 기회가 적어서 학습 성능이 낮다. 반면 인간은 호기심과 놀라움 같은 내적 동기를 이용해 외부에서 주어지는 명시적인 보상과 처벌이 없더라도 환경을 능동적으로 탐색하고 학습하여 환경에 대한 풍부한 지식을 쌓을 수 있는 능력이 있으므로 이런 문제를 겪지 않는다. 본 연구에서는 이런 내적 동기를 모방한 강화학습 기법을 기존 알고리즘과 결합하여 더욱 효율적인 탐색이 가능한 강화학습 기법을 연구한다. 본 연구는 기존의 내적 동기기반 기계학습 연구를 조사 정리하고, 최신 강화학습 알고리즘에 이것을 결합하여 사용하는 방법을 제안하였다. 마지막으로 제안하는 방법들을 실제 환경과 유사한 특성을 보인 비디오 게임 환경에서 실험하였다. 실험 결과에 의하면 본 논문에서 제안하는 방법은 비록 주어진 환경에따라 불안정한 결과를 보일 때도 있지만, 학습이 어려운 몇 가지 상황에서 기존의 알고리즘으로 달성하기 어려운 성능을 보여줬다. Recently, reinforcement learning has much interest because it shows many successful research achievements in nowadays. However current reinforcement techniques show limited performance in many practical application environments. Since reinforcement learning agents gather data and learn policy simultaneously through interaction, The distribution of training data changes by agents learning policy. Therefore, the exploration method of a reinforcement learning algorithm effects whole training performance. Usually, an agent gets some reward from random actions in an early stage of learning. After that, The agent refines its behavior incrementally to pursue the rewards. However, it is difficult to get rewards through random actions in many practical scenarios. Therefore agents in the environments show low performance. On the other hand, Humans can actively explore the environments without explicit rewards. Even if there are no external rewards, humans have intrinsic motivation like curiosity and surprise to encourage their exploration behavior. In this research, we propose intrinsic motivation based exploration method for reinforcement learning algorithms. We experiment proposed methods using video game based environments. Although the proposed method shows poor performance in few environments, It achieves good performance that the baseline algorithm cannot achieve in many environments.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼