COVID-19 팬데믹과 함께 비디오 컨퍼런싱부터 클라우드 게이밍까지 다양한 실시간 커뮤니케이션 애플리케이션들이 일상 생활 속에 보편화되고 있다. 점점 다양해지는 애플리케이션과 인터넷 ...

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=T17109957
서울 : 서울대학교 대학원, 2024
학위논문(박사) -- 서울대학교 대학원 , 컴퓨터공학부 컴퓨터공학 , 2024. 8
2024
영어
강화학습 ; 실시간 커뮤니케이션 ; 정체 제어
621.39
서울
89 ; 26 cm
지도교수: 전병곤
I804:11032-000000185719
0
상세조회0
다운로드COVID-19 팬데믹과 함께 비디오 컨퍼런싱부터 클라우드 게이밍까지 다양한 실시간 커뮤니케이션 애플리케이션들이 일상 생활 속에 보편화되고 있다. 점점 다양해지는 애플리케이션과 인터넷 ...
COVID-19 팬데믹과 함께 비디오 컨퍼런싱부터 클라우드 게이밍까지 다양한 실시간 커뮤니케이션 애플리케이션들이 일상 생활 속에 보편화되고 있다. 점점 다양해지는 애플리케이션과 인터넷 환경에서 지속적으로 높은 체감 품질을 달성하는 정체 제어 알고리즘을 개발하기 위해 최근 강화학습 기반의 실시간 커뮤니케이션 정체 제어 기술들이 다수 등장하였다. 강화학습 기반 정체 제어 알고리즘 연구를 촉진하는 데 있어 중요한 문제점 중 하나는 강화학습 기반 정체 제어 알고리즘의 학습, 평가 및 검증을 지원하는 공개 프레임워크의 부재이다. 본 논문의 첫 번째 부분에서는 이러한 문제점을 해결하는 공개 프레임워크인 오픈넷랩을 제안한다. 오픈넷랩은 다음 세 가지로 구성되어 있다. 첫째, 강화학습 에이전트 설계에 있어 사용자 편의성과 프로그래머빌리티를 향상시키기 위해 실시간 커뮤니케이션 시스템 내부 디테일과 분리된 Gym 환경 및 사용하기 쉬운 인터페이스를 제공한다. 둘째, 알고리즘 개발 단계에서의 학습 및 평가를 위해 밀리초 단위 타이밍 정렬을 갖춘 고해상도 시뮬레이션 네트워크 환경을 사용하여 빠른 훈련 및 재현 가능한 평가를 가능하게 한다. 셋째, 실제 인터넷 환경에서 성능을 검증하기 위해 사용자 정의 가능한 실시간 커뮤니케이션 콜을 실행할 수 있는 공용 인터넷 테스트베드를 제공한다. 초기 사용 사례는 오픈넷랩이 네트워크 성능 및 체감 품질 메트릭 모두에서 널리 쓰이는 규칙 기반 정체 제어 알고리즘을 능가하는 새로운 강화 학습 기반 정체 제어 알고리즘 개발을 촉진했음을 보여준다. 추가로, 강화학습 기반 정체 제어 알고리즘에 특수한 대역폭 과다 사용 및 과소 사용으로 인한 성능 문제를 완화할 수 있는 지문 기반 방법을 제시한다. 두 번째 문제점은 체감 품질 지향 강화학습 기반 정체 제어를 달성하는 데 있어 해결해야 할 핵심 과제를 이해하는 것이다. GCC와 같은 널리 사용되는 규칙 기반 정체 제어 알고리즘에 비해 더 나은 엔드 투 엔드 체감 품질을 달성하는 강화학습 기반 정체 제어 알고리즘 디자인 연구는 늘어나고 있다. 그러나 주어진 네트워크 환경과 여러 타겟 체감 품질 지표가 있을 때 이를 만족시키도록 강화학습 기반 정체 제어 알고리즘을 명시적으로 디자인, 학습, 추론하는 데 어떤 과제를 해결해야 하는지에 대한 연구가 부족한 상황이다. 본 논문의 두 번째 부분에서는 이 문제를 해결하기 위해 다중 목표 강화학습을 활용하는 체감 품질 지향 강화학습 기반 정체 제어 알고리즘의 디자인, 학습 및 추론 방법을 제안한다. 구체적으로, 정체 제어 알고리즘이 최적화하는 서비스 품질 지표와 정체 제어 알고리즘의 최종 성능 목표인 체감 품질 지표 간 격차를 제대로 처리해야 한다는 점, 체감 품질 지표의 서비스 품질 지표에 대한 민감도가 네트워크 환경 특성에 따라 다르다는 관찰을 이용한다. 이에 기반해 다양한 네트워크 환경에서 높은 체감 품질을 달성하기 위해 여러 성능 목표, 즉 여러 보상 함수를 구성하는 서비스 품질 지표 가중치들을 학습할 수 있는 모델 아키텍처를 설계한다. 또한, 해당 모델로 추론을 수행하기 위해 주어진 네트워크 환경에서의 체감 품질 민감도를 고려해 가장 적합한 서비스 품질 가중치 값 선택을 자동화하는 메서드를 제안한다.
다국어 초록 (Multilingual Abstract)
Recently, real-time communication (RTC) applications have gained popularity from video conferencing to cloud gaming. Various techniques have been proposed that leverage reinforcement learning (RL) for congestion control (CC) to achieve consis- tently ...
Recently, real-time communication (RTC) applications have gained popularity from video conferencing to cloud gaming. Various techniques have been proposed that leverage reinforcement learning (RL) for congestion control (CC) to achieve consis- tently high quality-of-experience (QoE). The first part of this dissertation introduces OpenNetLab, an open framework that addresses this missing piece. For researchers that design RL-based CC for RTC, it provides simple interfaces with a customizable gym environment. The framework enables fast training and reproducible evaluation with a high-fidelity simulated net- work environment. Finally, it offers a public Internet testbed for running customizable end-to-end RTC calls for validation under unseen network conditions. Additionally, we present a fingerprint-based method that can mitigate performance issues specific to a given RL-based CC algorithm, such as bandwidth overuse and underuse. The second part of this dissertation presents measurement studies on QoS sensi- tivity of an RL-based CC for RTC under different network environments. Building on the understanding obtained from the measurement study, we introduce design, train- ing, and deployment of a QoE-oriented RL-based CC algorithm that aims to bridge the gap between the QoS and the QoE metrics by multi-objective RL-based approach that exploits QoS sensitivity-based clustering of network environments. For fast training and high performance deployment, we present amethod for choosing the appropriate performance objective for the sensitivity observed in a given network environment, based on sensitivity-aware K-means clustering of network environments. Keywords: Reinforcement learning, congestion control, real-time communications Student Number: 2018-33251
목차 (Table of Contents)
참고문헌 (Reference)
1. Actor-critic algorithms, J. Tsitsiklis, V. Konda and, Advances in neural information processing systems, vol. 12, , 1999
2. VmafThe journey continues, J. Cock, K. Swanson, C. Bampis, J. Novak, A. Moorthy and, A. Aaron, Z. Li, Netflix Technology Blog, vol. 25, , 2018
3. Measuring broadband america., F. C. Commission, https://www. fcc. gov/reports-research/ reports/measuring-broadband-america/ measuring-fixed-broadband-eleventh-report, , 2021
4. Handling packet loss in webrtc in, S. Holmer, M. Paniconi, M. Shemer and, 2013 IEEE International Conference on Image Processing, pp. 1860–1864, IEEE, , 2013
5. Multi-objective congestion control in, X. Jin, X. Liao, W. Wang, K. Chen and, Y. Ma, J. Zhang, H. Tian, EuroSys, pp. 218–235, , 2022
6. Proximal policy optimization algorithms, O. Klimov, P. Dhariwal, J. Schulman, F. Wolski, A. Radford and, arXiv preprint arXiv:1707.06347, , 2017
7. Cloud gaming with foveated video encoding, G. K. Illahi, A. Ylä- Jääski, T. V. Gemert, A. Oulasvirta and, E. Masala, M. Siekkinen, ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM), vol. 16, no. 1, pp. 1–24, , 2020
8. MahimahiAccurate record-and-replay for http., H. Balakrishnan, S. Das, R. Netravali, A. Sivaraman, A. Goyal, K. Winstein, J. Mickens and, Usenix annual technical conference, pp. 417–429, , 2015
9. Neural adaptive video streaming with pensieve, H. Mao, M. Alizadeh, R. Netravali and, in Proceedings of the Conference of the ACM Special Interest Group on Data Communication, pp. 197–210, , 2017
10. Cubica new tcp-friendly high-speed tcp variant, S. Ha, L. Xu, I. Rhee and, ACM SIGOPS operating systems review, vol. 42, no. 5, pp. 64–74, , 2008
1. Actor-critic algorithms, J. Tsitsiklis, V. Konda and, Advances in neural information processing systems, vol. 12, , 1999
2. VmafThe journey continues, J. Cock, K. Swanson, C. Bampis, J. Novak, A. Moorthy and, A. Aaron, Z. Li, Netflix Technology Blog, vol. 25, , 2018
3. Measuring broadband america., F. C. Commission, https://www. fcc. gov/reports-research/ reports/measuring-broadband-america/ measuring-fixed-broadband-eleventh-report, , 2021
4. Handling packet loss in webrtc in, S. Holmer, M. Paniconi, M. Shemer and, 2013 IEEE International Conference on Image Processing, pp. 1860–1864, IEEE, , 2013
5. Multi-objective congestion control in, X. Jin, X. Liao, W. Wang, K. Chen and, Y. Ma, J. Zhang, H. Tian, EuroSys, pp. 218–235, , 2022
6. Proximal policy optimization algorithms, O. Klimov, P. Dhariwal, J. Schulman, F. Wolski, A. Radford and, arXiv preprint arXiv:1707.06347, , 2017
7. Cloud gaming with foveated video encoding, G. K. Illahi, A. Ylä- Jääski, T. V. Gemert, A. Oulasvirta and, E. Masala, M. Siekkinen, ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM), vol. 16, no. 1, pp. 1–24, , 2020
8. MahimahiAccurate record-and-replay for http., H. Balakrishnan, S. Das, R. Netravali, A. Sivaraman, A. Goyal, K. Winstein, J. Mickens and, Usenix annual technical conference, pp. 417–429, , 2015
9. Neural adaptive video streaming with pensieve, H. Mao, M. Alizadeh, R. Netravali and, in Proceedings of the Conference of the ACM Special Interest Group on Data Communication, pp. 197–210, , 2017
10. Cubica new tcp-friendly high-speed tcp variant, S. Ha, L. Xu, I. Rhee and, ACM SIGOPS operating systems review, vol. 42, no. 5, pp. 64–74, , 2008
11. On the constancy of internet path properties in, N. Duffield, Y. Zhang and, Proceedings of the 1st ACM SIGCOMM Workshop on Internet Measurement, pp. 197– 211, , 2001
12. {PCC} vivaceOnline-learning congestion control in, T. Meng, D. Zarchy, M. Schapira, B. Godfrey and, Y. Gilad, M. Dong, E. Arslan, NSDI, , 2018
13. Webrtcreal-time communication for the open web platform, N. Blum, S. Lachapelle and, H. Alvestrand, Communications of the ACM, vol. 64, no. 8, pp. 50– 54, , 2021
14. Delay sensitivity classification of cloud gaming content, S. Schmidt, S. S. Sabet, S. Möller, C. Griwodz and, S. Zadtootaghaj, Proceedings of the 12th ACM International Workshop on Immersive Mixed and Virtual Environment Systems, pp. 25–30, , 2020
15. R-fecRl-based fec adjustment for better qoe in webrtc in, I. Lee, D. Grunwald and, S. Sathyanarayana, K. Lee, S. Ha, K. Bin, S. Kim, S. Chong, Proceedings of the 30th ACM International Conference on Multimedia, pp. 2948–2956, , 2022
16. Hierarchical reinforcement learningA comprehensive survey, C. Quek, B. Subagdja, A.-h. Tan and, S. Pateria, ACM Computing Surveys (CSUR), vol. 54, no. 5, pp. 1–35, , 2021
17. Learning in situa randomized experiment in video streaming, K. Winstein, H. Ayers, S. Fouladi, K. Zhang, C. Zhu, F. Y. Yan, P. Levis and, J. Hong, 17th USENIX Symposium on Networked Systems Design and Implementation (NSDI 20), pp. 495–511, , 2020
18. A first look at commercial 5g performance on smartphones in, Z.-L. Zhang, F. Qian and, Q. Liu, J. Carpenter, E. Ramadan, Y. Liu, A. Narayanan, Proceedings of The Web Conference 2020, pp. 894–905, , 2020
19. Deep reinforcement learning for multiobjective optimization, K. Li, R. Wang, T. Zhang and, IEEE transactions on cybernetics, vol. 51, no. 6, pp. 3103–3114, , 2020
20. RllibAbstractions for distributed reinforcement learning in, E. Liang, R. Nishihara, M. Jordan and, J. Gonzalez, R. Liaw, P. Moritz, I. Stoica, R. Fox, K. Goldberg, International Conference on Machine Learning, pp. 3053–3062, PMLR, , 2018
21. CopaPractical delay-based congestion control for the internet, H. Balakrishnan, V. Arun and, NSDI, , 2018
22. Http/2-based adaptive streaming of hevc video over 4g/lte networks, J. Van Der Hooft, T. Wauters, T. Bostoen and, P. R. Alface, F. De Turck, R. Huysegems, S. Petrangeli, vol. 20, no. 11, pp. 2177– 2180, , 2016
23. Machine learning for networkingWorkflow advances and opportunities, J. Jiang, X. Wang, Y. Cui, S. Xiao and, M. Wang, IEEE Network, vol. 32, no. 2, pp. 92– 99, , 2017
24. Automatic curriculum generation for learning adaptation in networking, Yajie Zhou, Francis Y. Yan, Zhengxu Xia, Junchen Jiang, arXiv preprint arXiv: 2202.05940, , 2022
25. Pantheonthe training ground for internet congestion-control research in, J. Ma, P. Levis and, R. S. Wahby, K. Winstein, F. Y. Yan, G. D. Hill, D. Raghavan, USENIX ATC, , 2018
26. Enabling high quality real-time communications with adaptive framerate in, X. Wei, T. Wang, H. Liu, B. Wang, Z. Meng, R. Han, M. Xu, Y. Shen, V. Arun, H. Hu and, USENIX NSDI, 2023, , 2023
27. Onrlimproving mobile video telephony via online reinforcement learning in, J. Lu, H. Ma and, C. Li, X. Chen, R. Ma, X. Zhang, H. Zhang, A. Zhou, Y. Hu, MobiCom, , 2020
28. TackImproving wireless transport performance by taming acknowledgments in, K. Winstein and, T. Xiong, T. Li, K. Zheng, K. Xu, K. Tan, R. A. Jadhav, ACM SIGCOMM, , 2020
29. Commute path bandwidth traces from 3g networksanalysis and applications in, H. Riiser, C. Griwodz and, P. Vigmostad, P. Halvorsen, Proceedings of the 4th ACM Multimedia Systems Conference, pp. 114–118, , 2013
30. TamburEfficient loss recovery for videoconferencing via streaming codes in, K. Rashmi, M. Rudow, G. Ananthanarayanan, F. Y. Yan, M. Ellis and, A. Kumar, 20th USENIX Symposium on Networked Systems Design and Implementation (NSDI 23), 2023, , 2023
31. A deep reinforcement learning perspective on internet congestion control in, M. Schapira and, N. Jay, B. Godfrey, A. Tamar, N. Rotman, International Conference on Machine Learning, pp. 3050–3059, PMLR, , 2019
32. Virtual reality conferencingMulti-user immersive vr experiences on the web in, M. J. Prins, O. A. Niamut, H. M. Stokking, N. van der Stap, S. N. Gunkel, F. B. t. Haar and, Proceedings of the 9th ACM Multimedia Systems Conference, pp. 498– 501, , 2018
33. Policy gradient methods for reinforcement learning with function approximation, S. Singh and, Y. Mansour, D. McAllester, R. S. Sutton, Advances in neural information processing systems, vol. 12, , 1999
34. Ns-3 meets openai gymThe playground for machine learning in networking research, A. Zubow, P. Gawłowicz and, in Proceedings of the 22nd International ACM Conference on Modeling, Analysis and Simulation of Wireless and Mobile Systems, pp. 113–120, , 2019
35. Ahybrid receiver-side congestion control scheme for web real-time communication in, S. Qian, Y. Xie, Y. Zhang, B. Wang, Z. Pan and, ACM MMSys, , 2021
36. ArsenalUnderstanding learningbased wireless video transport via in-depth evaluation, H. Ma, R. Ma, J. Lu and, H. Zhang, A. Zhou, IEEE Transactions on Vehicular Technology, vol. 70, no. 10, pp. 10832–10844, , 2021
37. Watching videos together in social virtual realityAn experimental study on users qoe in, P. Cesar, S. N. Gunkel and, J. Li, H. G. Debarba, F. De Simone, A. El Ali, 2019 IEEE Conference on Virtual Reality and 3D User Interfaces (VR), pp. 890–891, IEEE, , 2019
38. Learning to coordinate video codec with transport protocol for mobile video telephony in, L. Wu, G. Su, Z. Meng, A. Zhou, R. Ma, H. Ma and, X. Xie, X. Chen, H. Zhang, X. Zhang, MobiCom, , 2019
39. Analysis and design of the google congestion control for web real-time communication (webrtc) in, G. Carlucci, L. De Cicco, S. Holmer and, S. Mascolo, Proceedings of the 7th International Conference on Multimedia Systems, pp. 1–12, , 2016
40. DnsmosA non-intrusive perceptual objective speech quality metric to evaluate noise suppressors in, R. Cutler, V. Gopal and, C. K. Reddy, ICASSP 2021- 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 6493–6497, IEEE, , 2021
41. Social network-based distancing strategies to flatten the covid-19 curve in a post-lockdown world, J. B. Dowd, P. Block, M. Hoffman, R. Kashyap and, I. J. Raabe, C. Rahal, M. C. Mills, vol. 4, no. 6, pp. 588–596, , 2020
42. Reinforcement learning for bandwidth estimation and congestion control in real-time communications, A. Sadovnikov, S. Liu, P. Cheng, B. Li, Z. Liu, J. Fang, M. Revow, S. Ashok et al., M. Ellis, Y. Hosseinkashi, arXiv preprint arXiv: 1912.02222, , 2019
43. Bridging the gap between {QoE} and {QoS} in congestion controlA large-scale mobile web service perspective in, Z. Hou, Z. Yang et al., Y. Zhang, X. Li, E. Dong, M. Xu, J. Zhang, S. Ren, Y. Zhang, Z. Meng, 2023 USENIX Annual Technical Conference (USENIX ATC 23), pp. 553–569, 2023., , 2023
44. Lokiimproving long tail performance of learning-based real-time video adaptation by fusing rule-based models in, A. Zhou, C. Wu, A. Chen and, L. Wu, G. Wang, X. Zhang, H. Ma, C. Li, Y. Hu, H. Zhang, MobiCom, , 2021