讲座报告主题:非均匀环境下的强化学习
专家姓名:史成春
日期:2023-09-18 时间:09:00
地点:数科院206
主办单位:数学科学学院
主讲简介:Chengchun Shi is an Associate Professor at London School of Economics and Political Science. He is serving as the associate editors of JRSSB, JASA (T&M) and Journal of Nonparametric Statistics. His research focuses on developing statistical learning methods in reinforcement learning, with applications to healthcare, ridesharing, video-sharing and neuroimaging. He was the recipient of the Royal Statistical Society Research Prize in 2021. He also received the IMS travel awards in three years.研究专长:强化学习,统计推断。
主讲内容简介:本文考虑在可能的非平稳环境中进行离线强化学习(RL)方法。文献中许多现有的RL算法依赖于平稳性假设,该假设要求系统转换和奖励函数在时间上保持恒定。然而,实际情况下,平稳性假设是有限制性的,并且在许多应用中很可能被违反,包括交通信号控制、机器人技术和移动健康等领域。在本文中,我们基于预先收集的历史数据,提出了一种一致的过程来测试最优策略的非平稳性,而无需额外的在线数据收集。基于提出的测试,我们进一步开发了一种顺序变点检测方法,可以与现有的最先进RL方法自然地结合,用于在非平稳环境中进行策略优化。我们的方法的有用性通过理论结果、仿真研究和来自2018年实习生健康研究的真实数据示例进行了说明。提出的方法的Python实现可在https://github.com/limengbinggz/CUSUM-RL ↗ 上找到。
欢迎师生参加!