硕士生路笳艺和韩帅在人工智能领域取得研究进展

发布日期：2022-07-01 发布人：点击量：

计算机科学与技术学院吕帅副教授等人的论文“Sampling Diversity Driven Exploration with State Difference Guidance”（状态差异指导、采样多样性驱动的探索）被人工智能领域重要国际期刊Expert Systems with Applications（中科院1区）录用。论文第一作者为吕帅副教授指导的2019级硕士生路笳艺，其他作者为2018级硕士生韩帅、2020级硕士生康勐、2020级硕士生张峻伟，通讯作者为吕帅副教授。

探索是深度强化学习的关键，尤其是在带有稀疏奖励或欺骗性奖励的环境中。基于内在奖励的探索可以应对这些环境，但是现有方法很少同时考虑全局交互动态和局部环境变化。本文提出了一种用于离策略学习的内在奖励，不仅从全局视角鼓励智能体执行尚未被完全学习的动作，还从局部视角指导智能体触发显著的环境变化。本文还提出了将内在奖励与外在奖励相结合的双行动者-双评论家（double-actors-double-critics）框架，该框架可应用于基于行动者-评论家方法的离策略学习算法。在MuJoCo基准环境中对本文方法进行了全面评估，同时对内在奖励进行了充分的消融实验和量化分析。实验结果表明：本文方法可以在带有密集奖励、稀疏奖励和欺骗性奖励的环境中进行有效的探索，同时也验证了双行动者-双评论家框架的优越性和合理性。

计算机科学与技术学院吕帅副教授等人的论文“NROWAN-DQN: A Stable Noisy Network with Noise Reduction and Online Weight Adjustment for Exploration”（NROWAN-DQN：利用降噪和在线权重调整得到稳定的用于探索的噪声网络）被人工智能领域重要国际期刊Expert Systems with Applications（中科院1区）录用。论文第一作者为吕帅副教授指导的2018级硕士生韩帅，其他作者为2017级博士生周文博、2019级硕士生路笳艺、2018级硕士生刘京，通讯作者为吕帅副教授。

深度强化学习的应用越来越广泛，尤其是在各种复杂的控制任务中。噪声对强化学习的探索至关重要，合适的噪声不仅可以避免由于缺乏探索而导致的局部最优解，还可以防止过度扰动导致的学习不稳定。噪声网络可以为强化学习带来更有效的探索，使智能体可以在训练开始时更随机地选取动作，在随后的学习过程中产生稳定的输出。然而，这种趋势也不意味着总能为智能体找到稳定的策略，反而降低了效率和稳定性。为了解决上述问题，本文提出了NROWAN-DQN，即兼具降噪和在线权重调整的NoisyNet-DQN。本文为NoisyNet-DQN设计了新的噪声正则化方法，以降低输出层的噪声，设计了一种在线权重调整策略。在四个标准测试域中对算法进行了评估，并分析了超参数的性质。实验结果表明：NROWAN-DQN在所有测试域表现优异，同时具有更好的稳定性。NROWAN-DQN的奖励方差显著降低，尤其是在动作敏感的环境中，这意味着在某些需要高稳定性的环境中，NROWAN-DQN比NoisyNet-DQN更合适。

上一篇：我院2018级博士研究生岳恒山获评“第二届CCF优秀大学生学术秀” 下一篇：博士生李家辉和刘玲玲在无线通信和物联网领域取得研究进展