EN
2022年03月24日研究成果

基于虚拟环境的强化学习离线优化排序模型

刘奕群团队

       在异质化的搜索环境下,构建一个上下文感知的全局排序算法十分必要,清华大学教授、智源研究员刘奕群团队将其建模成一个马尔科夫决策过程,并通过强化学习的算法进行解决,以考虑查询结果之间的交互依赖关系,实现全局排序优化目标。该方法的创新点在于:利用大规模用户检索日志构建虚拟环境“模拟”真实用户,实现离线训练强化学习模型的目标;直接优化在线评价指标,与用户满意度有着更直接的关联,同时对于离线评价指标也有明显提升;强化学习排序框架学习最优排序策略,具有很强的时间迁移性,同时可方便扩展到在线系统。通过离线实验和模拟在线实验,基于虚拟环境的强化学习排序框架在离线评价指标和在线评价指标中均达到最优的排序效果。


图片1yiqun.png

(图片来源:学者提供)


分享到: