SIGIRJun, 2020

交互式信息检索中的强化学习训练经验平衡

TL;DR本论文利用领域随机化方法针对强化学习与交互式信息检索技术之间的样本低效性问题,提高其学习效率并在 TREC Dynamic Domain (DD) 2017 跑道实验中,有效地提高 RL 智能体在处理未见过情况时的效能 22%。