基于深度强化学习的交互式语音内容检索
基于交互反馈进行交互式搜索可以显著提高搜索准确性,而现有最先进系统中,强化学习模型主要通过项级反馈进行交互,忽略了句子级反馈的细粒度信息。本文提出了一种新的基于深度 Q 学习的方法 DQrank,通过适应自然语言处理方面最先进的 BERT 模型,根据用户参与度选择关键句子并进行更满意的响应。我们还提出了两种机制来更好地探索优化动作。DQrank 进一步利用 DQ 中的经验回放机制来存储反馈句子,以获得更好的初步排名性能。我们在三个搜索数据集上验证了 DQrank 的有效性,结果显示 DQrank 的性能至少比之前的最先进强化学习方法提高了 12%。我们还进行了详细的消融研究,消融结果表明每个模型组件都能高效地提取和累积用户句子级反馈的长期参与效果,该结构为构建具有句子级交互的搜索系统提供了有性能保证的新技术。
Oct, 2023
用检索式方法通过神经网络编码,选择性、高效地与 oracle 进行交互,并使用 oracle 的答案更新 agent 的策略和值函数,从而在强化学习任务中大幅提高效率。
Sep, 2023
介绍了一种新的交互式图像检索方法,该方法允许用户通过自然语言提供反馈,形成了一个基于强化学习的对话系统,用于提高目标图像的排名,该方法在鞋类检索应用中表现出更好的准确性和更有效的检索结果。
May, 2018
利用强化学习技术的深度学习模型预测用户下一个搜索词并依据长期会话反馈、语法相关性以及生成查询的自然度等奖励信号对高质量且多样化的相关搜索查询进行推荐。相对于基线监督模型,我们提出的方法在推荐的多样性、用户参与度和每个句子重复词的数量方面都有显著的相对改进(3%、4.2%和 82%)。
Aug, 2021
本文研究表明,使用大量参数的深度学习模型可用于启用高级神经密集检索系统有效地运行于相对廉价的硬件上,特别适用于云服务中支持大量个性化对话系统以及其各自的文本语料库。
May, 2022
本文探讨了基于文本的游戏控制策略的学习方法。该方法使用深度强化学习框架,联合学习游戏状态表示和行动策略。通过把文本转化为向量,能够更好地捕捉游戏状态的语义表示。实验结果表明,我们提出的方法显著优于传统基于词袋模型的方法。
Jun, 2015
本研究探讨了深度强化学习在文本游戏中的应用,提出了通过引入知觉模块以及使用两阶段训练框架来提高样本效率,从而解决了应用 DRL 的两个主要挑战。实验结果表明,提出的方法显着提高了性能和样本效率,并且对复合错误和数据有限的预训练表现出鲁棒性。
Mar, 2022
本研究利用强化学习技术结合最先进的自然语言理解模型创造了一个实时的对话系统,并在使用谷歌智能助手的实验中,使用众包数据进行训练,显著超越了强化模型,证明其对于自然人对话有较高的开放性和可行性。
Jul, 2022
本研究提出了一个基于深度增强学习的新型推荐框架,称为 DRR,它将推荐视为一种顺序决策过程,并采用 “Actor-Critic” 增强学习方案来模拟用户与推荐系统之间的交互,同时考虑动态适应和长期回报,经过四个真实数据集的广泛实验,证明了 DRR 方法确实优于现有的竞争对手。
Oct, 2018