基于深度强化学习的交互式语音内容检索

MMSep, 2016

基于深度强化学习的交互式语音内容检索

Interactive Spoken Content Retrieval by Deep Reinforcement Learning

Yen-Chen Wu, Tzu-Hsiang Lin, Yang-De Chen, Hung-Yi Lee, Lin-Shan Lee

TL;DR本研究提出一种使用 Deep-Q-Learning 技术进行交互式口语内容检索的机制，相较于基于手工制作状态的检索结果，其得到了显着的提升。

Abstract

user-machine interaction is important for spoken content retrieval. For text content retrieval, the user can easily scan through and select on a list of retrieved item. This is impossible for →

user-machine interaction spoken content retrieval deep-q-learning retrieval results machine actions

发现论文，激发创造

一种基于深度强化学习的句子级交互式搜索方法

基于交互反馈进行交互式搜索可以显著提高搜索准确性，而现有最先进系统中，强化学习模型主要通过项级反馈进行交互，忽略了句子级反馈的细粒度信息。本文提出了一种新的基于深度 Q 学习的方法 DQrank，通过适应自然语言处理方面最先进的 BERT 模型，根据用户参与度选择关键句子并进行更满意的响应。我们还提出了两种机制来更好地探索优化动作。DQrank 进一步利用 DQ 中的经验回放机制来存储反馈句子，以获得更好的初步排名性能。我们在三个搜索数据集上验证了 DQrank 的有效性，结果显示 DQrank 的性能至少比之前的最先进强化学习方法提高了 12%。我们还进行了详细的消融研究，消融结果表明每个模型组件都能高效地提取和累积用户句子级反馈的长期参与效果，该结构为构建具有句子级交互的搜索系统提供了有性能保证的新技术。

Oct, 2023

通过自然语言指导的语义探索提高深度强化学习的效率

用检索式方法通过神经网络编码，选择性、高效地与 oracle 进行交互，并使用 oracle 的答案更新 agent 的策略和值函数，从而在强化学习任务中大幅提高效率。

Sep, 2023

基于对话的交互式图像检索

介绍了一种新的交互式图像检索方法，该方法允许用户通过自然语言提供反馈，形成了一个基于强化学习的对话系统，用于提高目标图像的排名，该方法在鞋类检索应用中表现出更好的准确性和更有效的检索结果。

May, 2018

使用深度强化学习生成高质量的相关搜索查询建议

利用强化学习技术的深度学习模型预测用户下一个搜索词并依据长期会话反馈、语法相关性以及生成查询的自然度等奖励信号对高质量且多样化的相关搜索查询进行推荐。相对于基线监督模型，我们提出的方法在推荐的多样性、用户参与度和每个句子重复词的数量方面都有显著的相对改进（3％、4.2％和 82％）。

Aug, 2021

对话系统中快速轻量级答案文本检索

本文研究表明，使用大量参数的深度学习模型可用于启用高级神经密集检索系统有效地运行于相对廉价的硬件上，特别适用于云服务中支持大量个性化对话系统以及其各自的文本语料库。

May, 2022

交互式视频检索与对话

本研究介绍了一种基于交互对话的视频检索系统，能够帮助用户在包含许多类似的视频中快速准确地找到目标视频，并通过 AVSD 数据集的实验证明了系统的有效性。

May, 2019

使用深度强化学习的基于文本游戏的语言理解

本文探讨了基于文本的游戏控制策略的学习方法。该方法使用深度强化学习框架，联合学习游戏状态表示和行动策略。通过把文本转化为向量，能够更好地捕捉游戏状态的语义表示。实验结果表明，我们提出的方法显著优于传统基于词袋模型的方法。

Jun, 2015

感知世界：针对基于文本游戏的问题引导强化学习

本研究探讨了深度强化学习在文本游戏中的应用，提出了通过引入知觉模块以及使用两阶段训练框架来提高样本效率，从而解决了应用 DRL 的两个主要挑战。实验结果表明，提出的方法显着提高了性能和样本效率，并且对复合错误和数据有限的预训练表现出鲁棒性。

Mar, 2022

使用强化学习进行开放式对话的动态规划

本研究利用强化学习技术结合最先进的自然语言理解模型创造了一个实时的对话系统，并在使用谷歌智能助手的实验中，使用众包数据进行训练，显著超越了强化模型，证明其对于自然人对话有较高的开放性和可行性。

Jul, 2022

基于深度强化学习的显式用户 - 物品交互模型推荐

本研究提出了一个基于深度增强学习的新型推荐框架，称为 DRR，它将推荐视为一种顺序决策过程，并采用 “Actor-Critic” 增强学习方案来模拟用户与推荐系统之间的交互，同时考虑动态适应和长期回报，经过四个真实数据集的广泛实验，证明了 DRR 方法确实优于现有的竞争对手。

Oct, 2018