任务导向的强化学习查询重构
本文介绍了一种称为 Active Question Answering 的基于强化学习的问题回答方法,通过探究黑盒 QA 系统并最大化回答质量来重新构筑问题,该方法在 Jeopardy! 等复杂问题数据集上表现出比其他基准模型更好的性能,并发现了与信息检索技术类似的策略。
May, 2017
利用强化学习技术的深度学习模型预测用户下一个搜索词并依据长期会话反馈、语法相关性以及生成查询的自然度等奖励信号对高质量且多样化的相关搜索查询进行推荐。相对于基线监督模型,我们提出的方法在推荐的多样性、用户参与度和每个句子重复词的数量方面都有显著的相对改进(3%、4.2%和 82%)。
Aug, 2021
通过使用深度强化学习模型,本研究提出了一个自动生成措辞的查询改写模型。在模型中结合了查询性能预测方法以产生高效的查询。并且针对信息检索的情境下,运用了信息检索排名模型训练,并在 TREC 2020 Deep Learning track MSMARCO 文献排名数据集上进行实验。结果表明,与各种基线模型相比,本研究的模型性能得到了较大提高。
Jul, 2020
通过使用基于策略的 RL 算法和 Query-reformulating text-to-text transformer (QRT5),重新定向查询并针对问题回答生成奖励获取的查询轨迹,从而使得下游中产生更好的答案,并通过不同的下游环境获取奖励信号 (例如意向分类)。
Dec, 2020
本研究提出了一种基于强化学习的翻译模型框架,该模型以关键字为基础,能够理解使用自然语言表示的信息需求,并通过注入相关反馈,采用单词选择方法来克服缺乏大规模数据集的问题。实验表明,该方法在两个 TREC 数据集上的有效性得到了证明。
Aug, 2018
用检索式方法通过神经网络编码,选择性、高效地与 oracle 进行交互,并使用 oracle 的答案更新 agent 的策略和值函数,从而在强化学习任务中大幅提高效率。
Sep, 2023
本文研究了在训练数据稀缺的情况下,通过获取和整合外部证据来提高信息提取系统的准确性的任务,并利用增强学习框架实现优化操作以提高精度的深度 Q 网络,在枪击事件和食品欺诈案件等两个数据库中实现了显著的性能提升。
Mar, 2016
本文提出了一种使用强化学习方法进行关键词生成的技术,利用自适应的奖励函数鼓励模型生成足够且准确的关键词,并引入了一种新的评估方法,该方法使用维基百科知识库来确保更加鲁棒的关键词质量评估。该方法在不同规模的五个真实世界数据集上实现了显著的性能提升,从而验证了其优越性。
Jun, 2019
本研究提出了一种基于强化学习的模型 CONQUER,能从包含噪声的问题改写中学习如何回答自然语言问题,并在新提出的基准测试集 ConvRef 上展示了显著的性能提升。
May, 2021