基于用户反馈的摘录式问答中的赌博学习模拟

ACLMar, 2022

基于用户反馈的摘录式问答中的赌博学习模拟

Simulating Bandit Learning from User Feedback for Extractive Question Answering

Ge Gao, Eunsol Choi, Yoav Artzi

TL;DR研究从用户反馈中学习抽取式问答，通过模拟反馈使用监督数据，并将问题视为情境臂学习。分析减少数据标注的几个学习场景的特征。显示最初训练的系统可通过用户反馈大幅度改进，并且可以使用现有数据集在新领域部署系统，而无需任何标注。

Abstract

We study learning from user feedback for extractive question answering by simulating feedback using supervised data. We cast the problem a

learning user feedback question answering contextual bandit data annotation

发现论文，激发创造

通过人类反馈不断提高抽取式问答

本文研究了通过人类用户反馈不断改进提取问题回答（QA）系统的方法，并设计和部署了一个迭代方法，在多种设置下进行实验以扩大对随时间反馈学习的理解。我们的实验显示，从不同数据环境下的用户反馈中能够有效提高提取 QA 模型，包括适应领域的潜力。

May, 2023

基于实时反馈的指令跟随持续学习

通过人机协作交互提供的实时二元反馈，用自然语言训练指令遵从代理的问题被研究。将学习作为一种上下文医师问题，将用户反馈转换为立即奖励，证明了其在提高指令执行效果方面具有优势，并且反馈信号与监督式演示数据的学习信号基本等价。

Dec, 2022

联邦多臂赌博算法的实证评估

在联邦学习中，研究通过用户与感兴趣的应用程序交互产生的隐式信号，而非要求访问难以获取的显式标签的情况下，采用联合上下文强化学习框架来开发各种中心化环境下主要上下文强化学习算法的变体，并在公开可用数据集的一系列场景中仔细评估这些算法。我们的实验显示，简单且常用的 softmax 启发式方法可以在多种设置下平衡已知的探索和开发之间的权衡。

Mar, 2023

通过人类赌徒反事实学习改进神经语义解析器

本篇论文研究了如何通过历史系统中用户反馈数据来提高目标系统的性能，并介绍了一种将此框架应用于神经语义解析的方法。该方法的挑战在于适当地重新加权评估器，以避免策略学习中已知的退化现象，并仍能适用于随机梯度优化。为了与人类用户进行实验，我们设计了一个易于使用的界面来收集人类对语义解析的反馈。我们的工作是第一个显示从已记录的人类反馈数据中可以通过反事实学习显著提高语义解析器性能的工作。

May, 2018

基于强化学习的神经机器翻译波段信道模型仿真人反馈

本文提出了一种使用虚拟的人类反馈数据，通过强化学习算法，结合基于注意力机制的神经编码解码架构，优化神经机器翻译系统的方法。该算法适用于大动作空间和延迟回报的问题，并能有效优化传统机器翻译测量指标。

Jul, 2017

大规模会话型 AI 代理的基于反馈的自学习

本研究提出了一种自学习系统，使用用户 - 系统交互反馈信号自动纠正对话式人工智能系统中出现的各种组件错误，并通过吸收马尔可夫链模型挖掘这些反馈信号中的共同模式，进行可扩展的改进，实现了大规模对话式人工智能系统的自主学习，能显著降低过多次错误和缺陷。

Nov, 2019

神经机器翻译能否通过用户反馈进行改进？

本研究在 ebay 电商平台上，使用了人类增强的方法来改进神经机器翻译 (NMT)，并通过通过跨语言搜索任务收集的隐式任务反馈，提高了翻译质量和任务效率。

Apr, 2018

基于用户反馈日志的多轮对话策略学习

本文提出了一种基于 BanditMatch 的多动作对话策略学习方法，通过利用显式和隐式的转折用户反馈来提高策略学习效果，该方法综合了半监督学习和万能学习的混合目标。

Feb, 2023

使用反馈加权学习改进部署后的对话问答系统

本研究提出了一种基于重要性抽样的反馈加权学习方法，利用二进制的用户反馈来改进最初的监督系统。作者在文档分类和对话问答数据集上进行模拟实验，并利用用户提供的二进制反馈来验证方法的有效性和可行性。实验结果表明，反馈加权学习可以显著地提升监督系统的性能，并且具有潜在的应用前景。

Nov, 2020

基于核函数的离线上下文对抗波动策略

在这项研究中，我们利用代理人能够选择获取人工反馈的上下文的事实，引入了离线情境对决贝叶斯臂设置，提出了一种基于上置信界的算法，并证明了一种遗憾上界。实验证实了该方法胜过使用均匀采样上下文的类似策略。

Jul, 2023