基于对决式波段自适应多源试验的抽取式问答

ACLJun, 2023

基于对决式波段自适应多源试验的抽取式问答

Multi-Source Test-Time Adaptation as Dueling Bandits for Extractive Question Answering

Hai Ye, Qizhe Xie, Hwee Tou Ng

TL;DR本文研究了基于用户反馈的多源测试时模型适应问题，采用随机决策过程来确定最佳适应模型。讨论了多臂匪类学习和多臂对决匪类学习两个框架，并用一种名为 Co-UCB 的新方法解决了多臂对决匪类学习任务。实验结果表明，Co-UCB 更有效。

Abstract

In this work, we study multi-source test-time model adaptation from user feedback, where K distinct models are established for adaptation. To allow efficient adaptation, we cast the problem as a stochastic decision-making process, aiming to determine the best adapted model after adapta

multi-source test-time model adaptation stochastic decision-making process multi-armed bandit learning multi-armed dueling bandits extractive question answering

发现论文，激发创造

具有相关臂的多路对决自适应波段算法

本文研究具有相关性的多股臂的多对打算法，在推荐系统等领域可以更高效地学习和优化用户的基于偏好的关键特征，使用自对抗算法，结合高斯过程统计方法可以更准确地捕捉相关性，提升算法的效果。

Apr, 2017

基于偏好的 Dueling Bandits 在线学习：综述

本研究调查了基于偏好的多臂赌博机和决斗赌博机的最新研究现状及其解决方法，关注于在序贯决策过程中进行的数据反馈和学习，并且考虑了强度信息不可用的情况。

Jul, 2018

多路对决棍手算法及其在在线排序器评估中的应用

提出了一种新的 dueling bandits 模型来解决在线排名器评估中的探索 - 开发权衡问题，该模型使用对于无限数量的排名器的同时比较。实验结果表明，该算法与现有的最先进的 dueling bandit 算法相比，表现出了数量级的性能提升。

Aug, 2016

多臂赌博机中的分布式合作决策

我们研究了在分布式协同决策中探索和利用的权衡在多臂赌博机问题的背景下。对于分布式协同 MAB 问题，我们设计了合作 UCB 算法，该算法包括两个交错的分布式过程:（i）运行共识算法来估计回报，以及（ii）基于上置信区间的启发式选择臂。我们进行了严格的合作 UCB 算法性能分析，并描述了通信图结构对群体决策性能的影响。

Dec, 2015

低成本在线决策：一种组合多臂赌博机方法

本文基于组合多臂赌博机，考虑了测试成本，提供了一种新的成本高效的在线决策框架，并通过后验抽样或 BayesUCB 进行探索。我们对该框架进行了严格的理论分析，并提供了多个实验结果，证明了它在实际问题中的适用性。

Aug, 2023

基于用户反馈的摘录式问答中的赌博学习模拟

研究从用户反馈中学习抽取式问答，通过模拟反馈使用监督数据，并将问题视为情境臂学习。分析减少数据标注的几个学习场景的特征。显示最初训练的系统可通过用户反馈大幅度改进，并且可以使用现有数据集在新领域部署系统，而无需任何标注。

Mar, 2022

智能教学系统的多臂赌博机

本文介绍了一种智能辅导系统的方法，该系统根据学生特定的时间和动机资源，自适应地个性化地最大化学习活动序列，以提高学生的技能，利用了内在动机学习的最新模型，并运用多臂老虎机技术进行优化，同时基于专家知识来加速探索初始启动

Oct, 2013

广义高斯多臂赌博机中的人类决策建模

本文提出了一个形式化的模型，该模型可以最大化人类决策过程在多臂赌博问题中的表现，并使用贝叶斯推理估算回报值，得出了对多臂赌博问题的标准解决方案，以及在图中的解决方案，其中开发了 UCL 算法，它实现了对数累积期望遗憾并表现出良好的性能。

Jul, 2013

级联模型中的排序学习

本文介绍了一种名为级联赌博的学习算法，用于在搜索引擎结果中识别出最有吸引力的 $K$ 个页面。研究将问题表述为随机组合式部分监控问题，并提出了两种算法，CascadeUCB1 和 CascadeKL-UCB，在实验中表现良好。

Feb, 2015

将对决强盗问题简化为基本强盗问题

提出了减少德杰斯特拉竞标者问题 (Dueling Bandits) 到传统 (随机) 多臂赌博机问题 (Multi-Armed Bandits) 的算法，我们的算法有着广泛的应用性以及在有限和无限的情况下证明了较优的回报上限。

May, 2014