ACLJun, 2023

基于对决式波段自适应多源试验的抽取式问答

TL;DR本文研究了基于用户反馈的多源测试时模型适应问题,采用随机决策过程来确定最佳适应模型。讨论了多臂匪类学习和多臂对决匪类学习两个框架,并用一种名为 Co-UCB 的新方法解决了多臂对决匪类学习任务。实验结果表明,Co-UCB 更有效。