BriefGPT.xyz
Ask
alpha
关键词
multi-armed bandit learning
搜索结果 - 1
ACL
基于对决式波段自适应多源试验的抽取式问答
本文研究了基于用户反馈的多源测试时模型适应问题,采用随机决策过程来确定最佳适应模型。讨论了多臂匪类学习和多臂对决匪类学习两个框架,并用一种名为 Co-UCB 的新方法解决了多臂对决匪类学习任务。实验结果表明,Co-UCB 更有效。
PDF
a year ago
Prev
Next