multi-armed bandit learning | BriefGPT

关键词multi-armed bandit learning

搜索结果 - 1

ACL基于对决式波段自适应多源试验的抽取式问答
本文研究了基于用户反馈的多源测试时模型适应问题，采用随机决策过程来确定最佳适应模型。讨论了多臂匪类学习和多臂对决匪类学习两个框架，并用一种名为 Co-UCB 的新方法解决了多臂对决匪类学习任务。实验结果表明，Co-UCB 更有效。
PDFa year ago