神经对话模型中的在线响应选择定制非线性赌博机
在上下文强化学习中进行模型选择是一项重要的补充问题。本研究提出了一些新的算法,这些算法可以在数据自适应的情况下进行探索,并提供模型选择保证。
Nov, 2021
在线商业领域,推荐系统对增强用户体验至关重要。本篇研究论文探讨了基于上下文的强化学习模型 —— 上下文强化学习框架,作为实现个性化推荐的强大工具。我们深入研究了该领域中的挑战、先进算法与理论、协同策略,以及开放性问题和未来前景。与现有相关教程不同,(1)我们专注于上下文强化学习的探索视角,以减轻推荐系统中的 “马太效应”,即物品的热门度导致富者更富、贫者更贫;(2)除了传统的线性上下文强化学习,我们还将专注于神经上下文强化学习,近年来成为重要的分支,从经验和理论两方面探究神经网络如何增进上下文强化学习的个性化推荐;(3)我们将介绍最新的话题 —— 协同神经上下文强化学习,以结合用户异质性和用户相关性,为推荐系统定制;(4)我们将提供和讨论神经上下文强化学习在个性化推荐中的新兴挑战和未解问题,特别是对于大型神经模型。
Dec, 2023
本文提出了一种新的上下文强化学习算法 NeuralBandit,它不需要对上下文和奖励的稳定性提出假设。该算法使用多个神经网络来建模上下文的价值,并提出了两种基于多专家方法的变体来在线选择多层感知器的参数。该算法在大型数据集上进行了测试,包括奖励稳定和不稳定的情况,并取得了成功的效果。
Sep, 2014
在这项研究中,我们利用代理人能够选择获取人工反馈的上下文的事实,引入了离线情境对决贝叶斯臂设置,提出了一种基于上置信界的算法,并证明了一种遗憾上界。实验证实了该方法胜过使用均匀采样上下文的类似策略。
Jul, 2023
提出一种面向推荐系统的可扩展的高效样本神经上下文强化学习算法,Epistemic Neural Recommendation (ENR), 具有比基线算法更高的点击率和用户评分,并且具有比最佳基线算法少 29% 的用户交互,同时计算资源需求明显较低。
Jun, 2023
本研究对开源聊天机器人的多种回复生成方法进行了系统评估,提出了利用手动注释筛选出的多个正向回复和负向回复,从而提高模型效果的新训练数据,并实验证明性能较之采用对抗训练数据有更显著提升。
Aug, 2022
本文介绍了一种基于多臂老虎机算法和位置点击模型的方法,用于解决线上系统中推荐排名的偏见问题,并在合成和实际数据集的离线和在线 A/B 测试中证明了该算法的有效性。
Apr, 2020
本文讨论了使用上下文赌博机(CB)的微软虚拟代理的实现情况,包括基于神经 - 线性赌博机(NLB)的意图消岐和基于一组多臂赌博机(MAB)的上下文推荐。我们的解决方案已经落地生产并通过 A/B 测试证实了业务指标的改进,包括问题解决率相对增加了 12%以上,转移到人工操作员的相对减少了 4%以上。
Dec, 2021
为延伸时间不变线性模型假设限制,我们提出了一种上下文 Bandits 的线性模型扩展,该模型具有基线奖励和处理效应两个部分,并已在移动健康研究中做了实验证明其有效性。
Nov, 2017