神经对话模型中的在线响应选择定制非线性赌博机

AAAINov, 2017

神经对话模型中的在线响应选择定制非线性赌博机

Customized Nonlinear Bandits for Online Response Selection in Neural Conversation Models

Bing Liu, Tong Yu, Ian Lane, Ole J. Mengshoel

TL;DR本文提出了一种基于分布式文本表示的上下文多臂老虎机模型和定制的 Thompson 采样方法，用于在线学习检索式对话系统的响应选择，实验结果表明相较于传统的线性上下文多臂老虎机方法，该方法在 Ubuntu 对话语料库中获得了显著的性能提升。

Abstract

dialog response selection is an important step towards natural response generation in conversational agents. Existing work on neural conversational models mainly focuses on offline supervised learning using a large set of context-response pairs. In this paper, we focus on →

dialog response selection neural conversational models online learning contextual multi-armed bandit model thompson sampling

发现论文，激发创造

线性上下文强化学习模型选择的通用自适应算法

在上下文强化学习中进行模型选择是一项重要的补充问题。本研究提出了一些新的算法，这些算法可以在数据自适应的情况下进行探索，并提供模型选择保证。

Nov, 2021

个性化推荐的神经上下文强化学习

在线商业领域，推荐系统对增强用户体验至关重要。本篇研究论文探讨了基于上下文的强化学习模型 —— 上下文强化学习框架，作为实现个性化推荐的强大工具。我们深入研究了该领域中的挑战、先进算法与理论、协同策略，以及开放性问题和未来前景。与现有相关教程不同，（1）我们专注于上下文强化学习的探索视角，以减轻推荐系统中的 “马太效应”，即物品的热门度导致富者更富、贫者更贫；（2）除了传统的线性上下文强化学习，我们还将专注于神经上下文强化学习，近年来成为重要的分支，从经验和理论两方面探究神经网络如何增进上下文强化学习的个性化推荐；（3）我们将介绍最新的话题 —— 协同神经上下文强化学习，以结合用户异质性和用户相关性，为推荐系统定制；（4）我们将提供和讨论神经上下文强化学习在个性化推荐中的新兴挑战和未解问题，特别是对于大型神经模型。

Dec, 2023

上下文臂选择模型

介绍了在上下文密集应用中的模型选择问题及其解决方案，该方案适用于线性上下文密集应用，并在先验知识下达到了较低的后验概率。

Jun, 2019

用于上下文强化学习问题的神经网络委员会

本文提出了一种新的上下文强化学习算法 NeuralBandit，它不需要对上下文和奖励的稳定性提出假设。该算法使用多个神经网络来建模上下文的价值，并提出了两种基于多专家方法的变体来在线选择多层感知器的参数。该算法在大型数据集上进行了测试，包括奖励稳定和不稳定的情况，并取得了成功的效果。

Sep, 2014

基于核函数的离线上下文对抗波动策略

在这项研究中，我们利用代理人能够选择获取人工反馈的上下文的事实，引入了离线情境对决贝叶斯臂设置，提出了一种基于上置信界的算法，并证明了一种遗憾上界。实验证实了该方法胜过使用均匀采样上下文的类似策略。

Jul, 2023

可扩展的神经上下文 Bandit 算法用于推荐系统

提出一种面向推荐系统的可扩展的高效样本神经上下文强化学习算法，Epistemic Neural Recommendation (ENR)，具有比基线算法更高的点击率和用户评分，并且具有比最佳基线算法少 29% 的用户交互，同时计算资源需求明显较低。

Jun, 2023

开放域对话响应选择的系统评估

本研究对开源聊天机器人的多种回复生成方法进行了系统评估，提出了利用手动注释筛选出的多个正向回复和负向回复，从而提高模型效果的新训练数据，并实验证明性能较之采用对抗训练数据有更显著提升。

Aug, 2022

基于位置模型的多臂赌博反馈排序学习

本文介绍了一种基于多臂老虎机算法和位置点击模型的方法，用于解决线上系统中推荐排名的偏见问题，并在合成和实际数据集的离线和在线 A/B 测试中证明了该算法的有效性。

Apr, 2020

客户支持机器人中的上下文强化学习应用

本文讨论了使用上下文赌博机（CB）的微软虚拟代理的实现情况，包括基于神经 - 线性赌博机（NLB）的意图消岐和基于一组多臂赌博机（MAB）的上下文推荐。我们的解决方案已经落地生产并通过 A/B 测试证实了业务指标的改进，包括问题解决率相对增加了 12％以上，转移到人工操作员的相对减少了 4％以上。

Dec, 2021

基于行动中心的上下文分组赌博机算法

为延伸时间不变线性模型假设限制，我们提出了一种上下文 Bandits 的线性模型扩展，该模型具有基线奖励和处理效应两个部分，并已在移动健康研究中做了实验证明其有效性。

Nov, 2017