基于模型的仿真优化智能回复

ACLMay, 2023

Model-Based Simulation for Optimising Smart Reply

Benjamin Towle, Ke Zhou

TL;DR本文提出一种名为 SimSR 的智能回复方法，通过模拟潜在的用户回复，直接优化 Smart Reply 的预测结果，实现对多样化回复的学习，相比于现有方法，该方法在两个公共数据集上分别提高了 21% 和 18% 的 ROUGE 得分和自对比得分。

Abstract

smart reply (SR) systems present a user with a set of replies, of which one can be selected in place of having to type out a response. To perform well at this task, a system should be able to effectively present the user with a →

smart reply diverse set of options simsr model-based simulation response sets

发现论文，激发创造

用于多语言回复建议的数据集和基准线

该文介绍了 MRS，一个包含十种语言的多语言回复建议数据集，可用于比较选择模型和生成模型的优劣，并公开了基于此数据集的生成和检索模型。

Jun, 2021

智能回复：电子邮件自动回复建议

本文提出并研究了一种新的端到端方法以自动生成短电子邮件回复，称为 “Smart Reply”。它利用先进的大型深度学习生成语义多元化的建议来作为电子邮件的完整响应，并在 Inbox 邮箱中使用，协助 10％的所有移动响应。该系统具有处理每天数亿条消息的能力，利用了最先进的大规模深度学习技术，同时解决了响应多样性和可扩展性等问题，并引入了一种仅需要少量明确标记的数据进行语义聚类的新方法。

Jun, 2016

Sim2Rec: 基于模拟器的决策方法，优化顺序推荐系统中实际长期用户参与度

本篇研究利用仿真器训练上下文感知策略来处理 Long-term user engagement 优化中的现实间隙问题，该策略能够在模拟器和真实环境中学习和识别用户行为模式，并在不同环境下作出最佳决策，实验结果表明 Sim2Rec 模型在模拟环境和真实环境中均可以有效推荐。

May, 2023

神经响应生成模型为什么更倾向于使用通用回复？

该研究分析了基于序列到序列学习的生成回复任务的神经模型容易产生短而通用回复的问题，并通过分解黑匣子，详细分析了概率极限问题并提出了最大间隔排名正则化方法来避免模型偏向于这些回复，并通过实证实验验证了该方法的有效性。

Aug, 2018

SMRT Chatbots：利用模拟多重参考训练改进非任务导向式对话

应用模拟多参考训练方法（SMRT），使用改写工具模拟多个响应以提高对话模型的质量和语言多样性。结果表明，SMRT 对人类和自动质量评分以及语言多样性均有所改善，相较于预训练，在人工评估质量方面相当，但在自动质量和语言多样性方面领先，并且无需相关领域的对话数据。

Nov, 2020

智能回复系统的端到端自回归检索方法

我们提出了一种全新的自回归文本到文本检索模型，通过从引导中获取的一系列（消息，回复集合）对的数据集来端到端地学习智能回复任务，实证结果表明该方法在相关性上始终优于一系列最先进的基线方法，分别对应于改进了 5.1% 至 17.9%，在多样性方面也改善了 0.5% 至 63.1%，我们公开了代码。

Oct, 2023

生成短文本对话的多个不同响应

该研究提出了一种新型的响应生成模型，使用一种强化学习算法以考虑一个响应集合，同时生成多个不同的响应，实验证明相比各种最先进的生成模型，我们模型生成的多个响应具有更高的质量和更大的多样性。

Nov, 2018

智能回复的高效自然语言响应建议

本文提出了一种计算效率高的机器学习方法来进行自然语言响应建议，使用 n-gram 嵌入特征的前馈神经网络将消息编码为向量进行优化，在大规模商业电子邮件应用程序中得出了响应建议。与序列到序列方法相比，新的系统以较小的计算要求和延迟时间实现了相同的质量。

May, 2017

开放域对话响应选择的系统评估

本研究对开源聊天机器人的多种回复生成方法进行了系统评估，提出了利用手动注释筛选出的多个正向回复和负向回复，从而提高模型效果的新训练数据，并实验证明性能较之采用对抗训练数据有更显著提升。

Aug, 2022

通过用户模拟评估对话式推荐系统

本文提出一种通过用户模拟来替代人类评估的方法，以实现对话推荐系统的自动评估。作者表明，通过考虑用户的个人喜好和与系统的一般交互流程，偏好建模和特定任务交互模型都有助于实现高度自动化的绩效评估结果和人工人工评估的高度相关性。

Jun, 2020