神经响应生成的反事实离线训练

Apr, 2020

Counterfactual Off-Policy Training for Neural Response Generation

Qingfu Zhu, Weinan Zhang, Ting Liu, William Yang Wang

TL;DR本文提出采用反事实推理来探索潜在回应，并在 DailyDialog 数据集上实验证明在仿真产生回应时更优，训练反事实回应可以帮助探索潜在回应空间的高奖励区域。

Abstract

open-domain dialogue generation suffers from the data insufficiency problem due to the vast size of potential responses. In this paper, we propose to explore potential responses by →

open-domain dialogue generation data insufficiency counterfactual reasoning adversarial learning dailydialog dataset

发现论文，激发创造

基于视角转换的反事实数据增强方法在开放域对话中的应用

本文提出了一种数据增强方法以及筛选技术来增加开放域对话系统数据集中不同语义的高质量回复，通过对事实的推理来推断出具有不同语义的回复，并过滤掉有害的增强回复，实验结果表明，该方法可以在多个下游任务中胜过竞争基线。

Oct, 2022

神经逆向生成：更为丰富的数据增强方法

本文提出了 NeuroCounterfactuals 方法，通过松散的对比事实产生更大规模的编辑，从而使得生成的文本包含语言多样性，同时与原始文档相似，使得训练数据增强在情感分类方面取得了良好的效果。

Oct, 2022

借助因果推理增强语言理解

本研究提出了反事实推理模型，在学习少量反事实样本的基础上，通过生成对于每个正面事实样本的代表性反事实样本，并使用回顾模块根据对比反事实和正事实样本来检查模型预测，从而模拟对于困难测试样本的人类反事实思维。该方法在情感分析和自然语言推理方面的广泛实验验证了其有效性。

Jun, 2021

检索引导的问答反事实生成

本研究旨在探索如何创建关于领域知识、语义多样性和可回答性等方面的反事实数据来改善深度学习模型的鲁棒性，其中使用的技术包括数据增强，以及 “Retrieve-Generate-Filter” 模型。实验表明，使用该技术能够有效提高模型对于本地扰动的鲁棒性和在阅读理解和开放领域问答中的性能。

Oct, 2021

在开放域对话系统中使用反向推理来提高响应质量

本文提出一种双向推理的生成模型，通过向基础的编码解码模型添加后向推理步骤，推动模型产生更多信息丰富、连贯的回复，实现了双向优化，最终提升了响应质量，成为当前响应质量最好的方法之一。

Apr, 2021

生成对抗性负面回复以提升响应排名与评估的鲁棒性

发展神经对话模型需要超越 “内容相似性”，本文提出用对抗性负面样本提高模型的实用性。实验表明，我们的方法在多个数据集上均表现优异。

Jun, 2021

反事实故事推理和生成

本文提出了一种反事实的故事重写模型，用于通过改变故事的最小部分，使其与另一事件相容，并介绍了一种新的可用于评估该模型的数据集 TimeTravel。

Sep, 2019

离线强化学习的预算对比实验

本文提出了一种采用动态规划和固定点求解的方法，用以控制训练中的数据采样分布并改善数据利用效率，在 D4RL 数据集上表现优于其他已有方法的离线强化学习培训方式。

Jul, 2023

GANterfactual-RL: 通过视觉反事实解释理解强化学习智能体的策略

本论文提出了一种新颖而简单的方法，将问题形式化为域转移问题，使用 StarGAN 等对抗性学习技术来生成 RL 代理的反事实解释，证明该方法在分析不同代理机器人的学习策略时表现最佳。

Feb, 2023

探究自动生成的反事实数据在情感分析中的有效性

提出了一种自动产生对立数据的方法，基于此数据增广训练集可以有效提高 NLP 模型的性能。

Jun, 2021