使用强化数据增强的对话状态跟踪

AAAIAug, 2019

使用强化数据增强的对话状态跟踪

Dialog State Tracking with Reinforced Data Augmentation

Yichun Yin, Lifeng Shang, Xin Jiang, Xiao Chen, Qun Liu

TL;DR通过引入一种基于强化学习的框架和上下文新手发电机来解决神经对话状态追踪器的训练数据缺乏数量和多样性的问题，通过训练产生更多的高质量数据，极大地提高了神经状态追踪器的效果。

Abstract

neural dialog state trackers are generally limited due to the lack of quantity and diversity of annotated training data. In this paper, we address this difficulty by proposing a reinforcement learning (RL) based

neural dialog state tracker reinforcement learning data augmentation contextual bandit generator

发现论文，激发创造

通过增强数据进行的强化学习

本研究提出了一种名为 Reinforcement Learning with Augmented Data 的加强数据的强化学习算法，将图像数据进行数据增强、使用深度神经网络等算法，提取出了数据效率、推广性等方面的关键特征。实验结果表明，该算法可以在 DeepMind 和 OpenAI Gym 等常见测试用例中优于当前最先进的算法。

Apr, 2020

增强学习的简单噪声环境增强

本文介绍了针对强化学习 (RL) 的数据增强技术，旨在提高 RL 算法在不同环境下的表现效果，包括引入噪声、探索状态空间和改善训练数据的多样性。作者提出了两种新的增强技术，并在三种常用的 RL 算法和五个 MuJoCo 环境中进行实验研究，结果表明增强技术对增加回报有积极作用。

May, 2023

深度强化学习中的自动数据增强以实现泛化能力

本文通过比较三种方法，探究如何寻找适当的数据增强方式，并结合两个新的正则化项，以理论上的方式为某些 actor-critic 算法的数据增广提供支持，最终在 Procgen 基准测试上展示了在相对于标准 RL 算法提高了～40% 的测试性能。我们的代理优于其他针对 RL 中泛化改进的基线。此外，我们还展示了我们的代理学习出更能适应环境变化的策略和表示，包括不保留背景信息的变化。

Jun, 2020

面向任务导向对话系统的语境数据增强

我们开发了一种新型的对话扩充模型，通过完整的对话上下文生成用户的回合，并通过语言模型的新提示设计和输出重新排序，所生成对话可直接用于训练下游对话系统，在常见的基准数据集 MultiWoZ 和 SGD 上，展示了我们的对话扩充模型生成高质量对话并使对话成功率较基准线提高多达 8%。

Oct, 2023

数据增强下的统一状态表示学习

该论文提出了一种使用数据增强进行统一状态表示学习的强化学习通用化方法，可以提高智能体的泛化能力和领域自适应性能在 DeepMind 控制泛化基准测试中的表现，达到了更高的样本效率和 14.3％的领域适应性比最佳基准结果。

Sep, 2022

数据加强：基于强化学习引导的条件生成文本数据增强

本文介绍了一种具有强大且易于部署的文本增强框架 Data Boost，该框架采用强化学习引导有条件的生成形式进行数据增强。研究结果表明，Data Boost 可以提高分类器的性能，特别是在数据稀缺场景下。同时，作者还将 Data Boost 与其他六种文本增强方法进行了比较，研究结果显示，Data Boost 的文本增强质量与原始数据相当。

Dec, 2020

计划、生成、复杂化：通过易到困难的零样本数据增强提高低资源对话状态跟踪

我们提出了 EDZ-DA 框架，利用大型语言模型自动捕捉不同领域之间的关系并生成对话数据，通过增加对话复杂性来增强模型在共指槽跟踪方面的能力，并通过改变槽值排列顺序和解决不完整值生成问题来改善性能，实验结果表明我们的方法优于多个强基线数据增强方法在 MultiWOZ 上。

Jun, 2024

数据操作：通过学习增强和重新加权实现神经对话生成的有效实例学习

本文提出了一种数据操纵框架来通过增强和突显有效的学习样本以及同时减少无效样本的影响来主动重塑数据分布，以优化对话生成模型的训练样本。通过选择性地增加训练样本并为每个实例分配重要性权重来转换训练数据。结果表明，该框架能够改善对话生成性能，符合各种自动评估指标和人类判断。

Apr, 2020

通过保留目标函数的自我训练增强方法提升少样本生成性对话状态追踪

提出了一种新的自学框架，通过伪标签和目的保持扩充来迭代地改进模型，用于少样本生成式对话状态跟踪，增强了 MultiWOZ 2.1 的性能，并提高了无见过值的槽召回率。

Nov, 2022

通过提示进行弱监督的对话理解数据增强

本论文探讨了在缺少数据资源的情况下，利用预先训练好的语言模型进行对话理解中的数据增强的问题，并提出了一种利用弱监督滤波器迭代增强质量的新方法。实验结果表明，在 DailyDialog 和 Facebook 多语言任务导向对话的情感、行为和意图分类任务上使用少量数据作为辅助训练集，可以达到或超过现有的最佳性能。

Oct, 2022