文本到数据：以文本控制为主的低资源数据生成

Feb, 2024

文本到数据：以文本控制为主的低资源数据生成

Text2Data: Low-Resource Data Generation with Textual Control

Shiyu Wang, Yihao Feng, Tian Lan, Ning Yu, Yu Bai...

TL;DR通过无标注数据进行无监督扩散建模的 Text2Data 方法在低资源环境中能够实现跨多种模态的可控性，并具备比现有基线模型更好的性能。

Abstract

natural language serves as a common and straightforward control signal for humans to interact seamlessly with machines. Recognizing the importance of this interface, the machine learning community is investing co

natural language machine learning text-to-data generation low-resource controllability

发现论文，激发创造

智能人工代理数据增强的可控文本生成

通过文本生成技术，使用编码器 - 解码器生成模型来增加受训人工智能代理的训练数据，从而实现更快地开发新功能。该方法需要直接优化，适用于有限的数据，并明显优于以往的受控文本生成技术。此外，生成的数据用作外在意图分类任务的附加训练样本，增强了低资源情况下高达 5％绝对 f-score 性能的表现，证实了该方法的实用性。

Oct, 2019

基于 LM 的文本增强的神经数据到文本生成

通过少量文本样本的文本增强和使用循环一致性作为目标实现弱监督训练范式在数据到文本生成中的有效性。

Feb, 2021

使用扩散模型进行受控训练数据生成

这项研究提出了一种利用反馈机制来控制文本到图像生成模型，以生成对监督学习特别有用的训练数据的方法，并且通过引入指导目标分布的反馈机制，演示了该方法在不同任务、数据集和架构上相对于开环方法的有效性。

Mar, 2024

TTIDA: 通过文本转文本和文本转图像模型进行可控生成数据增强

本文提出了 TTIDA（Text-to-Text-to-Image 数据增强）方法，利用大型预训练的 T2T 和 T2I 生成模型来进行数据增强。通过在 T2T 模型的细节描述下对 T2I 模型进行条件控制，我们能够以灵活和可控的方式生成逼真的标记图像。对于领域内分类、跨领域分类和图像字幕任务的实验表明，与其他数据增强基线相比，TTIDA 表现一致地表现出了优越的性能和增强韧性。分析研究进一步证明了 TTIDA 增强性能和提高鲁棒性的有效性。

Apr, 2023

多源学习用于数据生成文本和文本生成数据

本研究论文介绍了一种利用多个非同源语料库进行数据到文本和文本到数据转换的方法，通过引入具有分离风格和内容变量的 VAE 模型来解决单一来源语料库限制的问题，实现了相同甚至更好性能的数据转换。

Feb, 2023

循环训练实现低资源数据文本生成

本文提出了一种基于无监督学习的方法 —— 循环训练，用于改善从结构化数据向自然语言文本的转化问题，在四个数据集中，这种方法表现得像完全监督方法一样出色，通过自动评价和人工评估表明，循环训练策略的不同对于降低文本生成错误类型的有效性也不同。

May, 2023

电子商务领域的风格化数据生成案例研究

提出了一个新的任务 —— 风格化数据到文本生成，旨在根据特定的风格为给定的非语言数据生成连贯的文本。为应对逻辑、风格和偏差等三个挑战，我们提出了一个名为 StyleD2T 的新型模型，包括三个组件：逻辑规划增强数据嵌入、基于掩码的风格嵌入和无偏向的风格化文本生成。

May, 2023

低资源神经机器翻译的数据增强

本研究提出了一种以数据增强为基础的方法，针对低频词汇在合成的新语境中生成新的句子对，以提高神经机器翻译系统的翻译质量。在模拟低资源环境中的实验结果显示，相对于基准和回译方法，我们的方法能够提高翻译质量，最高可提高 2.9 BLEU 分数。

May, 2017

基于文本的可控人类图像生成

本文提出一种名为 Text2Human 的控制性框架，用于基于文本的生成高质量和多样化的人类图像。在此框架下，我们建立了一个分层的纹理感知码书，以存储不同类型纹理的多尺度神经表征，并使用混合专家的扩散变换采样器采样码书中的索引。通过使用细粒度文本输入，生成的图像具有更高的质量和更多的多样性，拥有比现有方法更好的性能。

May, 2022

用于监督文本分析的合成文本

本文介绍了受控产生合成文本的方法，以解决政治科学家在使用受监督文本模型方面面临的挑战。作者用三个应用程序证明了合成文本的实用性，包括生成描述乌克兰战斗的虚拟推文，为训练事件检测系统的合成新闻文章，以及训练句子级民粹主义分类器的多语言语料库。

Mar, 2023