通过文本生成技术,使用编码器 - 解码器生成模型来增加受训人工智能代理的训练数据,从而实现更快地开发新功能。该方法需要直接优化,适用于有限的数据,并明显优于以往的受控文本生成技术。此外,生成的数据用作外在意图分类任务的附加训练样本,增强了低资源情况下高达 5%绝对 f-score 性能的表现,证实了该方法的实用性。
Oct, 2019
通过少量文本样本的文本增强和使用循环一致性作为目标实现弱监督训练范式在数据到文本生成中的有效性。
Feb, 2021
这项研究提出了一种利用反馈机制来控制文本到图像生成模型,以生成对监督学习特别有用的训练数据的方法,并且通过引入指导目标分布的反馈机制,演示了该方法在不同任务、数据集和架构上相对于开环方法的有效性。
Mar, 2024
本文提出了 TTIDA(Text-to-Text-to-Image 数据增强)方法,利用大型预训练的 T2T 和 T2I 生成模型来进行数据增强。通过在 T2T 模型的细节描述下对 T2I 模型进行条件控制,我们能够以灵活和可控的方式生成逼真的标记图像。对于领域内分类、跨领域分类和图像字幕任务的实验表明,与其他数据增强基线相比,TTIDA 表现一致地表现出了优越的性能和增强韧性。分析研究进一步证明了 TTIDA 增强性能和提高鲁棒性的有效性。
Apr, 2023
本研究论文介绍了一种利用多个非同源语料库进行数据到文本和文本到数据转换的方法,通过引入具有分离风格和内容变量的 VAE 模型来解决单一来源语料库限制的问题,实现了相同甚至更好性能的数据转换。
Feb, 2023
本文提出了一种基于无监督学习的方法 —— 循环训练,用于改善从结构化数据向自然语言文本的转化问题,在四个数据集中,这种方法表现得像完全监督方法一样出色,通过自动评价和人工评估表明,循环训练策略的不同对于降低文本生成错误类型的有效性也不同。
May, 2023
提出了一个新的任务 —— 风格化数据到文本生成,旨在根据特定的风格为给定的非语言数据生成连贯的文本。为应对逻辑、风格和偏差等三个挑战,我们提出了一个名为 StyleD2T 的新型模型,包括三个组件:逻辑规划增强数据嵌入、基于掩码的风格嵌入和无偏向的风格化文本生成。
本研究提出了一种以数据增强为基础的方法,针对低频词汇在合成的新语境中生成新的句子对,以提高神经机器翻译系统的翻译质量。在模拟低资源环境中的实验结果显示,相对于基准和回译方法,我们的方法能够提高翻译质量,最高可提高 2.9 BLEU 分数。
May, 2017
本文提出一种名为 Text2Human 的控制性框架,用于基于文本的生成高质量和多样化的人类图像。在此框架下,我们建立了一个分层的纹理感知码书,以存储不同类型纹理的多尺度神经表征,并使用混合专家的扩散变换采样器采样码书中的索引。通过使用细粒度文本输入,生成的图像具有更高的质量和更多的多样性,拥有比现有方法更好的性能。
May, 2022
本文介绍了受控产生合成文本的方法,以解决政治科学家在使用受监督文本模型方面面临的挑战。作者用三个应用程序证明了合成文本的实用性,包括生成描述乌克兰战斗的虚拟推文,为训练事件检测系统的合成新闻文章,以及训练句子级民粹主义分类器的多语言语料库。
Mar, 2023