文本填充
本文提出一种名为 Infilling by Language Modeling 的文本补全方法,它采用了一个预训练的语言模型来预测文档中的任意位置缺失的文本,并在短篇小说、科学摘要和歌词三种不同领域有效地补全整个句子。研究结果显示,采用这种方法补全的句子很难被人识别为机器生成,适用于辅助写作工具。
May, 2020
本文提出了一个基于 BERT 和 GPT-2 的框架,通过将缺失句子生成任务拆分成三个方面的处理来解决此问题 —— 语义理解,篇章规划和生成,并在实验证明了我们的模型在学习句子表示和生成缺失句子方面的有效性。
Nov, 2019
本文提出了一种基于梯度搜索的迭代推断算法,以解决文本填充任务中现有贪心近似推理算法无法应对上下文条件缺失符号生成的挑战,该算法可广泛应用于任何神经序列生成模型。实验结果表明,该算法在不同遮罩比例和遮罩策略的三个文本填充任务中表现出有效和高效的特性,并且始终优于所有基线模型。
May, 2019
本研究提出了一个融合自动回归解码的填充操作的通用代码生成框架,利用自我填充的特性实现非单调生成,提高对生成序列的控制,促进循环更新和同步,通过大量实验证明了我们提出的解码过程在提高代码生成质量和规则性方面的有效性。
Nov, 2023
通过在数据集中间将文本移动到末尾后,自回归语言模型可以学习填补文本,进行数据增强不会影响原始的生成性能,因此我们建议未来应默认使用填补法来训练自回归语言模型,我们通过对关键超参数的剖析,制定了强有力的默认设置和最佳实践。
Jul, 2022
我们引入了 FIM-SE 方法,通过使用一种基于行级格式的方式避免在推理过程中预测任何子标记,从而解决了字符级填充任务。此外,我们还引入了两个特殊标记来表示其余不完整行,从而增强了生成的指导。大量实验证明了我们提出的方法优于以前的方法,提供了显著的优势。
May, 2024
该论文提出了一种基于两步 Mask 和 Infill 方法的情感转移模型,用于修改句子情感属性,实验表明对于非平行文本,该模型具有良好的性能。
Aug, 2019
该研究提出了一种新的基于 Textual Inversion 的图像合成流程,利用生成的图像填充 real-world 数据不平衡情况,该方法在长尾识别方面取得了最先进的结果。
Jun, 2023
该研究介绍了一种新的方法,该方法利用 LSTM 来结合文本和视觉线索,并在 'Movie Fill-in-the-Blank' 数据集上展示了优越的性能表现,用来解决自动查找缺失单词的任务问题。
Oct, 2016
本文提出了文本扩展(TE)的新任务,旨在插入细粒度修改器到纯文本的适当位置以具象化或使人类写作更生动。通过四种互补方法,我们构建了一份包含 1200 万个自动生成实例和 2000 个人工注释的英文和中文数据集。为了便于自动评估,我们从多个角度设计了各种度量指标,特别是提出了 Info-Gain 来有效度量扩展的信息量,它是 TE 任务中一个重要的质量维度。在基于预训练的文本填充模型的基础上,我们构建了基于流水线和联合定位和填充模型,证明了其在扩展信息量上优于 Text2Text 基线方法。实验证实了 TE 任务的可行性,并指出了未来研究朝着更好的自动文本扩展方向的潜在研究方向。
Sep, 2023