- 逐步写摘要:逐步归纳总结的初步研究
本文介绍了一种基于步骤式摘要生成的对抗学习模型,该模型通过选择性地处理新文档并参考先前的摘要,生成与上一次摘要相一致的摘要,实现了最新完整摘要的生成。在大规模的步骤式摘要生成数据集上的实验证明了该模型在自动度量和人工评估方面的优越性。
- 神经文本生成的一种令人沮丧的简化解码方法
本文介绍了一种名为 Frustratingly Simple Decoding (FSD) 的超级高效的解码方法,通过构建一个基于先前生成文本的 anti-LM 来惩罚未来生成的文本,实现了神经文本生成的更好效果,且不增加额外的模型参数和计 - 神经文本生成中的动态计划采样与模仿损失
本文介绍了一种基于 Dynamic Scheduled Sampling with Imitation Loss (DySI) 的神经文本生成模型,该模型通过引入模仿损失和动态调度表,解决了常见的曝光偏差问题,在标准机器翻译基准测试数据集上 - KDD神经文本作者身份鉴定与混淆:数据挖掘视角
本文综述了从数据挖掘的角度出发,针对神经文本生成中的作者归属与模糊化问题开展的最近研究,旨在理解传统作者归属与模糊化方法的局限性并探讨新的研究方向,以解决神经文本撰写人的匿名性与隐私问题。
- CoNT: 对比神经文本生成
本文提出了一种新的对比学习框架 CoNT,它从对比示例、对比损失和解码策略三个方面解决了对比学习在生成任务中使用的瓶颈问题,实验结果表明 CoNT 在机器翻译、数据摘要、代码注释生成等十个基准测试中都表现出优异的表现,特别是在摘要生成任务上 - 神经文本生成的最新进展:一项任务无关的调查
本文综述了神经文本生成领域的最新进展和未来方向,包括数据构造、神经框架、训练和推理策略以及评估指标等方面。
- NeuroLogic A * 式解码:带有前瞻启发式的受限文本生成
本研究提出了 NeuroLogic A*esque 算法,结合 A * 算法的启发式估计了将来的成本,实现了在给定复杂约束条件下的语言模型解码,证明其在五个生成任务中的优越性能并创造了新的最先进的性能,特别是在复杂的约束满足任务和少样本或零 - EMNLPTURINGBENCH: 面向神经文本生成时代的图灵测试基准环境
该研究提出了 TuringBench 基准环境,旨在解决神经文本生成方法的 “图灵测试” 问题,它包括 200K 个人工或机器生成的样本数据集,分别涵盖 20 个标签,以及两个基准测试任务和网站排行榜,研究初步实验表明,FAIR_wmt20 - EMNLP基于上下文感知常识知识模型的隐性前提生成
本研究提出通过加入与上下文相关的常识知识来生成恩思庙的隐含前提,比其他基线模型表现更好。
- 新闻文章的受控神经句级改写
本文研究如何通过神经文本生成技术在保持上下文一致性的同时对新闻文章中的句子进行重新构架,我们提出了三种策略以引导训练,包括框架语言预训练、命名实体保留和对抗训练,并通过自动和手工创作的方式进行主题一致性、连贯性和成功的重新构架方面的评估。我 - EMNLPGraphine:针对图形感知的术语定义生成数据集
本文提出一个巨大的术语定义数据集 Graphine 和一个新型的图神经网络和 Transformer 融合的术语生成模型 Graphex,可以加速在生物医学学科中的语言处理,提出了许多如预训练语言模型评估、比较图表示学习方法和预测句子细粒度 - ACL不要字面理解:用于文本生成的编辑不变序列损失
我们提出了一种新的编辑不变序列损失函数(EISL),以便在目标序列被噪声损坏或只有弱监督信号的情况下,给神经文本生成模型带来更好的训练效果,并在机器翻译,无监督文本风格转换和非自回归生成等广泛任务上取得了明显的最好效果。
- ACL无增强数据的文本生成数据增强
该文提出一种没有使用特定映射函数构造数据增强数据的方法来解决文本生成任务中的数据增强问题,该方法可以有效地优化并应用于文本生成任务的流行损失函数,收敛速率得到保证,实验结果证明该方法可以达到甚至超过流行的数据增强方法。
- COLING利用词性导向的 Softmax 和采样技术实现神经文本生成的多样性
本研究提出了一种基于语言标注(part-of-speech)的神经文本生成模型,使用 POS Guided Softmax 和 Sampling 方法显著提高了文本多样性。
- 神经生成的即时注意力调节
本研究通过分析语言模型在句子级别的注意力模式,发现神经退化可能与注意机制对任务特征的学习不足有关。因此,提出了一种称为‘实时注意力调节’的方法,该方法在推理过程中向注意力计算注入学习先验知识,有效地改善了语言模型生成的文本的流畅性、创造性和 - 可控幻觉:从嘈杂数据学习如何生成忠实的输出
本文介绍了在进行神经文本生成时,由于数据量不足,导致模型对于噪声的过度敏感,从而完成了对于 “幻觉” 生成文本的控制,通过该方法对 WikiBio 语料库进行测试,证明了其在人工和自动评估中的高效性。
- EMNLPF^2-Softmax: 通过频率因式分解 Softmax 实现神经文本生成的多样性
提出了两种新方法 F^2-Softmax 和 MefMax 以解决文本生成中标记分布不平衡的问题,实验表明这两种方法在提高生成文本的多样性和质量方面具有优越性。
- ACL智能待办:从电子邮件自动生成待办事项
本文介绍了一个名为 Smart-To-Do 的新应用程序,它通过新建任务和数据集,利用神经文本生成和序列对序列学习的最新进展,从电子邮件中自动生成待办事项,是首个解决此问题的工作。
- ACL论抽象化摘要中的忠实度与客观性
分析了神经文本生成模型在抽象文档摘要生成方面的局限性,并发现这些模型非常容易产生虚假内容。人类评估显示,预训练模型生成的摘要不仅在原始度量标准(即 ROUGE)方面更好,而且在生成忠实和真实摘要方面也更好,文本蕴含度量更好地相关于忠实度,有 - ACLSongNet: 刚性格式控制文本生成
SongNet 是一个基于 Transformer 的自回归语言模型,用于生成音乐歌词、十四行诗、宋词等格式严格的文本,相比于其他模型,在格式、韵律和句子完整性等方面都有较大改进。