- 利用对比学习建模文本生成的比较逻辑关系
我们提出了一种基于比较逻辑的文本生成方法,通过对比学习来生成具有特定比较逻辑关系的文本,以正确地生成关系。我们构建了一个高质量的人工注释数据集,该数据集具有多个实体的描述和与它们的比较逻辑关系的注释,并进行了广泛的实验,结果在自动评估和人工 - SPOR:数据到文本生成中的组合概括综合评估方法
我们提出了 SPOR 方法,这是一种全面而实用的数据生成评估方法,用于研究语言模型中组合概括的不同表现,并展示了当前语言模型在数据生成方面需要进一步改进的不足之处。
- COLING数字序列提示:市场评论生成的案例研究
通过实验发现,与自然语言和较长的格式(如 HTML 和 LaTeX)相似的提示不太有效,而类似编程语言的提示则能产生更好的结果,为从数值序列生成文本的任务提供了有效的提示创建方法。
- 优质数据到文本生成用于严重资源不足的语言的开箱即用大型语言模型
大型语言模型可以在研究欠资源语言中通过数据到文本生成来弥补性能差距,但人工评估表明 BLEU 分数相比于英语有所下降,对于评估非任务特定系统其适用性存疑。
- 数据到文本自然语言生成的系统性综述
系统综述研究数据到文本生成的现状,包括研究空白、未来方向、挑战以及对应措施,并提供了这个快速发展领域中未来研究的路线图。
- TrICy:触发引导的意图感知注意力副本数据生成
提出了一种名为 TrICy 的轻量级框架,用于基于上下文意图生成文本序列的数据到文本生成任务,结合注意力 - 复制机制和触发器输入,提高了生成文本的质量。同时证明 TrICy 相比于 GPT-3、ChatGPT 和 Llama 2 等大型预 - 数据到文本生成中的自我记忆自我训练
利用自身记忆的自我训练模型在数据到文本生成中引入了一种新颖的训练模型 (STSM),使模型能够在子集上进行自我训练,其中包括直接从训练模型和 / 或新数据推断出的自身记忆作为输出。该模型的自身记忆质量经由数据到文本 (D2T) 模型和文本到 - 超越基于参考度量的方法:分析数据到文本生成领域的开放式 LLM 行为
探究了开放式大型语言模型(LLMs)从结构化数据生成连贯和相关文本的程度,通过使用 Quintd-1 数据集,以及基于语义准确性错误的评估方法,发现开放式 LLMs 可以在零样本情况下从各种标准数据格式生成流畅、一致的文本,但语义准确性仍然 - ACL将结构化数据统一为图形以进行数据到文本预训练
将各种结构化数据(如表格、键值数据、知识图谱)统一为图形格式,并将不同的数据转化为文本生成任务视为图形到文本生成任务。为了有效利用输入图形的结构信息,我们提出了一种结构增强的预训练方法,通过设计一种结构增强的 Transformer 来进行 - 数据到文本生成的组合推广
数据到文本生成涉及将结构化数据转化为连贯的文本描述,本论文提出了一种解决复合概括问题的新模型,通过将谓词聚类成组,在生成文本时逐句依赖于一组谓词,显著优于基线模型 T5 的各种评估指标,尤其在维护对输入的忠实度指标上提升了 31%。
- 面向严重资源匮乏语言的数据生成:GPT-3.5 的协助来自 Google 翻译
我们探讨了语言生成任务中,训练数据严重不足的情况下,GPT 等 LLM 模型如何处理爱尔兰语、马耳他语、威尔士语和布列塔尼语等语言。我们测试了多种提示类型和格式,发现少量样本训练对于直接生成不常见语言较为有效,但通过英语进行翻译后的生成差距 - 统一表示与多源学习实现的少样本数据生成文本
我们提出了一种新颖的结构化数据到文本生成方法,旨在改善多任务训练、零样本和少样本情况下的性能,并提供可以处理各种形式的结构化数据的统一表示,例如表格、知识图谱三元组和意义表示。我们证明了我们提出的方法可以有效适应新的结构化形式,并在性能上优 - 水印条件文本生成的人工智能检测:揭示挑战和语义感知水印解决方案
通过在机器生成的文本中引入水印并利用此信息进行检测,以缓解语言模型潜在风险的方法,以及提出的基于语义感知的水印算法,在保持检测能力的同时,在各种文本生成模型中取得了显著的改进,包括 BART 和 Flan-T5,在摘要生成和数据到文本生成等 - 可再生数据到文本生成:带验证和纠正提示
本文提出了一个多步骤方法,通过引入验证、纠错和生成阶段,超越传统的一次性生成方法,实现了从结构化输入生成文本描述,名为数据到文本生成。我们的方法使用一个验证步骤,将观察结果转换成特殊的错误指示提示,指导模型修复错误并改进输出,通过实验结果展 - ACL循环训练实现低资源数据文本生成
本文提出了一种基于无监督学习的方法 —— 循环训练,用于改善从结构化数据向自然语言文本的转化问题,在四个数据集中,这种方法表现得像完全监督方法一样出色,通过自动评价和人工评估表明,循环训练策略的不同对于降低文本生成错误类型的有效性也不同。
- 电子商务领域的风格化数据生成案例研究
提出了一个新的任务 —— 风格化数据到文本生成,旨在根据特定的风格为给定的非语言数据生成连贯的文本。为应对逻辑、风格和偏差等三个挑战,我们提出了一个名为 StyleD2T 的新型模型,包括三个组件:逻辑规划增强数据嵌入、基于掩码的风格嵌入和 - ACLTabGenie:一款用于表格到文本生成的工具包
TabGenie 是一个工具包,使用统一的表格文本生成框架使研究人员能够探索、预处理和分析多种数据到文本生成的数据集。
- EMNLP文本生成的时间感知提示
探讨利用时间戳,如文档创建日期,将时间信息纳入到生成系统中的影响,研究时间感知提示的两种类型,并引入一个新的数据生成数据集 TempWikiBio,通过数据生成、文本传输和摘要三个数据集展示了使用线性提示和文本提示可以提高所有数据集的生成质 - TaTa:非洲语言多语种表格生成文本数据集
该研究创建了第一个专注于非洲语言的大型多语言表格生成文本数据集:TaTa,并通过深入的人类评估表明,TaTa 对当前模型具有挑战性,现有指标的表现不佳。
- 任务的映射过程:从维基百科中的 Wikidata 语句到文本句子的转换
本文介绍了一种将 Wikidata 语句转换为英文维基百科文章的任务转化为自然语言文本的方法,并且对输出内容进行了句子结构分析,噪声过滤以及基于词嵌入模型的句子构成关系评估。