生成文本中句法模板的检测与测量

Jun, 2024

生成文本中句法模板的检测与测量

Detection and Measurement of Syntactic Templates in Generated Text

Chantal Shaib, Yanai Elazar, Junyi Jessy Li, Byron C. Wallace

TL;DR我们提供了在模型中表征模板化文本的句法特征分析，并发现模型生成的文本中大多数（76％）模板可以在预训练数据中找到（相比之下，人工编写的文本中仅有 35％），并且在 RLHF 等微调过程中不会被覆盖，这使得我们能够在没有预训练数据的情况下分析模型中的句法模板。我们还发现，句法模板作为特征可以区分模型、任务和领域，并且对于定性评估常见的模型构建非常有用。最后，我们演示了使用模板作为分析 LLMs 训练数据风格记忆的有用工具。

Abstract

Recent work on evaluating the diversity of text generated by llms has focused on word-level features. Here we offer an analysis of syntactic features to characterize general repetition in models, beyond frequent

text generation llms syntactic features templated text style memorization

发现论文，激发创造

RFBES 在 SemEval-2024 任务 8 中的应用：探索用于区分人工智能生成和人类编写的文本的句法和语义特征

研究表明，利用大型语言模型可以高准确度地区分人工智能生成的文本和人类编写的文本，尤其在语义方面会更加有帮助，而句法方面还有改进的空间。

Feb, 2024

TempLM: 将语言模型提炼为基于模板的生成器

TempLM 是一种将预训练语言模型转化为基于模板生成器的方法，能够提供预训练模型的流畅性和模板系统的保真性，实验证明其在数据到文本转化方面比原始模型更具可靠性，也比以前的模板系统更流畅。

May, 2022

神经语言模型中语法表示的过高估计

研究最近聚焦于神经语言模型的成功因素，测试方法学、n-gram 模型以及 LSTM 模型等方式都被用来验证其句法表达的能力，本论文重现了最近论文的实验结果，显示了以字符串为基础的句法诱导训练的基本问题。

Apr, 2020

语言多样性的好奇衰退：基于合成文本训练语言模型

研究通过以前辈生成的合成数据对大型语言模型进行训练的后果，重点关注这种训练方法对语言多样性的影响，特别是在逐步迭代的过程中。通过开展递归微调实验，应用一系列针对词汇、句法和语义多样性的新型度量标准，我们的研究发现模型输出的多样性在连续迭代中显著降低。这一趋势强调了在训练大型语言模型时使用前辈生成文本的潜在风险，特别是涉及保留语言丰富性方面。我们的研究突出了需要仔细考虑这种训练方法对大型语言模型的语言能力所产生的长期影响。

Nov, 2023

人类和 LLM 生成文本中的对比语言模式

定量分析比较人类写作的英文新闻与基于 4 个 LLMa 家族的大型语言模型 (LLM) 输出的差异，结果显示了人类文本与 AI 生成文本在多个可测量的语言维度上的差异，包括形态、句法、心理测量和社会语言方面，并揭示了 LLM 生成文本中存在更多的数字、符号和助动词，以及更多的代词，人类文本中存在的性别偏见也被 LLMs 表达出来。

Aug, 2023

AutoTemplate：一种用于词汇约束文本生成的简单方法

AutoTemplate 是一个基于模板生成和词汇转换任务的简单有效的文本生成框架，旨在满足硬限制词汇表，实验证明在关键词到句子生成和实体引导摘要任务上均优于竞争基线。

Nov, 2022

语法增强的预训练模型

文章提出了一种新的基于 Transformer 模型的句法感知注意力层以及预训练任务，该模型可以从句法结构中获取信息来提高预训练模型在关系分类、实体类型标注和问答等任务中的表现。实验结果表明，该模型取得了当前最好的表现效果。

Dec, 2020

利用模板 - 内容结构解释大型语言模型的复杂任务推理

该论文介绍了一个新的框架，将复杂自然语言任务的答案生成形式概念化为一个层次结构的 “模板 - 内容” 结构，通过对足够大的语料库进行语言建模，从而在自回归生成过程中自动分解任务为组成步骤，并加以解决，从而解释了大型语言模型复杂推理能力的机理。实验证明，实际模型在 “模板” 和 “内容” 上表现出不同的行为，支持了该模型。

Oct, 2023

使用模板量化社会偏见是不可靠的

研究证明，使用样板评估来量化社会偏见可能不可靠，本文研究了在不破坏语义的情况下手动修改先前工作中使用的模板是否会影响偏见测量的结果，结果显示在四项任务中，模板的修改会使偏见值和相应的结论在不同程度上变化，有增有减，因此，对于 LLMs 的公平性评估需要更加谨慎。

Oct, 2022

评估大型语言模型的元语义模板

大型语言模型的数据污染引发了关于其语义理解能力的担忧，本文提出了 MSTemp 方法，通过创建元语义模板对 LLMs 进行评估，不直接对现有基准数据集进行评估，而是使用现有数据集作为种子生成新的超出分布的评估集，实验结果表明 MSTemp 生成的样本可以显著降低 LLMs 的性能。

Oct, 2023