使用 Rusty-DAWG 评估语言模型的 n-Gram 新颖性

Jun, 2024

使用 Rusty-DAWG 评估语言模型的 n-Gram 新颖性

Evaluating $n$-Gram Novelty of Language Models Using Rusty-DAWG

William Merrill, Noah A. Smith, Yanai Elazar

TL;DR研究了语言模型生成的文本与其训练语料库之间的新颖程度，并通过评估生成的 $n$-gram 的概率和 $n$- 新颖性来揭示影响生成新颖性的因素。发现对于较大的 $n$，语言模型生成的文本不如人为编写的文本新颖，但对于较小的 $n$，则更为新颖。同时发现较大的语言模型和受限的解码策略均会降低新颖性，而低频 $n$-gram 在训练数据中出现的频率越低，语言模型完成它们时的误差也越小。通过发布 Rusty-DAWG 工具以促进进一步的预训练数据研究。

Abstract

How novel are texts generated by language models (LMs) relative to their training corpora? In this work, we investigate the extent to which modern LMs generate $n$-grams from their training data, evaluating both

language models $n$-grams novelty generation training data

发现论文，激发创造

语言模型从其训练数据中复制了多少？使用 RAVEN 评估文本生成中的语言新颖性

RAVEN 是一组用于评估语言模型生成的文本新颖性的分析工具，使用这些工具对 LSTM, Transformer, Transformer-XL 和 GPT-2 等四个神经语言模型进行分析，发现 GPT-2 生成的文本在形态和语法上通常很好，但存在一定数量的语义问题。

Nov, 2021

$N$-gram 回归：用 $n$-gram 语言模型进行神经文本生成的残差学习

本文提出采用 $n$-gram 语言模型与神经网络语言模型的结合来提升自然语言处理任务性能，并在三项典型任务的实验中表明，我们的方法始终优于单独使用神经网络语言模型。同时，我们还展示了该方法通过简单地切换到特定领域的 $n$-gram 模型即可进行有效的领域自适应。

Oct, 2022

N-Grammer: 使用潜在 n-gram 扩充 Transformer

本研究提出了一种新的改进 Transformer 模型的方法，使用了文本序列中的离散潜在表示构造 n-gram，并应用于语言建模和文本分类中，经实验证明性能优于传统的 Transformer 模型和 Primer，该模型已在 Jax 中开源以便复现。

Jul, 2022

DNA-GPT: 基于差异化 N-Gram 分析的无需训练 GPT 生成文本检测

该论文提出了一种新的训练自由的文本检测策略，称为 Divergent N-Gram Analysis（DNA-GPT），通过 N-gram 分析或概率分歧分析比较人类写作和机器生成文本之间的差异，证明了其在区分人类和大型语言模型生成的文本方面具有优越性，并提供合理的解释和证据来支持这一观点，这是一种独特的可解释性检测方法。

May, 2023

大型语言模型在自然语言生成任务中的系统评估

研究论文从自然语言生成任务的角度全面评估了 ChatGPT、ChatGLM、基于 T5 的模型、基于 LLaMA 的模型和基于 Pythia 的模型等众所周知且表现良好的大型语言模型的性能，并提出了一种常见的评估设置，其中包括输入模板和后处理策略，通过与详细分析相结合的自动结果来报告研究结果。

May, 2024

重温 N-Gram 模型：对手写文本识别现代神经网络的影响

该研究探讨了在手写识别领域中，深度神经网络结构集成显式 n-gram 语言模型是否能提高性能，结果表明，结合字符或子词的 n-gram 模型能显著改善自动文本识别系统在多个数据集上的性能，挑战了仅仅使用深度学习模型就能够达到最优性能的观点，特别是 DAN 结合字符语言模型的组合超过了目前的基准，确认了混合方法在现代文档分析系统中的价值。

Apr, 2024

利用大型语言模型进行自然语言生成评估：综述

自然语言生成（NLG）评估中引入大型语言模型（LLM）为评估生成内容质量提供了新的途径，本文提供了对利用 LLM 进行 NLG 评估的全面概述，包括组织现有基于 LLM 的评估指标的一致性分类法、批判性评估不同的 LLM 方法以及比较其在评估 NLG 输出中的优势和局限性，讨论未解决的挑战，并推动更公平、更先进的 NLG 评估技术。

Jan, 2024

Raidar: 基于生成式人工智能的检测重写

我们发现，在重新编写任务中，大型语言模型（LLMs）更有可能修改人类撰写的文本，而不是 AI 生成的文本。这种偏好出现的原因是 LLMs 通常认为 AI 生成的文本质量较高，从而减少了修改。我们提出了一种通过提示 LLMs 重新编写文本并计算输出的编辑距离来检测 AI 生成内容的方法，我们将其命名为 Raidar。Raidar 显著提高了现有 AI 内容检测模型（包括学术和商业模型）在新闻、创意写作、学生作文、代码、Yelp 评论和 arXiv 论文等各个领域的 F1 检测得分，最高可增加 29 个百分点。我们的方法仅基于单词符号而不使用高维特征，与黑盒 LLMs 兼容，并且在新内容上具有内在的鲁棒性。我们的研究结果通过机器自身的视角展示了机器生成文本的独特特征。

Jan, 2024

无监督和分布式检测机器生成文本

本文提出一种针对机器生成文档与人工撰写文档进行区分的无监督学习方法，通过利用高阶 n 元模型进行分类，并使用疑似标注文档来训练分类器的集合，成功实现了对疑似机器生成文档的准确评估，并且该方法可适用于各种规模的大型语言模型。

Nov, 2021

研究大型语言模型在 Reddit 的 Showerthoughts 上特定领域写作风格适应中的机智、创造力和可检测性

大型语言模型在模拟人类写作风格方面的能力进行了研究，通过比较不同规模的语言模型在 Showerthoughts 领域生成的创造性文字与人类创作的文字，发现人类评估者对于生成的文字在创意质量方面评分稍低，但难以可靠地区分人类写作和 AI 生成的文字。此外，提供了基于 Reddit Showerthoughts 帖子的创造性文字生成数据集。

May, 2024