使用神经网络语言模型进行作者归属判定

AAAIFeb, 2016

使用神经网络语言模型进行作者归属判定

Authorship Attribution Using a Neural Network Language Model

Zhenhao Ge, Yufang Sun, Mark J. T. Smith

TL;DR研究了神经网络语言模型在作者归属问题上的性能，发现与传统非参数化模型相比，其性能更优越。

Abstract

In practice, training language models for individual authors is often expensive because of limited data resources. In such cases, Neural Network Language Models (NNLMs), generally outperform the traditional non-parametric n-gram models. Here we investigate the performance of a

neural network language models authorship attribution feed-forward nnlm n-gram models kneser-ney smoothing

发现论文，激发创造

大型语言模型上的神经作者归属性：风格分析

通过实证分析大型语言模型（LLMs）的写作特征、对比专有和开源模型的异同、并探索通过语言的词汇、句法和结构方面的风格特征整合实现对 AI 生成文本的追溯，为神经网络作者归属提供经验性洞见，为应对 AI 生成的错误信息的威胁铺平道路。

Aug, 2023

大型语言模型能否识别作者？

使用大型语言模型进行作者身份验证和归属度分析的研究，以及通过详细分析语言特征为决策提供解释，为未来基于大型语言模型的作者身份分析研究建立了新的基准。

Mar, 2024

使用多头循环神经网络进行作者识别

通过把一个字符级 RNN 语言模型的输出层划分成几个独立的预测子模型，每个子模型代表一个作者，而循环层被所有子模型共享，本文提出了一种新的方法，该方法允许循环层模拟整个语言而不会产生过拟合，同时输出选择反映其作者风格的潜在模型方面，该方法在四种语言中两次排名第一，证明了它的有效性。

Jun, 2015

ALMs：作者语言模型用于作者归属

本文介绍了一种作者归属方法，即作者语言模型 (ALMs)，它通过对一组候选作者的文本进行经验修正得到的调整语言模型的困惑度，从而识别问询文档的最有可能的作者。我们使用 CCAT50 数据集和 Blogs50 数据集对 ALMs 进行了基准测试，并发现 ALMs 在 Blogs50 上达到 83.6% 的宏平均准确率，超过所有其他方法，在 CCAT50 上达到 74.9% 的宏平均准确率，与最好方法的性能相当。此外，我们还进行了关于短文本的删除测试，结果发现为了达到 70% 的宏平均准确率，ALMs 需要在 Blogs50 上有 40 个词元，在 CCAT50 上有 400 个词元，而为了达到 60% 的宏平均准确率，ALMs 需要在 Blogs50 上有 20 个词元，在 CCAT50 上有 70 个词元。

Jan, 2024

使用神经文本生成器欺骗在线作者归属模型：你是罗伯特还是罗伯塔？

本文探讨自然语言模型在生成具有被误认为是他人所写的能力的在线文本方面的潜力，发现当前的这类技术中 GPT-2 可成功地模拟与欺骗常见的作者识别的方法，说明了这类技术的巨大潜力和其实际应用如非法信息识别和犯罪取证的重要性。

Mar, 2022

社交媒体中的作者身份验证相似性学习

提出了一种新的神经网络拓扑结构用于类似社交媒体这类挑战性数据集上，有效地提高了作者验证任务的性能。

Aug, 2019

通过双向 LSTM 模型进行作者归属的 ChatGPT 新闻检测

该研究使用 ChatGPT 的人工智能模型，通过自然语言处理技术建立了一个能够识别 ChatGPT 所写的新闻文章的作者鉴定模型，其中 LSTM 神经网络模型表现最佳，对测试集数据达到 91.57％的准确率。

Oct, 2023

使用神经语言模型生成保留情感的虚假在线评论及其人工和机器检测

本文研究表明，利用公开的神经语言模型，结合情感方面的分类器，所生成的假评论可以成功地欺骗人和机器，故而需要采取应对措施。

Jul, 2019

重新审视简单的神经概率语言模型

本文主要通过对比分析神经概率语言模型和 Transformer 模型的特点，提出使用 NPLM 的本地连接层替换 Transformer 的第一自注意层，从而在三个单词级语言建模数据集上获得小而一致的困惑度降低。

Apr, 2021

使用时间语言模型学习动态作者表示

该研究提出一种基于循环语言建模的神经模型，通过考虑作者和时间向量状态来捕捉作者社区的语言扩散趋势，从而超越了多个基于时间和非时间的语言基线，并学习了随时间变化的有意义的作者表示。

Sep, 2019