通过迁移学习使用 ULMFiT 对孟加拉文学进行作者归属

Mar, 2024

通过迁移学习使用 ULMFiT 对孟加拉文学进行作者归属

Authorship Attribution in Bangla Literature (AABL) via Transfer Learning using ULMFiT

Aisha Khatun, Anisur Rahman, Md Saiful Islam, Hemayet Ahmed Chowdhury, Ayesha Tasnim

TL;DR提出了一种使用 AWD-LSTM 架构和有效的迁移学习方法来解决孟加拉文学领域的作者归属问题，通过分析不同的标记化方法，并介绍了一个包含 16966 份样本文本和 13.4 + 百万词汇的公开孟加拉作者归属数据集（BAAD16），此外还释放了六个预训练语言模型的变体。通过对 BAAD16 数据集及其他公开数据集的评估，实验证明所提出的模型优于目前的最先进模型，在 BAAD16 数据集上达到 99.8% 的准确率，而且在作者数量增加时，系统的可伸缩性表现更好，性能依然稳定。

Abstract

authorship attribution is the task of creating an appropriate characterization of text that captures the authors' writing style to identify the original author of a given piece of text. With increased anonymity on the internet, this task has become increasingly crucial in various secur

authorship attribution bangla literature awd-lstm tokenization bangla authorship attribution dataset

发现论文，激发创造

ALMs：作者语言模型用于作者归属

本文介绍了一种作者归属方法，即作者语言模型 (ALMs)，它通过对一组候选作者的文本进行经验修正得到的调整语言模型的困惑度，从而识别问询文档的最有可能的作者。我们使用 CCAT50 数据集和 Blogs50 数据集对 ALMs 进行了基准测试，并发现 ALMs 在 Blogs50 上达到 83.6% 的宏平均准确率，超过所有其他方法，在 CCAT50 上达到 74.9% 的宏平均准确率，与最好方法的性能相当。此外，我们还进行了关于短文本的删除测试，结果发现为了达到 70% 的宏平均准确率，ALMs 需要在 Blogs50 上有 40 个词元，在 CCAT50 上有 400 个词元，而为了达到 60% 的宏平均准确率，ALMs 需要在 Blogs50 上有 20 个词元，在 CCAT50 上有 70 个词元。

Jan, 2024

学习文体特征表示用于作者分析

本文提出了一种使用神经网络方法来模拟人类组合句子过程，将语言特征的不同类别合并到单词的分布式表示中，以同时学习作者文体表示的作者分析方法，提取出每个文档的话题、词汇、句法和字符级别的特征向量，实验结果表明，这种方法在作者特征化和作者验证方面具有优异的性能。

Jun, 2016

将双向长短期记忆网络与子单词嵌入结合，用于作者归属度量

本文提出了一种基于双向长短期记忆 (BLSTM) 和二维卷积神经网络 (CNN) 的方法来进行文本作者识别，通过使用子词信息获得特征之间的顺序关系以及了解风格的局部语法位置，实验证明该方法相比其他最新方法在 CCAT50 和 Twitter 上分别提高了 1.07％和 0.96％的准确率，并在其余数据集上产生了可比较的结果。

Jun, 2023

关于作者归属与作者验证方面现有技术的状况

该研究论文介绍了谁是这篇文章作者（AA）和作者验证（AV）这两种方法，针对 AA/AV 数据集和评估指标的标准化与基准评估并评估了八种方法，其中传统的 Ngram-based 模型在 5 个 AA 任务中表现最佳，而 BERT-based 模型则在另外两个任务和 AV 任务中表现更好。通过使用 hard-negative mining，AV 方法可以作为 AA 方法的有竞争力的替代品。

Sep, 2022

大型语言模型上的神经作者归属性：风格分析

通过实证分析大型语言模型（LLMs）的写作特征、对比专有和开源模型的异同、并探索通过语言的词汇、句法和结构方面的风格特征整合实现对 AI 生成文本的追溯，为神经网络作者归属提供经验性洞见，为应对 AI 生成的错误信息的威胁铺平道路。

Aug, 2023

使用神经网络语言模型进行作者归属判定

研究了神经网络语言模型在作者归属问题上的性能，发现与传统非参数化模型相比，其性能更优越。

Feb, 2016

大型语言模型能否识别作者？

使用大型语言模型进行作者身份验证和归属度分析的研究，以及通过详细分析语言特征为决策提供解释，为未来基于大型语言模型的作者身份分析研究建立了新的基准。

Mar, 2024

基于深度学习的双盲审稿破解：作者归属性鉴定

该研究提出了一种基于变形金刚模型的神经网络结构，仅使用文本内容和参考文献中的作者姓名来将匿名稿件归属于作者，并创建了迄今为止最大的作者身份识别数据集，并发现了双盲审稿流程中的一些弱点，为支持公正的双盲审稿流程提供了有价值的见解。

Nov, 2022

基于注意力相似度学习的社交媒体可解释式作者验证

本文针对社交媒体上短文本语言特征多变不足以支持作者验证的问题，提出了一种基于 Hierarchical Siamese 神经网络的算法，通过学习神经特征和可视化决策过程可以有效地进行作者验证，并在大规模的亚马逊评论数据集上进行实验，结果表明 Siamese 神经网络模型优于传统的基于语言特征的方法。

Oct, 2019

基于 BERT 的罗马尼亚语数据集 ROST 的作者归属

使用预训练的语言模型 BERT 来检测罗马尼亚语文本的作者，虽然数据集不平衡，但结果比预期好，有时超过 87％的宏平均精度。

Jan, 2023