基于 BERT 的罗马尼亚语数据集 ROST 的作者归属
本文探讨了利用人工智能技术对多个作者编写的文学文本进行分类的难点,并介绍了一个新的包含罗马尼亚语文本的数据集。经过数值实验比较,得出了人工神经网络、支持向量机、多表达式编程、决策树以及 k - 最近邻等算法在测试集上表现较好。
Nov, 2022
介绍了罗马尼亚 BERT,这是第一个纯罗马尼亚的基于 Transformer 的语言模型,并介绍了语料库的组成和清理、模型训练过程以及在各种罗马尼亚数据集上的评估。
Sep, 2020
本文介绍了 RoBERTweet,这是首个使用罗马尼亚推文进行训练的 Transformer 架构,研究结果表明在推特情感检测、性别歧视语言识别和命名实体识别三个自然语言处理任务中,RoBERTweet 模型优于之前的普通领域罗马尼亚语和多语言语言模型。
Jun, 2023
该研究论文介绍了谁是这篇文章作者(AA)和作者验证(AV)这两种方法,针对 AA/AV 数据集和评估指标的标准化与基准评估并评估了八种方法,其中传统的 Ngram-based 模型在 5 个 AA 任务中表现最佳,而 BERT-based 模型则在另外两个任务和 AV 任务中表现更好。通过使用 hard-negative mining,AV 方法可以作为 AA 方法的有竞争力的替代品。
Sep, 2022
本文探讨自然语言模型在生成具有被误认为是他人所写的能力的在线文本方面的潜力,发现当前的这类技术中 GPT-2 可成功地模拟与欺骗常见的作者识别的方法,说明了这类技术的巨大潜力和其实际应用如非法信息识别和犯罪取证的重要性。
Mar, 2022
我们提出了 TopRoBERTa 方法,通过在 RoBERTa 模型中加入拓扑数据分析(TDA)层,捕捉深度伪造文本中的更多语言模式。通过从 RoBERTa 的重塑池输出中提取 TDA 特征作为输入,我们展示了具有 TDA 层时处理嘈杂、不平衡和异构数据集的优势。最终,TopRoBERTa 在 2/3 个数据集上胜过传统的 RoBERTa,宏 F1 得分提升高达 7%。
Sep, 2023
通过实证分析大型语言模型(LLMs)的写作特征、对比专有和开源模型的异同、并探索通过语言的词汇、句法和结构方面的风格特征整合实现对 AI 生成文本的追溯,为神经网络作者归属提供经验性洞见,为应对 AI 生成的错误信息的威胁铺平道路。
Aug, 2023
提出了一种使用 AWD-LSTM 架构和有效的迁移学习方法来解决孟加拉文学领域的作者归属问题,通过分析不同的标记化方法,并介绍了一个包含 16966 份样本文本和 13.4 + 百万词汇的公开孟加拉作者归属数据集(BAAD16),此外还释放了六个预训练语言模型的变体。通过对 BAAD16 数据集及其他公开数据集的评估,实验证明所提出的模型优于目前的最先进模型,在 BAAD16 数据集上达到 99.8% 的准确率,而且在作者数量增加时,系统的可伸缩性表现更好,性能依然稳定。
Mar, 2024
在这篇论文中,我们提出了一个任务:主题混淆,用于区分写作风格捕捉能力不足还是主题转换造成的错误,我们表明带有词性标注的文体特征对主题变化最不敏感,将它们与其他特征相结合可显著降低主题混淆并提高归属准确性,最后表明像 BERT 和 RoBERTa 等预训练语言模型在这项任务中表现不佳,远不如诸如单词级 n 元语法等简单特征。
Apr, 2021