社交媒体中的作者身份验证相似性学习
本文针对社交媒体上短文本语言特征多变不足以支持作者验证的问题,提出了一种基于 Hierarchical Siamese 神经网络的算法,通过学习神经特征和可视化决策过程可以有效地进行作者验证,并在大规模的亚马逊评论数据集上进行实验,结果表明 Siamese 神经网络模型优于传统的基于语言特征的方法。
Oct, 2019
本文提出了一种使用神经网络方法来模拟人类组合句子过程,将语言特征的不同类别合并到单词的分布式表示中,以同时学习作者文体表示的作者分析方法,提取出每个文档的话题、词汇、句法和字符级别的特征向量,实验结果表明,这种方法在作者特征化和作者验证方面具有优异的性能。
Jun, 2016
这篇论文介绍了一种基于细胞自动机理论的文本网络特征提取方法,着眼于拓扑和动态方面的衡量,表明此方法在作者识别上优于传统的基于拓扑度量的方案,并强调预处理步骤对识别效果的影响。
Oct, 2016
通过实证分析大型语言模型(LLMs)的写作特征、对比专有和开源模型的异同、并探索通过语言的词汇、句法和结构方面的风格特征整合实现对 AI 生成文本的追溯,为神经网络作者归属提供经验性洞见,为应对 AI 生成的错误信息的威胁铺平道路。
Aug, 2023
在社区评论领域,我们发现同一人编写的评论集合基于简单的文体特征就能链接起来从而导致明显的隐私泄露问题,而本文则提出了结合大众智慧和机器翻译的方法,使得评论样式不同从而达到了减少作者链接度的目的。
May, 2014
提出了一种基于嵌入学习的方法,用于识别社交媒体中同一用户的不同帐户,并在没有人工标注数据的情况下,通过将变量大小的用户活动样本映射到矢量空间中获得良好的链接准确性。
May, 2021
本文提出了一个基于集成的文本处理框架,用于单作者和多作者文档的分类,并通过多种权重优化和选择方法来分配基于优点的权重,可以用于文本风格分析中的关键任务。在干净和非干净数据上进行了实验,并在大规模基准数据集上进行了评估,显著提高了现有解决方案的性能。
Mar, 2023
本文研究了基于文体分析技术的三项主要任务:单作者和多作者文档的分类、单一变换检测以及多作者文档中的作者变换检测。通过整合多种自然语言处理算法和权重优化技术的基于优势的融合框架,本文提出了一种解决方案,并通过对清洗和原始数据集的大量实验探索了特殊字符在这些任务的性能上的潜力。实验结果表明,在基准数据集上,对于所有三个任务,本文的解决方案相比现有解决方案取得了显著的改进。
Jan, 2024