- T5 meets Tybalt: 使用大型语言模型进行早期现代英语戏剧中的作者归属
使用大型语言模型在文体学中研究作者鉴定,尤其是早期英国剧作,发现既有令人期待的结果,也存在令人担忧的结果;LLMs 能够准确预测作者身份,即使是短小的片段,但也容易将文本错误地归属给特定作者。通过精调 t5-large 模型,在归因小片段时 - 通过提示 LLMs 学习可解释的风格嵌入
本研究使用提示技术,对大量文本进行文体分析,得到了一组可解释的文体表示方法 LISA embeddings,为解决当前使用神经网络进行文体表示学习所面临的可解释性困境提供了新的解决方案。
- 文本分段成分的统计探索:以《创世记》和《出埃及记》中祭司来源为例
本文提出了一种用于文本探索的统计学流程,通过基于风格学的解释和统计验证,假设了文本的划分,探测文本的文学特点并量化文本特征以确定是否符合假设的划分。研究者将此流程应用于圣经前两卷书,并发现圣职者成分与非圣职者成分之间存在显著的文体差异。
- 使用数据科学和机器学习方法对莎士比亚剧作进行持续分析
本研究通过应用机器学习分析手段,对莎士比亚的作品进行文体统计学预测,结果表明莎翁的写作风格随时间发生了显著变化,其中包括句子长度、形容词和副词的频率,以及文本中表达的情感。此外,还发现有些作品的文体与它们的实际创作时间不太相似。
- 从舞台到页面:虚构语言独特性的无语言自举测量方法
本文以戏剧作品为例,分析了角色特点的语言风格区别,提出了两种新的分析独特性的方法,并应用于法语、德语、俄语和莎士比亚作品的语料库中,以探讨不同语言和时期的比较分析。研究发现,女性角色在直接的叙述和情感主题上的语言风格更具独特性。这一发现为未 - 词汇模式的序数分析
使用序数模式方法,分析了 11 种主要语言的词汇统计连接,并发现不同语言表达单词关系的方式构成了独特的模式分布,这些模式分布的波动可以确定文本的历史时期和作者,结果凸显了序数时间序列分析在语言学、历史语言学和文体学中的相关性。
- 复仇者联盟!提高作者混淆的可迁移性
本文研究了基于样式测量方法的作者归属问题,提出了一种基于集成学习的自动化作者混淆方法,并证明它的迁移性更佳。
- 风格转移和内容保留的低层语言控制
利用低层级的语言控制来生成具备样式特点的文本,有效性较高,进一步为神经文本生成系统添加语言控制。
- 使用文体学技术检测机器生成的假新闻的限制
本文讨论了神经语言模型与人工写作之间的风格差异,发现传统风格测量技术不能有效地检测机器生成的虚假新闻。作者提出了构建新型检测机制的必要性与重要性。
- 平凡也非凡:一种普通化的风格掩盖和作者混淆方法的论证
提出了一种改变文本的方法以减少样式特征的差异。该方法能有效地保护作者的匿名,并在 PAN-2016 竞赛的作者混淆任务中获得最佳表现。
- 数字文体学:跨社交网络链接个人资料
文章主要探讨如何通过 Digital Stylometry 这一方法,通过对语言、时间字符以及二者结构的匹配来实现不同社交媒体账户中用户的匹配,最终结果显示使用时间字符和语言结合的模型是最优匹配模型,并且能够正确匹配 Twitter 和 F