区分虚构声音:引语归属的作者验证模型研究
我们提出利用字符嵌入对一种叫做 BookNLP 的流行引文归属系统进行增强,这些嵌入编码了字符的全局信息,通过与上下文信息相结合,提高了对指代和隐含引用的讲话者的识别能力,达到了最先进的性能水平。
Jun, 2024
当前文献关注文学小说中引文归属问题,以引文归属为中心,研究四个相互关联的子任务:人物识别、指代消解、引文辨别和说话人归属。在大量注释了核心指代和引文的文学小说数据集(项目言对小说语料库)上评估了最先进的模型,并针对说话人归属任务进行训练和评估,表明一个简单的连续预测模型具有与最先进模型相当的准确性分数。
Jul, 2023
论文通过研究转写语音来探讨作者识别的问题,重点在于解决转写语音中特有的挑战性,包括控制主题相关性和基于转写语音构建的 speaker attribution 基准测试。通过与神经网络和非神经网络模型进行对比,发现尽管书面文本的作者识别模型在某些情况下表现出令人惊讶的性能,但在考虑的最难的情景中仍然存在困难。
Nov, 2023
通过深度学习模型,特别是包含字符 n-grams 和句法信息的模型,学习的表示方式有望提高跨领域的表示泛化能力,从而选择适当的文体特征在不同场景下实现更准确的作者识别。
Sep, 2023
通过对话模型进行定量化和形式化,并且使用人类评估实验证明了角色身份维持的问题,提出了识别讲话者的判别模型,并评估了改变模型结构、训练协议和译码策略等多种缓解方法,发现最佳模型能够将身份混淆问题降低近 65% 同时提高参与度,但是维护角色身份仍然是一个具有挑战性的问题。
Dec, 2021
研究发现,较早的大型语言模型在与虚拟作者的对齐中存在模式崩溃现象,导致无法多角度模拟,而通过指导调整和人类反馈强化学习所得的对齐模型保留了模拟任意虚拟作者的能力,对于社会学模拟研究具有重要意义。
Feb, 2024
自动从作者的写作风格中脱离其内容是计算语言学中一个长期存在且可能难以逾越的问题。然而,最近可用的带有作者标签的大型文本语料库使得可以通过完全基于数据驱动的方式来学习作者表征,用于作者归属的任务,这个任务似乎更多地依赖于编码写作风格而不是编码内容。然而,成功完成这个替代任务并不能确保这些表征能够捕捉到写作风格,因为作者归属也可能与其他潜在变量(如主题)相关。为了更好地理解这些表征传达的信息性质,特别是验证它们主要是否编码写作风格的假设,我们通过一系列有针对性的实验系统地探查了这些表征。这些实验的结果表明,学习用于替代作者归属预测任务的表征确实对写作风格敏感。因此,可预期作者表征对某些数据转换具有稳健性,例如随时间的主题漂移。此外,我们的发现可能为需要风格表征的下游应用开启大门,如风格转换。
Aug, 2023
该研究探究流行的说话人识别模型在电影片段中的性能,收集了一组新的具有挑战性的说话人识别数据集 VoxMovies,比当前数据集 VoxCeleb 更加具有挑战性,提出了领域自适应评估集,展示了简单的领域自适应模型能够提高性能,但仍有很大的改进空间。
Oct, 2020
通过该研究,提出了一种基于电视剧脚本的 TVShowGuess 任务来评估机器对叙事故事中虚构人物理解能力的新方法,并且证明了这种任务覆盖了多种类型的人物特质和能力,进一步提出了支持长场景文本的上下文编码的新模型结构。实验表明,新模型的性能明显优于基线,但仍大大落后于人类表现。 该研究初步探索了叙事性角色理解的目标。
Apr, 2022
使用大型语言模型在文体学中研究作者鉴定,尤其是早期英国剧作,发现既有令人期待的结果,也存在令人担忧的结果;LLMs 能够准确预测作者身份,即使是短小的片段,但也容易将文本错误地归属给特定作者。通过精调 t5-large 模型,在归因小片段时表现优于所有测试的基线模型,包括逻辑回归、带线性内核的 SVM 和余弦差等方法。然而,我们观察到模型预训练数据中特定作者的存在会对预测结果产生难以评估的影响。
Oct, 2023