ACLAug, 2023

作者身份表达学习能捕捉到文体特征吗?

TL;DR自动从作者的写作风格中脱离其内容是计算语言学中一个长期存在且可能难以逾越的问题。然而,最近可用的带有作者标签的大型文本语料库使得可以通过完全基于数据驱动的方式来学习作者表征,用于作者归属的任务,这个任务似乎更多地依赖于编码写作风格而不是编码内容。然而,成功完成这个替代任务并不能确保这些表征能够捕捉到写作风格,因为作者归属也可能与其他潜在变量(如主题)相关。为了更好地理解这些表征传达的信息性质,特别是验证它们主要是否编码写作风格的假设,我们通过一系列有针对性的实验系统地探查了这些表征。这些实验的结果表明,学习用于替代作者归属预测任务的表征确实对写作风格敏感。因此,可预期作者表征对某些数据转换具有稳健性,例如随时间的主题漂移。此外,我们的发现可能为需要风格表征的下游应用开启大门,如风格转换。