Nov, 2023

GNAT: 通用叙事对齐工具

TL;DR通过将生物信息学中的Smith-Waterman算法与现代文本相似度度量相结合,我们开发了一种用于故事对齐的通用方法,并展示了对于摘要和节选,相较于原始小说更短的具有大的版本之间的相似性是很难识别的。我们的方法在四个不同的问题领域上应用和评估了我们的通用故事对齐工具(GNAT),这四个问题领域在文档的相对和绝对长度方面差异巨大,包括摘要与书籍对齐、翻译书籍对齐、短篇小说对齐和抄袭检测,从而展示了我们方法的能力与性能。