Sep, 2023

英语 RST 解析中的难点是什么?通过预测模型进行错误分析

TL;DR通过研究探讨了自然语言处理中层次结构篇章分析在修辞结构理论框架中的困难,并建立了与之相关的因素模型,其中隐含的篇章关系、识别远程关系的挑战、词汇外的项目等是现有工作中的解析难点。通过发布两个带有明确正确和干扰篇章标记的英文测试集,以评估这些变量的相对重要性。研究结果表明,如同浅层篇章分析,明示 / 隐含区别起到了一定作用,但远程依赖是主要挑战,而词汇重叠的缺乏则并非问题,至少对于领域内解析而言。最终的模型能够 76.3% 的准确率预测底向上解析器的错误和 76.6% 的准确率预测顶向下解析器的错误。