Jan, 2022

开放域对话数据集中的重叠问题的实证研究

TL;DR本文指出了流行的 DailyDialog 和 OpenSubtitles 等开放领域对话基准数据集中存在的重叠问题,分析其可能导致人为创造虚假性能结果。最后,通过对这些数据集的清理和建立适当的数据处理程序来解决这个问题,以供未来的研究使用。