ACLApr, 2020

古腾堡对话数据集

TL;DR本研究利用 Project Gutenberg 公共领域书籍中的对话构建了一个包括 14.8M 个语言表达的高质量对话数据集,分析并展示了对话提取管道的效果和误差分析。实验表明,训练我们的数据可以比训练更大但更嘈杂的 Opensubtitles 数据集在零射击和精调设置下取得更好的响应质量。同时,我们还建立了一个 Web 演示,通过调整各种平衡参数,研究人员可以构建他们版本的现有数据集。