Aug, 2018

ODSQA: 开放领域口语问答数据集

TL;DR本文介绍一个包含超过三千个问题的开放领域口语问答数据集,研究发现自动语音识别误差对于口语问答有灾难性影响,本文提出将子词单元用于缓解该问题,同时通过对基于文本问答的训练样本进行数据扩增,提高了口语问答的表现。