Sep, 2018

LRS3-TED: 用于视觉语音识别的大规模数据集

TL;DR介绍一个包含 TED 演讲视频中的面部轨迹,字幕和单词对齐信息的大规模新型多模态数据集,适用于视觉和视听语音识别的研究。