Feb, 2023

语言引导的具身化智能体多模式语音识别

TL;DR本文提出了一种多模式自动语音识别模型,通过考虑附带的视觉上下文来减少口头指令的错误转录,使用了仿真的噪声环境。实验结果表明,使用多模态 ASR 模型可使任务完成的准确性得到提高。