EMNLPOct, 2022

视觉语境能否提高具有体现特征的智能体自动语音识别的性能?

TL;DR本文介绍了一种利用视觉信息,通过新的解码器偏置技术将机器人的语音识别能力改进来识别含有可见实体描述的口语,以提高自动语音识别系统在机器人上的鲁棒性能,并取得了 %59 的相对错误率降低。