Oct, 2022

AVLEN: 3D 环境下语音 - 视觉 - 语言体现式导航

TL;DRAVLEN 是一种具有自主探索和人类辅助查询功能的音视频与自然语言导航机器人,通过多模态强化学习对其进行训练,实现了在语言帮助下对声音事件的模态搜索,优化了在复杂情况下的语音 - 视觉导航。