半监督语言指导的多模态序列生成模型
提出了一种使用语义地图和语义搜索策略实现自然语言目标的模块化方法,不需要使用专家轨迹和低级语言指令,并使用少量数据取得了 SOTA 性能。同时,该研究表明,显式的空间记忆和语义搜索策略可以为状态跟踪和引导提供更强大和更通用的表示方式,即使没有专家轨迹或低级指令。
Oct, 2021
本研究提出了一种使用内置语音模型的视觉 - 语言导航方法,该方法利用演讲者模型来合成新的指令进行数据增强,并实现了实用推理和全景动作空间,大大提高了基线指令跟随者的性能,在标准基准测试中成功率超过现有最佳方法的两倍。
Jun, 2018
本文结合半监督深度生成模型与多语预训练技术,设计了一套用于文档分类的流程,在多个语种的低资源场景中表现出极强的竞争力,胜过现有最先进的方法。
Jan, 2021
本篇论文提出了一种多模态模仿学习框架,能够通过学习技能分段和模仿学习来从未标记和非结构化的示范中分段并模仿技能,从而克服了传统模仿学习方法因要求有结构和隔离示范而限制其可扩展性的问题。广泛的仿真实验证明,我们的方法能够有效地将示范分割成各自的技能,并使用单一的多模态策略学习模仿,实现了多任务执行。
May, 2017
UVLN (Universal Vision-Language Navigation) 是一种新颖的增强型机器翻译指令框架,利用大型语言模型(GPT3)和图像标题模型(BLIP)的新颖组合,将传统的指令跟随代理推广到多语言和低资源语言等复杂领域,将不同语言之间的对齐通过跨模态变压器,对语言指令、视觉观察和动作决策序列进行编码、捕获和传递。
May, 2023
介绍了 TextBind,这是一个几乎无需标注的框架,可以为较大的语言模型赋予多轮交错的多模态指令跟随能力,通过仅使用图像 - 标题对生成多轮多模态指令 - 回应对话,从而旨在推动多模态指令跟随领域的未来研究。
Sep, 2023
InstructSeq 是一种多模态建模框架,通过灵活的自然语言控制和处理视觉和文本数据,将多样化的视觉任务统一起来。通过使用 LLM 生成的自然语言指令进行训练,InstructSeq 在指定视觉任务的自由形式指令理解方面具有强大的能力,并在语义分割、引用表达分割 / 理解和图像字幕等任务上取得了令人信服的性能。该模型的灵活控制和多任务统一使其具备了类似人类的多样性和泛化能力,并且即将发布其代码。
Nov, 2023
本论文提出了一种自监督生成建模框架,用于联合学习多模态数据的概率潜在状态表示和相应的动态,并且该方法在机器人学方面有显著的预测和表示质量改进。
Apr, 2022
本文提出了两种新的无监督联合多模态学习表示方法 ——Seq2Seq 模态翻译模型和分层 Seq2Seq 模态翻译模型,并通过 CMU-MOSI 数据集的多模态情感分析实验证明此方法优于基线模型在二模态情感分析方面的 F1 分值提升达 12 个百分点。
Jul, 2018
通过使用少量语言数据,我们提出了一种联合图像和目标条件策略的方法来解决语言指示问题,该方法获得了在不同场景下进行操作任务的指令跟随表现,并具有从标记数据中外推语言指示的能力。
Jun, 2023