Kefa：基于知识增强和细粒度对齐技术的导航指令生成说话人

Jul, 2023

Kefa：基于知识增强和细粒度对齐技术的导航指令生成说话人

Kefa: A Knowledge Enhanced and Fine-grained Aligned Speaker for Navigation Instruction Generation

Haitian Zeng, Xiaohan Wang, Wenguan Wang, Yi Yang

TL;DR我们引入了一种新颖的导航指令生成的说话者模型 Kefa。我们的模型通过知识细化模块来增强特征表示，并通过自适应时间对齐方法来确保生成的指令与观测序列的细粒度对齐。此外，我们提出了一种新的导航指令评估度量 SPICE-D，该度量关注方向短语的正确性。在 R2R 和 UrbanWalk 数据集上的实验证明了我们提出的 KEFA 说话者模型在室内外场景的指令生成性能上达到了最先进水平。

Abstract

We introduce a novel speaker model \textsc{Kefa} for navigation instruction generation. The existing speaker models in vision-and-language navigation suffer from the large domain gap of vision features between di

speaker model navigation instruction generation vision-and-language navigation knowledge refinement module adaptive temporal alignment

发现论文，激发创造

用于视觉与语言导航的说话者 - 跟随者模型

本研究提出了一种使用内置语音模型的视觉 - 语言导航方法，该方法利用演讲者模型来合成新的指令进行数据增强，并实现了实用推理和全景动作空间，大大提高了基线指令跟随者的性能，在标准基准测试中成功率超过现有最佳方法的两倍。

Jun, 2018

FOAM: 一种面向跨模态导航的关注者感知语音模型

本文提出了一个名为 Foam 的 Follower-aware speaker Model，通过双层优化框架优化训练信号并不断更新，生成的指令更适合当前学习状态，实验结果在 Room-to-Room 数据集上表现良好，生成的指令质量高于基线模型。

Jun, 2022

FiTs：知识感知问答的精细二阶段训练

该论文提出了一种 Fine-grained Two-stage training framework (FiTs) 框架用于知识感知问答，通过对齐预训练语言模型和知识图谱中的表示来提高模型的性能。在细节上，研究者通过两个自监督任务对模型进行微调，实验结果表明，这种方法在 CommonsenseQA、OpenbookQA 和 MedQA-USMILE 等三个基准测试中都达到了最优表现。

Feb, 2023

FOKE：个性化和可解释的教育框架集成基础模型、知识图谱和提示工程

通过整合大型语言模型、知识图谱和提示工程，FOKE 框架旨在革新智能教育，实现个性化、互动性和可解释性。它引入了三个关键创新：分层知识森林、多维用户建模机制和交互式提示工程方案，在编程教育、作业评估和学习路径规划中展示了其有效性和实用性，为全球学习者带来潜力。FOKE 为个性化、互动性和可解释性的教育服务提供了一个有原则和统一的方法，为进一步的研究和发展铺平了道路。

May, 2024

一种基于 FOFE-net 框架的简单有效知识库问答方法

提出了一个基于 FOFE 和深度神经网络的简单但通用的神经模型 (FOFE-net) 来解决不同阶段的 KB-QA 问题，包括实体发现和链接 (EDL) 以及关系检测，评估结果表明 FOFE-net 在所有数据集的子任务中表现良好并推动了整体 KB-QA 系统的强大表现。

Mar, 2019

多跳问题回答在时间知识编辑下的应用

多跳问题回答（MQA）与知识编辑（KE）相结合的研究引起了广泛关注，然而现有的 MQA 模型在处理带有明确时间背景的问题时性能较差。为了解决这一限制，我们提出了一种新的框架，即 TEMPLE-MQA，通过构建时间感知图（TAG）来有效区分问题查询中的时间背景，并通过推理路径、结构检索和联合推理阶段来增强多跳问题回答。在基准数据集上的实验证明，TEMPLE-MQA 明显优于基准模型。此外，我们还贡献了一个新的数据集，即 TKEMQA，它专门针对具有时间范围的多跳问题回答领域。

Mar, 2024

逆因果循环一致性学习在视觉语言导航中的应用

本篇研究提出了一种基于视觉 - 语言导航（VLN）的学习方法，同时学习指令生成和指令跟随任务并通过相互的协作来提高训练，包括添加一个能够生成反事实环境来提高训练效果的代理程序。在标准测试集上的实验证明，该方法提高了各种跟随模型的性能并能够生成准确的导航指令。

Mar, 2022

基于知识的具身化问答

本文提出了一种基于知识的具身问答 (Knowledge-based Embodied Question Answering, K-EQA) 任务，其中智能体通过利用知识来探索环境以回答各种问题。为解决这一问题，本文提出了一种基于神经程序合成推理的新框架，同时进行外部知识和 3D 场景图的联合推理，以实现导航和问答。实验结果表明，该框架能够在具身环境中回答更加复杂和现实的问题，并且该方法也适用于多智能体场景。

Sep, 2021

寻找前进的方向：以语言为导向的语义地图导航器

本文介绍了地图 - 语言导航任务，引入了基于给定三维语义地图的自然语言指令的路径规划和区分模型 (iPPD)，并提出了适用于语义地图的新型路径特征编码方案和基于注意力机制的语言驱动鉴别器，相较于单步贪婪决策方法和单步模仿学习方法，在未知环境中具有 17% 的导航成功率和 0.18 的路径匹配度的性能提升。

Mar, 2022

为何不使用教科书？知识增强的教学视频程序规划

该研究探讨了代理程序在构建逻辑动作步骤序列方面的能力，从而组装战略性的过程计划。利用来自训练数据的程序化知识图，我们提出了一种名为 KEPP 的新型知识增强程序规划系统，该系统在各种复杂度设置下的实验评估结果表明，KEPP 取得了卓越的、最新的结果，同时只需要很少的监督。

Mar, 2024