机器人子任务后续分析的基于时间和语义的评估指标

Mar, 2024

机器人子任务后续分析的基于时间和语义的评估指标

Temporal and Semantic Evaluation Metrics for Foundation Models in Post-Hoc Analysis of Robotic Sub-tasks

Jonathan Salfity, Selma Wanna, Minkyu Choi, Mitch Pryor

TL;DR最近的任务与动作规划研究表明，使用质量标记数据对语言监督的机器人轨迹进行控制策略训练显著提高了智能体任务成功率。然而，这类数据稀缺性在推广这些方法到一般使用案例时存在重大障碍。为了解决这个问题，我们提出了一个自动化框架，通过借鉴 Foundation Models (FMs) 的最新提示策略，包括大型语言模型（LLMs）和视觉语言模型（VLMs），将轨迹数据分解为基于时间限制和自然语言的描述性子任务。我们的框架提供了由时间和语言描述的较低级别子任务组成的全面轨迹描述。为了严格评估我们的自动标记框架的质量，我们提供了一种算法 SIMILARITY 来生成两个新度量标准，即时间相似度和语义相似度。这些度量标准用于衡量两个子任务分解之间的时间对齐和语义逼真度，即 FM 子任务分解预测和基准子任务分解之间的对比。我们的结果显示时间相似度和语义相似度都高达 90% 以上，而随机基线只有 30%，在多个机器人环境中证明了我们提出的框架的有效性。我们的研究结果为构建多样化、大规模的语言监督数据集以改进机器人的任务和动作规划提供了可能。

Abstract

Recent works in task and motion planning (TAMP) show that training control policies on language-supervised robot trajectories with quality labeled data markedly improves agent task success rates. However, the sca

task and motion planning language-supervised robot trajectories automated framework temporal similarity semantic similarity

发现论文，激发创造

AutoTAMP: 基于 LLMs 的自回归任务和运动规划

该研究提出了一种基于大型语言模型和任务运动规划的方法，以实现机器人对自然语言任务描述的理解和执行。该方法可以检测并纠正语法和语义错误，并在复杂任务领域中优于使用大型语言模型作为规划器的其他方法。

Jun, 2023

语言条件的变点检测用于识别机器人领域中的子任务

利用语言指令识别机器人轨迹中的子任务，通过语言条件变点检测方法从长轨迹中找出与指令相对应的子轨迹片段，并通过实验证明了该方法在准确识别子任务方面的优越性。

Sep, 2023

基于时间戳的语言模型：教授语言模型理解事件流

使用时间戳编码的语言模型，将追踪实体的过程转化为问题回答问题的任务，取得了较好的结果。

Apr, 2021

LLM^3：基于大型语言模型的任务与动作规划及运动失败推理

LLM^3 是一种基于大型语言模型（LLM）的全新的任务和运动规划（TAMP）框架，具有领域无关的接口，利用预训练的 LLM 的强大推理和规划能力来提出符号动作序列并选择运动规划的连续动作参数，并通过提示将运动规划反馈到 LLM 中，从而通过对运动失败进行推理来不断改进提案，解决 TAMP 问题，选择行动参数的有效性得到定量证明，并在实际应用中对物理机械臂进行定性实验。

Mar, 2024

利用大型语言模型进行一致的时态逻辑规划：知道什么时候做什么和什么时候寻求帮助

针对移动机器人在完成多个高级子任务中的新运动规划问题，本文提出了 HERACLEs，一个层次化一致性自然语言规划器，通过自动机理论确定机器人下一步应完成的子任务，使用大型语言模型设计满足这些子任务的机器人计划，并通过符合预测推理出计划的正确性和任务满足程度，并确定是否需要外部协助。

Sep, 2023

比较之前的推理：领域专业文本分析的 LLM 增强语义相似性度量

利用 LLM 增强语义分析以及为文本开发相似度度量标准，解决了传统无监督 NLP 度量标准如 ROUGE 和 BLEU 的局限性。我们开发了一个框架，利用类似 GPT-4 的 LLMs 进行零样本文本识别和标签生成并为放射学报告进行度量，然后将这些标签作为文本相似度的测量标准。通过在 MIMIC 数据上测试提出的框架，我们发现 GPT-4 生成的标签能够显著改善语义相似度评估，其得分与临床实际情况更为一致，而不同于传统的 NLP 度量标准。我们的工作证明了利用 LLMs 对高度专业化领域的文本数据进行半定量推理结果进行语义分析的可能性。虽然该框架是针对放射学报告相似性分析而实现的，但其概念也可扩展到其他专业化领域。

Feb, 2024

SemScore：基于语义文本相似度的指导调整 LLMs 的自动评估

提出一种称为 SemScore 的直接将模型输出与目标响应进行语义文本相似度比较的简单但非常有效的评估度量，对于评估调整教学语言模型在人工评估方面具有优势。

Jan, 2024

科学摘要评估的反思：在面向因素的基准上建立可解释指标

本研究分析和评估了预训练的大型语言模型在科学文献摘要中的应用，并介绍了 Facet-aware Metric 评估方法以及 Facet-based 科学摘要数据集的构建。研究表明，Facet-aware Metric 提供了一种更加合理的科学摘要评估方法，而在科学领域，经过精细调整的较小模型可以与大型语言模型竞争，但大型语言模型在学习科学领域中的上下文信息方面存在局限性，需要进一步改进。

Feb, 2024

Timo：朝着更好的语言模型时态推理

大型语言模型（LLMs）理解世界的关键是对时间进行推理。我们通过系统研究 38 个时间推理任务，提出了能够处理各种时间推理任务的通用框架，其中使用数学数据集为时间推理奠定了坚实基础，并通过自我批评的时间优化方法，提升了模型的时间推理能力。最终，我们开发了 Timo 模型，在 7B 和 13B 规模上在时间推理方面表现出色，并在平均准确度上超过了同类 LLMs 的 10.0 和 7.6，实现了新的最先进性能。通过广泛的实验证明了我们的框架的有效性和在不同时间任务上的泛化能力。

Jun, 2024

用语言导向的时间变分推断进行技能学习

我们提出了一种从专家示范中发现技能的算法，该算法首先利用大型语言模型对轨迹进行初步分割，然后采用层次变分推理框架结合语言模型生成的分割信息，通过合并轨迹段来发现可重用的技能。为了进一步控制压缩和可重用性之间的权衡，我们引入了一种基于最小描述长度原则的新辅助目标，有助于指导这一技能发现过程。我们的结果表明，使用我们的方法装备的代理能够发现有助于加速学习的技能，并在 BabyAI（一个网格世界导航环境）以及 ALFRED（一个家庭仿真环境）的新长期任务中胜过基线技能学习方法。

Feb, 2024