ReAct Meets ActRe：用于对比自训练的智能体轨迹的自主标注

Mar, 2024

ReAct Meets ActRe：用于对比自训练的智能体轨迹的自主标注

ReAct Meets ActRe: Autonomous Annotations of Agent Trajectories for Contrastive Self-Training

Zonghan Yang, Peng Li, Ming Yan, Ji Zhang, Fei Huang...

TL;DR使用 A$^3$T 框架，通过自主注释代理轨迹，实现了多轮语言代理的自我改进，包括对失败任务的多轨迹执行和对成功和失败轨迹的对比自我训练，取得了显著优于现有技术的性能。

Abstract

language agents have demonstrated autonomous decision-making abilities by reasoning with foundation models. Recently, efforts have been made to train language agents for performance improvement, with multi-step r

language agents autonomous annotation trajectories self-improvement contrastive self-training

发现论文，激发创造

AUTOACT：自主规划的自动代理学习

AutoAct 是一个自动的代理学习框架，不依赖于大规模标注数据和闭源模型的合成轨迹。它通过自动合成规划轨迹和分工策略来实现多功能单一模型，在不同的 LLMs 上获得比强基准更好或类似的性能。

Jan, 2024

ReAct: 在语言模型中协同推理与行动

使用名为 ReAct 的方法，在大型语言模型中交错生成推理迹线和任务特定的操作，以促进两者之间的协作，从而在多项语言理解和决策任务中提高其有效性，同时优于缺乏推理或行为组件的方法。

Oct, 2022

基于动作的对比学习用于轨迹预测

本文研究车辆自主驾驶等人机交互场景下，预测第一视角的跟随摄像头采集到的行人轨迹，提出一种基于行人行为的对比学习损失、采样策略，辅以 CVAE 生成附加样本，将该对比框架与轨迹预测模型集成可显著提高模型预测效果，在多个基准测试中超过当前最先进的方法。

Jul, 2022

ReST meets ReAct：自我改进的多步推理 LLM Agent

通过 ReAct-style LLM 代理，我们可以迭代训练一个经过改进的小模型，用于具有挑战性的组合式问答基准测试，参数数量减少了两个数量级。

Dec, 2023

TrACT: 一种对训练动态敏感的对比学习框架，用于长尾轨迹预测

自动驾驶的安全性需要准确预测道路用户未来轨迹以进行安全运动规划，在具有挑战性的条件下尤为重要。本文提出了一种在原型对比学习框架中将更丰富的培训动态信息纳入其中的方法，并在两个大规模自然数据集上进行了实证评估，证明了该方法在改善长尾样本准确性和场景符合性方面达到了最先进的性能。

Apr, 2024

ATraDiff：使用虚拟轨迹加速在线强化学习

使用离线数据训练生成扩散模型以解决在线强化学习中的稀疏奖励问题。

Jun, 2024

Trajectron：具备动态时空图的概率多智体轨迹建模

研究人员开发了一种基于图结构的 Trajectron 模型，利用递归序列建模和变分深度生成建模来预测多个代理的未来轨迹，通过多个数据集的结果表明其性能达到了最佳，并引入了一个新的指标用于比较输出分布的模型。

Oct, 2018

多智能体张量融合用于上下文轨迹预测

自动驾驶中准确预测其他车辆 / 行人的运动轨迹非常重要，本文提出了一种基于多智能体张量融合网络的模型，可以模拟代理人之间的交互和约束以及环境场景等因素，从而实现对未来运动轨迹的精准预测，并在高速公路和行人数据集上表现出最先进的预测精度。

Apr, 2019

Trajectron++：具动态可行性的混合数据轨迹预测

Trajectron++ 是一个模块化的、图形结构的循环模型，它可以预测多个不同智能体的运动轨迹，同时考虑智能体的动态及不同的数据（例如，语义地图），它与机器人规划和控制框架紧密集成，能够在多个具有挑战性的真实轨迹预测数据集中表现出更好的性能。

Jan, 2020

通过对比行为总结展示自主机器人能力

本文提出了一种自适应搜索方法，用于有效生成对比行为总结，该方法支持连续状态和操作空间，并通过用户研究证明其可以帮助人们在有限的观察时间预算内准确选择表现更好的自主代理人。

Apr, 2023