sequential decision-making | BriefGPT

关键词sequential decision-making

搜索结果 - 106

实例温度知识蒸馏
知识蒸馏 (KD) 通过允许学生网络逐步学习从教师网络传输的知识来提高其性能。我们提出了一种基于强化学习的方法 RLKD，将温度调整视为顺序决策任务，并设计了一种新颖的状态表示来使代理能够做出更明智的动作 (即实例温度调整)。我们的方法解决
PDF7 days ago
大型语言模型评估顺序决策能力的 UNO 竞技场
大型语言模型在序列决策方面的能力得到展示。为了评估大型语言模型的序列决策能力，本文提出了基于 UNO 扑克牌游戏的 UNO Arena，并通过基于蒙特卡洛方法的新颖指标动态评估了大型语言模型的序列决策能力。进一步提出了 TUTRI play
PDF10 days ago
ARDuP：Active Region 视频扩散技术的通用策略
基于文本定义目标的视频规划器生成未来帧以可视化计划行动，从而导出控制行动，本文介绍了一种名为 ARDuP （Active Region Video Diffusion for Universal Policies）的视频策略学习框架，通过强
PDF15 days ago
弥补强化学习中奖励匹配问题
生成流网络（GFlowNet）是一个概率框架，其中代理通过学习随机策略和流函数，以与未归一化奖励函数成比例的概率进行对象采样。在这篇论文中，我们建立了 GFlowNet 与均匀策略的策略评估之间的新联系，并提出了一种新颖的修正型策略评估（R
PDFa month ago
关于为主动大型语言模型提供反应提示的脆弱基础
通过对输入提示的系统变化进行敏感性分析，我们发现 LLMs 的性能受到例示 - 查询相似度的影响，并且推理能力源于近似检索，而非内在推理能力。
PDFa month ago
AAAICPS-LLM：基于大型语言模型的人 - 机 - 工网络中安全使用计划生成器
使用大型语言模型（LLM）和人在环循环人在植物物理系统（CPS）中探索将高水平提示转化为个性化行动计划，并随后将该计划转化为由实际物理系统控制器自动执行的推理序列决策，以达到控制目标。我们表明，将 LLM 置于上下文中使其能够生成领域特定的
PDFa month ago
序贯决策中的人类建模：通过人类感知人工智能之镜透析
人机感知人工智能是一种以设计为导向的范式，专注于对其可能与之互动的人进行建模，并通过使用这些维度作为工具，了解和审查与人工智能系统相关的当前工作情况。
PDF2 months ago
从语言中学习规划抽象化
该论文提出了一个学习状态和动作抽象的框架，利用带有语言注释的示范数据来自动发现符号化和抽象化的动作空间，并在此基础上引出一个潜在的状态抽象。框架包括三个阶段：恢复对象级和动作概念，学习状态抽象、抽象动作的可行性和转移模型，以及对抽象动作应用
PDF2 months ago
从次优演示中学习奖励的应用于外科电凝
通过学习演示（LfD）技术实现自动化机器人手术非常具有挑战性，本文介绍了一种从有限数量的次优演示中学习强健奖励函数的方法，并通过强化学习（RL）优化学习到的奖励函数来学习策略。通过在一个物理手术电刀任务上应用我们的方法，我们证明了即使提供的
PDF3 months ago
基于全局损失的自主移动即需车队控制的多智能体软演员评论
我们研究了自主移动出行系统的利润最大化操作员的顺序决策问题。通过使用多智能体软演员 - 评论家算法结合加权二分图匹配，我们优化了中央操作员的车辆调度策略，提出了一种新的基于车辆的算法体系结构，并调整了评论家的损失函数以恰当地考虑全局行动。此
PDF3 months ago
多任务偏好对齐的正则化条件扩散模型
在这项工作中，我们采用多任务偏好作为统一条件，既适用于单任务又适用于多任务决策，提出了与偏好标签对齐的偏好表示方法。通过引入一个辅助目标来最大化表示和生成的轨迹之间的互信息，改善了轨迹和偏好之间的对齐。在 D4RL 和 Meta-World
PDF3 months ago
决策玛巴：有选择性状态空间的序列建模强化学习
该研究探讨决策变压器架构中整合 Mamba 框架的潜在性能提升，并通过实验评估修改后的决策变压器模型 Decision Mamba 在不同决策环境中的效果，为顺序决策模型的发展做出贡献，突显了神经网络的架构和训练方法对复杂任务性能的重要影响
PDF3 months ago
行内文本自动补全的顺序决策
通过序列决策制定的形式和强化学习来改善文本输入系统中的内联自动完成建议，以遵循用户的输入速度为基础的回报函数，通过理论和实验结果验证了顺序决策制定对自动完成建议问题提供了更好的策略。
PDF3 months ago
监督微调作为逆强化学习
我们通过建立一个顺序决策框架，利用示范数据集来对齐大型语言模型（LLMs），并介绍了各种减小 LLM 对齐任务中差异的方法，分析了这些方法的覆盖率和寻求主模式的行为，以及传统监督微调方法的优势和劣势。
PDF4 months ago
通过鞍点优化实现遗憾最小化
通过最小化后悔的样本复杂性，本论文提出了一种基于决策 - 估计系数（DEC）的在线算法，用于优化结构化强化学习和有限模型类的探索 - 利用平衡问题。
PDF4 months ago
AutoGuide: 大型语言模型代理的自动生成和选择状态感知指南
通过提取蕴含于离线数据中的知识，AutoGuide 框架在大型语言模型的知识缺失问题上取得了重大突破，并通过提供与代理程序当前决策过程相关的有用知识，在顺序决策基准测试中大幅优于竞争的基于大型语言模型的基线模型。
PDF4 months ago
LinearAPT：适应性算法用于有固定预算的线性赌奇臂问题
该研究深入研究了阈值线性赌博机（TLB）问题，这是随机多臂赌博（MAB）问题中的一个细分领域，侧重于在资源约束下最大化对线性定义的阈值的决策准确性。我们提出了 LinearAPT 这个新算法，它适用于 TLB 的固定预算情景，为优化序贯决策
PDF4 months ago
不完美代理的合作贝叶斯优化
我们提出了一种合作的贝叶斯优化问题，用于优化两个变量的黑盒函数，其中两个代理一起选择在哪些点查询函数，但每个代理只能控制一个变量。这个设置受到人工智能与人类合作的启发，在这种简单情况下进行协同优化。我们将解决方案制定为顺序决策过程，我们控制
PDF4 months ago
关于信息结构在不完全可观察的序列团队与游戏中的增强学习的作用
通过明确信息结构，我们提出了新的强化学习模型，捕捉了经典模型作为特例，以更丰富的方式分析顺序决策问题并实现更具针对性的算法设计。
PDF4 months ago
自进化自编码嵌入 Q 网络
在连续决策任务的领域中，强化学习代理的探索能力对于通过与环境的交互获得高回报至关重要。为增强这一关键能力，我们提出了 SAQN，一种新颖的方法，其中包含了一个自进化自编码器（SA）和一个 Q 网络（QN）。在 SAQN 中，随着代理对环境的
PDF5 months ago