- 在开放式文本世界中进行少样本任务迁移的专家混合方法
多任务学习中混合专家模型与注意力机制结合的研究表明,代理能够在开放式环境中通过重用先前任务的知识并快速学习新任务,同时在零样本和少样本学习中表现出更高的奖励获得和采样效率。
- ICLR智能无需复位强化学习中的切换
重置、强化学习、代理、算法、无重置强化学习。
- 学习击败 ByteRL:可收集卡牌游戏智能体的可利用性
通过对 ByteRL 在《法典传说》和《炉石传说》中的表现进行初步分析,我们发现这种技术在这类游戏中的可利用性很高。
- COLINGDELAN: 视觉与语言导航的双层对齐:跨模态对比学习
通过交叉模态对比学习,我们提出了一个名为 Dual-levEL AligNment (DELAN) 的框架,用于在融合之前对齐各种与导航相关的模态,从而增强交叉模态交互和决策制定。我们的方法与现有模型无缝集成,显著提高了各种 Vision- - CVPR为何不使用教科书?知识增强的教学视频程序规划
该研究探讨了代理程序在构建逻辑动作步骤序列方面的能力,从而组装战略性的过程计划。利用来自训练数据的程序化知识图,我们提出了一种名为 KEPP 的新型知识增强程序规划系统,该系统在各种复杂度设置下的实验评估结果表明,KEPP 取得了卓越的、最 - 基于模型的强化学习控制反应扩散问题
本文探讨了利用自动控制策略解决热传导和疾病传输的初始边界值问题,通过使用一种基于随机策略梯度方法的改进强化学习算法,并引入了两个新的奖励函数来驱动流体的传输,利用反应扩散模型和修改的代理之间的相互作用,成功实现了对这些应用的某些控制,尽管需 - AAAI可解释的脑启发表示提高视觉导航任务中的强化学习性能
通过慢特征分析方法生成可解释的视觉数据表征,以确定环境中代理的位置和航向,并展示在导航任务中分层慢特征分析法如何优于其他特征提取器。
- 个性化路径补权
论文介绍了个性化路径补救(Personalized Path Recourse)这一新方法,旨在为代理生成补救路径,以实现期望的目标并保持与代理原始路径的高相似性,并根据代理的观察行为模式个性化定制新路径。该方法适用于纠正或改进行动或数据序 - 通过互动学习物体的几何表示
从不受限制的各种观测中提取代理和外部物体在物理空间中的位置的表示学习框架,仅依靠代理执行的动作作为唯一的监督信号,并假设物体通过未知动力学被代理移动,能够确保从中推断出等度量表示,并正确提取它们的位置。
- 符号化的 LTLf 最佳努力合成
本文研究了代理在非确定性环境中完成任务的问题,提出并比较了多种使用有限轨迹线性时态逻辑的最佳努力合成方法,这些方法基于相同的基本组件,但在组件的组合方式上有所差异,并通过实证评估验证了这种差异对方法性能的重大影响。
- 想象中的规划:基于学习生成的抽象搜索空间的高级规划
我们提出了一种名为 PiZero 的新方法,使代理能够在完全与真实环境脱节的自主创建的抽象搜索空间中进行规划。与之前的方法不同,这使得代理能够在任意时间尺度上进行高层规划,并以复合或时间扩展的动作形式进行推理,这在需要执行大量基础微动作来执 - 以计算有限的强化学习为基础的持续学习
一个高效地累积知识、在长期生命周期中不断发展更复杂技能的代理机构,可以推动人工智能能力的前沿。本文概述和形式化了持续学习的概念,引入了一个框架和一套工具来激发进一步的研究。
- 通过为元学习生成演示来改进组合泛化能力
本文研究了基于元学习和少样本训练的方法如何实现某些组合行为,并提出了一种代理系统,该系统通过生成可能与测试查询和当前世界状态相关的支持来解决测试查询。实验表明,这种方法在以前未解决的组成行为方面表现出显着的提高。
- 面向角色依赖名称的本体设计模式
本文提出了一个本体论设计模式,可以将名字作为角色的一部分进行建模,以捕捉代理人使用与不同角色相关联的不同名称执行不同角色的情况。
- 基于深度强化学习的超视距空战自主智能体
本研究基于深度强化学习,开发一个能够在视距范围以外的空战模拟环境中运作的智能体。通过基于操作指标计算的奖励,使智能体能够学习和不断提高其在视距范围以外的空战中的角色,并通过自我对战实验来生成新的空战战术。该研究旨在探究使用虚拟模拟场景,对与 - MM利用反馈的实体视觉导航鲁棒性
本文提出了一个培训框架,用于训练代理在物体目标导航任务中主动寻求帮助,并提供有反馈的目标物体在其视野中的位置。为了使代理更加鲁棒,该培训课程包括具有和没有反馈的情节混合。结果表明,即使没有反馈,在这个方法的帮助下,代理的表现也得到了提高。
- 多模态强化学习的有效性:模态对齐与重要性增强
提出了一种新的多模态强化学习方法,通过相似性和重要性对不同模态进行多模态对齐和重要性增强,以学习有效的状态表示并改善强化学习过程,实验证明在学习速度和策略质量方面优于现有方法。
- 基于奖励的可配置智能体:游戏风格连续体生成
本文提出了一种利用强化学习算法设计视频游戏测试的方法 --CARI 代理,相比于传统的基于奖励函数规划的算法,CARI 能更好地模拟多样的游戏风格,并能够通过单次训练达到传统方法的多倍效果,该新型代理可以用于游戏行为及平衡性调整等方面的研究 - EMNLPDiffG-RL: 利用状态与常识差异的强化学习
通过构建差异图,使用一种交互式对象与专用图形编码器组织环境状态和常识的方式,文中提出一种新型代理 DiffG-RL,旨在从源中提取适当数量的常识信息,以支持图形的构建,用于解决既需考虑文本情境和常识,又需要进行决策的文本游戏任务,并通过实验 - 扩展智能
智能不仅存在于个体,也与其上下文环境交互作用,我们在此文中阐述了扩展智能的概念,强调了环境、其他个体、文化和技术等上下文因素对于个体的智能具有重要作用,指出智能是与人物特定任务相关的、无法衡量的。此论点具有很强的启示性,在心理学和人工智能领