- ICML基础代理:决策制定的范式转变
决策制定需要通过知觉、记忆和推理之间的复杂相互作用来识别最优策略。本文提出基于基础代理的构建作为学习代理的一种变革性转变,旨在解决决策制定中面临的低样本效率和泛化能力差的挑战。通过从大型语言模型(LLMs)获得启示,明确了基础代理的基本特征 - 演化算法评估 Connect-4 中高级 Minimax、Q-Learning 和 MCTS 的比较框架
在大状态空间的决策领域中,有效选择最大效用的行动是一个主要挑战。本文针对一个游戏领域 ——Connect-4,开发了一种新颖的进化框架来评估三类算法:强化学习(RL)、极大极小算法(Minimax)和蒙特卡洛树搜索(MCTS)。研究发现,M - HighwayLLM:基于增强学习的语言模型的高速公路驾驶决策与导航
通过集成大型语言模型(LLM)与强化学习(RL)和 PID 控制器,本研究提出了一种名为 HighwayLLM 的新方法,用于实现高速公路自动驾驶的安全、无碰撞、可解释的决策过程。
- 揭示议程:一个用于社交媒体议程检测的新型法英数据集
通过使用以 2022 年法国总统选举为中心的推特信息集,本文提出了一种用于检测社交媒体上特定议程控制实例的方法,该方法适用于注释数据有限或不存在的情况,并通过评估不同方法和技术的全面性展示了其可行性,证明将任务视为文本蕴涵问题可以克服对大规 - 使用视觉语言模型指导人类决策者的学习
机器学习模型在高风险任务中辅助人类决策,通过提供可解释且任务特定的指导,而不是取代人类专家的决策能力。
- 关于具有有限样本复杂度保证的对抗学习的鲁棒优化
通过受支持向量机(SVM)边界启发,本文提出了一种新的对抗训练方法来提高鲁棒分类器对线性和非线性分类问题中不确定性的处理能力。我们通过数据驱动的视角来解释鲁棒性,并推导了二元和多类情景下线性和非线性分类器的有限样本复杂度界限。我们的算法通过 - 海底工程异常检测的有监督时间序列分类
通过监测物理系统的仿真数据,我们使用监督机器学习分类算法对时间序列进行分类,并讨论了时间序列数据预处理、统计分散度和降维技术。我们提出了一种直观的基准方法,并讨论了其效率,并通过不同性能指标的比较,展示了使用机器学习技术在决策中的优势。
- 潜在行为生成
通过将连续行为离散化为层次化矢量量化模块,VQ-BeT 是一种能够处理多模态行为预测、条件生成和部分观测的行为生成通用模型,其在七个环境中取得了比 BeT 和 Diffusion Policies 等现有模型更好的效果,并且加速了推断速度 - 超越期望:基于随机优势学习的实用方法
使用随机优势建立学习的通用框架,包括了对不确定性决策的风险厌恶偏好,并在各种应用中展示了与标准风险中性策略性能相当且在风险方面取得更好的平衡的结果。
- PokéLLMon:大型语言模型的人机平等宝可梦战斗代理
通过人类与 Pokémon 战斗中表现出的在线对战策略和即时决策,我们展示了 PokéLLMon 在战术战斗游戏中达到了与人类相似的表现,并取得了梯队赛中 49% 获胜率和邀请赛中 56% 获胜率,实现和可播放的战斗记录可在 https:/ - 基于一致预测集的人类决策改善
在这项研究中,我们通过进行一项预先注册的随机对照试验,提供给人类被试一些确定度集合,从而研究了确定度集合对人类决策的辅助作用。结果表明,使用确定度集合来量化模型的不确定性对于人机合作决策和人工智能团队非常有帮助。
- 基于 PSO-RDV 框架强化人工神经网络的预测改进
决策制定和规划长期以来在很大程度上依赖于基于人工智能的预测。
- 用于机器人物体消歧的 LLM
该研究揭示了预训练大型语言模型在机器人领域中有效消除对象歧义和导航决策挑战方面的能力,特别是在与部分可观测马尔可夫决策过程(POMDPs)进行模拟的复杂决策挑战中。通过将大型语言模型整合到桌面环境消除歧义任务中,我们采用了少样本提示工程系统 - EMNLPLLM 决策能力的敏感性探究:来自提示变异和超参数的洞察
大型语言模型在决策任务中的表现与输入提示和超参数有关,并显示出与人类相似的探索和开发权衡。
- 算法决策中预测的相对价值
在公共领域中,算法预测用于配置商品和干预措施,预测作为一种手段为相关利益相关者提供关于未来事件可能性的见解,以提高决策质量和增加社会福利,本研究的目标是正式研究预测在算法决策中的相对价值,并在几个量化社会科学研究者之间流行的统计模型中确定预 - 现代电子游戏中数据高效的模仿学习的视觉编码器
通过对视觉编码器与传统任务特定的端到端训练方法在现代游戏中进行模仿学习的系统研究,推动了更广泛的参与现代游戏中游戏代理研究。
- 从 DDMs 到 DNNs: 利用决策过程数据和模型改进人机交互
人工智能研究可以通过更强调决策随时间演变的洞察和整合相关的过程数据来提高对人工智能预测的准确性和人机交互的效果。
- 基于高斯过程的低数据置信图像预测的非参数模型研究
未来状态预测在与动态环境交互中对决策具有至关重要的作用。我们提出使用非参数模型以概率化的方式预测图像序列的未来图像,并通过时间传播不确定性生成预测的置信度度量。我们利用高斯过程的数据效率和在线动态训练能力来演示我们的方法,成功预测了平滑流体 - 情感人工智能的量子操作
本文分析了模拟人类情感决策过程应该基于的人工智能基本原理,比较了基于量子理论与经典术语的两种方法。虽然认知过程与量子测量具有许多形式类似的特征,但模拟人类决策过程时,情感人工智能没有必要依赖于量子系统的功能。情感人工智能的运作避免了传统决策 - 交互决策中的实例最优性:走向一个非渐近理论
本研究旨在开发适应性算法,用于互动决策制定,并在实际状况好的实例中适应性地提高性能。研究提出了 Allocation-Estimation Coefficient (AEC) 的复杂度度量,并提出了新的算法 AE2,它控制了 AEC 的速率