- 无标记数据在公平决策中的应用
该论文提出了一种基于变分自编码器的新方法,用于实现公平的决策制定,通过使用标记和未标记数据来学习无偏见的数据表示并在在线过程中使用这些表示来学习决策策略,实现了较低方差的最优(公平)政策,并比以前的方法提供了更高的公平性和效用。
- Soar 简介
本文介绍了 Soar 的架构、处理方式、学习模块,以及决策制定、学习等方面的支持,分析了 Soar 作为支持通用人类水平 AI 的体系结构,并包含一部分近期 Soar 代理的简短描述和所使用术语的词汇表。
- 可解释知识图谱嵌入:支持机器人行动推理的知识推理协调
该研究使用决策树分类器解释学习的黑盒知识图谱表示,提供自然语言解释以帮助非专家解决机器人行为问题,结果表明该框架提供了对知识图谱对机器人决策的影响的解释和校正。
- HOP: 历史和顺序感知的视觉语言导航预训练
本文提出了一种新的历史和顺序感知的预训练范式,旨在提高视觉文本对应和决策能力,同时考虑了过去观察结果和未来操作预测,在 R2R、REVERIE、NDH 和 RxR 四个下游任务中与几个最先进的方法相比展示了显著的效果提高。
- AAAI以同意为负责任自主的基础
本文提出了关于如何实现运行时智能代理负责任的动态方面。首先,提供了关于同意的概念分析,以及如何理解同意可以帮助实现负责任的自主性。其次,概述了人工智能所面临的挑战,特别是代理和多智能体系统,在多智能体系统中建模同意并应用同意实现负责任性的基 - AAAI认识到偏好变化的重要性:呼吁在人工智能时代进行协调的跨学科研究努力
本文提出成立跨学科组织,聚焦于理解 AI 系统对个体决策偏好的影响,运用各学科概念对偏好进行操作化,提出偏好变化的框架,并明确了可接受的和不可接受的变化。
- 推理反事实以改善人类逆强化学习
为了让人类能够很好地与机器人协作,提出了一种包含逆强化学习和演示方法,在选择展示时考虑了人类对机器人决策的预期,使用了一种新的测试难度测量方法,并发现这种方法在易于测试的情况下降低了人类的性能,但在难于测试的情况下增加了性能。
- TANDEM: 使用触觉传感器学习联合探索和决策制定
该研究提出一种名为 TANDEM 的框架,通过协同训练的探索和判断模块,实现机器人通过触觉信息进行目标识别任务,具有更高的准确性和更强的鲁棒性。
- 智能决策者通用模型的探索
该研究探讨了人工智能、心理学、神经科学等学科对决策制定的共同模型,提出了一个中性术语的设计,以便促进多个学科之间的交流和合作。
- 人机协作中做对未做错的事情
本文探讨了社交机器人操作的社会性和公平性决策的重要性,提出了通过避免负面行为而非复制正面行为的新方法学习公平和社交行为。
- 学习分类器系统中的规则发现和全局解决方案组合分离
本文针对数字代理支持关键决策的应用难以获得信任这一难题,提出了基于规则学习的系统并设计透明易懂的模型,其中规则条件和问题解决方案的组成是分开演化的,允许用户特别定制模型以适应可解释性的要求。
- 基于传感器的机器人控制的基本限制
发展机器人传感器性能极限的理论和算法,定义了一个获取任务相关信息的量,利用信息理论的广义 Fano 不等式,在一步决策任务和多步问题上提供性能上限的算法,并在三个实例中进行了演示。
- 结合机器学习和基于规则的算法的安全关键决策制定和控制框架
本文提出了一个决策控制框架,将基于规则的技术和基于机器学习的技术结合起来,解决了安全性和多重要求的问题,在自动驾驶中得到了应用。
- 在受限环境中结合快速和慢速思考实现类人和高效导航
本文提出了一种基于快速 / 慢速求解器和元认知组件的通用架构,意在通过现有认知人类决策理论对 AI 系统的一些重要人类能力进行提升,并在此基础上尝试应用于基于有限环境下导航决策等方面,实验结果表明,这种决策策略组合可以大大提高系统的决策质量 - 交集概率:利用概率区间进行投注
本文提出使用交集概率作为将概率区间转化成决策的最自然方法,并着重讨论了其可信原理作为概率的单纯剖面对决策的意义。
- 用 Emukit 仿真物理过程
本文介绍了 Emukit—— 一个高度可适应的 Python 工具包,可用于丰富不确定情况下的决策制定,包括贝叶斯优化、多保真度模拟、实验设计、贝叶斯积分和灵敏度分析等领域的研究,同时用户可以轻松地为新问题原型化新的决策制定方法。
- 不确定情况下的序列决策中的反事实解释
本文提出了一种基于马尔可夫决策过程和 Gumbel-Max 结构因果模型的动态规划算法寻找决策过程中的反事实解释来优化决策,并在认知行为治疗的合成和真实数据上进行了验证。
- ACL设计一个自动化的代理程序用于重复语言类说服游戏
本文介绍了使用自然语言评论的重复发送者(专家)- 接收者(决策者)游戏,利用 MCTS 算法和深度学习模型,以行为和语言信号为基础来预测下一个动作和未来的回报,进而形成口头说服。该专家相对于其他基准算法具有显著优势,并适用于不同的决策者。所 - 连续时间赌博机问题的稳健实验
本研究通过对 DM 在双臂赌博环境中的实验动态进行研究,明确了决策者面临的实验决策最优策略,同时通过提供信息源,揭示了对于游走在不确定性中的一臂的阈值会上升,导致更多的保守性,并且为专家意见的获取提供了便利。
- AAAI用于理解人类信息查找模式的不依赖于模型的适配器
该研究使用深度学习模型复制人类在决策任务中出现的偏见和行为,研究发现通过从人口中抽样数量庞大的受试者,可以克服来自个体受试者采集数据量的缺陷。此外,该方法可以在不做任何关于任务目标、奖励结构或个体偏见的假设的情况下高准确度地预测人类行为,对