Boltzmann策略分布：从人类模型中解释系统性次优

Apr, 2022

Boltzmann策略分布：从人类模型中解释系统性次优

The Boltzmann Policy Distribution: Accounting for Systematic Suboptimality in Human Models

Cassidy Laidlaw, Anca Dragan

TL;DR在人类行为的建模中，耦合行动选择与时间的策略预测模型有助于解决人类展现出的系统非最优性问题。介绍了Boltzmann策略分布(BPD)，作为人类策略的先验，并通过贝叶斯推断来捕捉人类非最优行为的系统偏差。研究发现，相比于基于人类模仿学习的模型，BPD在使用更少数据的情况下同样有效地实现了对人类行为和人工智能协作的预测。

Abstract

Models of human behavior for prediction and collaboration tend to fall into two categories: ones that learn from large amounts of data via imitat

发现论文，激发创造

使用贝叶斯非参数子目标模型建模人类对复杂故意行为的理解

本文模拟了人类如何通过观察复杂动作序列来推断子目标，结合非参数贝叶斯模型进行了行为实验，证明了该模型在推断人类子目标方面的高准确性和较好的效果，同时还模拟了使用子目标学习和推断在人工用户辅助任务中如何提高性能。

Dec, 2015

从行为推断动态信念：你认为自己要去哪里？

本文提出一种基于内部信念的模型, 推断人类意图以更准确的模拟人类,并可以应用于共享自治框架和推断人类偏好等应用中。

May, 2018

当人类不是最佳选择：与风险意识人类合作的机器人

本文介绍了如何通过风险意识的人类行为模型来安全、高效地进行机器人技术和人类的协同作业过程，旨在预测和规划人类常常表现出的非最优行为。

Jan, 2020

LESS is More: 重新思考人类行为的概率模型

提出一种基于轨迹空间的Boltzmann模型来更好地解释人类行为，并在玩具环境和机器人示范中获得更准确的推断结果。

Jan, 2020

用于理解人类信息查找模式的不依赖于模型的适配器

该研究使用深度学习模型复制人类在决策任务中出现的偏见和行为，研究发现通过从人口中抽样数量庞大的受试者，可以克服来自个体受试者采集数据量的缺陷。此外，该方法可以在不做任何关于任务目标、奖励结构或个体偏见的假设的情况下高准确度地预测人类行为，对于计算建模人类认知功能和人机交互具有重要意义。

Dec, 2020

仿真学习中的反馈：协变量转移的三种模式

通过利用模拟器而无需进一步访问专家演示，我们证明了一类广泛存在的问题，这些问题可以在理论和实践上缓解移量漂移的影响，并详细说明了需要新的标准化基准来捕捉机器人问题中的现象。

Feb, 2021

人类不是玻尔兹曼分布：应对强化学习中人类反馈与交互建模的挑战与机遇

该论文呼吁从不同学科出发进行研究，以解决人类如何向人工智能提供反馈以及如何构建更健壮的基于人类协作的强化学习系统的关键问题，并提出人类模型必须是个性化，情境化和动态的观点。

Jun, 2022

使用机器学习设计最优行为实验

本研究提供了有关利用 BOED 及机器学习寻找可为任何类型的可模拟数据的模型提供最佳实验的教程，以及如何使用此过程的副产品快速、简便地评估模型及其参数与真实实验数据的方法，并利用模拟和真实实验验证了所提出方法的有效性。

May, 2023

玻尔兹曼状态相关理性

通过在Boltzmann合理性模型中用状态函数$\beta(s)$取代次优常量$eta$，本研究通过测量结构性非理性在现有的人类行为学习模型中得到了扩展，从而以一种可计算的方式获得了自然的表达能力。

Apr, 2024

利用机器学习捕捉人类战略决策的复杂性

本研究解决了人类在战略环境中决策行为理解的长期问题，开展了超过9万个决策的数据分析，展示了深度神经网络在预测人类选择方面的优越性。研究发现，个体游戏的复杂性影响人们的决策能力，并揭示了偏离理性纳什均衡的原因，这表明机器学习不仅能用于预测，还能提供对复杂人类行为的新解释。

Aug, 2024