- 网络学习和游戏中 LLM 代理的后悔案例研究
通过对大型语言模型代理在决策中的性能进行度量,我们提出通过性能指标 “遗憾” 在在线学习和博弈论的基准决策情景中研究它们的交互,以更好地了解这些交互环境中 LLM 代理的局限性。
- 决策基础模型中的幻象检测:一个灵活的定义和现有技术综述
自主系统使用基础模型进行决策的应用方向非常有前途,然而基础模型往往存在产生不合理决策的问题,因此有必要设计系统来量化模型的决策确定性并检测模型产生幻觉的情况。本研究讨论了基础模型在决策任务中的当前应用案例,给出了幻觉的一般定义及示例,并探讨 - 人工智能与人类合作的互补性:概念、来源和证据
人工智能在各个应用领域可以提高人类决策能力。理想情况下,人类与人工智能之间的合作应该能达到互补的团队表现,尽管迄今为止,很少观察到这种互补的现象,这表明对于决策中人工智能与人类合作中的互补成分的理解仍然不足。本文建立了一个关于理解和开发人工 - 建立一种适用于成对比较方法的领导者
两个算法可以用于发起决策方法中两个被选备选方案的权重相等化的操纵攻击,在使用蒙特卡洛模拟的理论研究中展示了偏好矩阵的大小、不一致度和操纵的易程度之间的关系。
- 关于主动推理中的预测规划与因果学习
通过研究主动推理中基于计划和经验学习的两种决策方案,本文提出了一种混合模型,以平衡决策过程,并在挑战性的网格世界情景中评估了该模型的适应性,并分析了各种参数的演变,为智能决策提供了有价值的见解。
- 关于 LLMs 决策能力的探究:在多智能体环境中评估 LLMs 的游戏能力
通过 Game Theory 基于 GAMA-Bench 框架评估 LLMs 的决策能力,研究发现 GPT-3.5 在鲁棒性方面表现出色,但其概括能力相对有限,通过 Chain-of-Thought 等方法可以提高其性能;此外,评估发现 G - 人工智能时代的基于语言的博弈论
通过情感分析来研究决策和策略互动中的人类行为,以改变传统基于结果的效用函数观点,强调语言的重要性,为经济学、心理学和人工智能领域提供新颖的博弈论方法。
- 大型语言模型能否玩游戏?一种自我对弈方法的案例研究
结合蒙特卡洛树搜索和大型语言模型的创新方法可有效解决决策型游戏问题,提高大型语言模型的性能并处理蒙特卡洛树搜索无法应对的挑战。
- ICLN:面向决策聚焦学习的输入凸损失网络
在决策问题中,通过学习预测模型与优化相结合可以提供更好的决策,本文提出了一种全局代理损失函数 ICLN,通过 Input Convex Neural Networks 学习任务损失,并在保持全局结构的同时适用于通用 DFL 框架。
- LLM 辅助决策的决定因素
通过对大型语言模型辅助决策的影响因素进行综合文献分析,本研究提供了一种结构概述和详细分析,探讨了技术、心理和决策特定的决策影响因素,同时通过多个应用场景展示了这些影响因素对决策过程的影响,并提出了一种依赖框架来系统化这些因素之间的相互作用。 - 通过不确定性提升可解释的自动驾驶车辆对象感知模型
基于 “物体引导” 模型方法和 Beta 先验的证据深度学习范式,该研究提出了一种解释自动驾驶车辆决策的方法,通过集成不确定性评估来克服复杂驾驶场景中可靠性方面的挑战,并在基于 BDD-OIA 数据集的实验中证明该模型在各种情景下优于现有基 - 分析联结谬误的事实
通过分析多个实验的文献,我们发现大多数关于连词谬误的研究集中在某个狭窄的前提事实可能性上,暗示了连词谬误的解释在本质上被所研究的可能性的短视所限制。
- 人机协同智能运营
使用聚合性众包预测(ACF)作为一种机制来实现人机团队的 “集体智能” 的具体操作,以提供协调行动的能力,并探索 ACF 作为一种关键的方法,以增强决策能力和开启决策优势的新形式。
- 重新思考人类化翻译策略:将漂移扩散模型与大型语言模型整合用于机器翻译
利用 Thinker 和 Drift-Diffusion 模型重新定义漂移扩散过程来模拟人类翻译者在受限资源下的动态决策制定,通过对 WMT22 和 CommonMT 数据集进行广泛实验,发现 Thinker-DDM 在高资源和低资源翻译设 - 合理性报告卡:评估大型语言模型的经济合理性
使用 LLMs 作为决策 “代理人” 引起了越来越多的兴趣,但评估这种代理人的经济合理性仍然是一个关键问题。本文通过调查经济理论、提出基准分布和进行大规模实证实验,对 LLMs 的表现进行定量评估,揭示了当前技术水平以及模型大小对模型表现的 - 算法公平性 - 准确性边界的推断
通过提供一致的估计器和推理方法,本文研究了决策过程中算法的公平性和准确性之间的权衡,还提出了是否排除算法训练中的某些协变量以及是否存在非歧视性替代算法等方面的假设。
- 表征的二重奏及解释的恶化
算法效果对人类感知中特征和标签之间的因果关系进行了表示,这种表示可能与人类先验信念相冲突。解释可以引导人类注意冲突的特征,从而避免注意其他相关特征,从而导致因果过度归因,并且可能对人类的信息处理产生不利影响。
- 自洽的共形预测
决策者使用机器学习进行决策时,在预测结果相同的情境下通常会采取相同的行动。符合性预测有助于决策者量化行动的结果不确定性,从而实现更好的风险管理。我们提出了自洽符合性预测,它能够生成既具有 Venn-Abers 校准的预测,又能在模型预测促使 - 支持决策的数字战争游戏中用于扩展人工智能
本文介绍了在技术驱动的转型时代,加强对人工智能在决策支持军事模拟中的应用的投资的重要性,通过推进人工智能系统和人类判断的结合来提高全域意识、改善决策周期的速度和质量、提供新型行动建议以及更迅速地应对对手行动;同时提出了通过深度强化学习来开发 - DeLLMa:一种基于大型语言模型进行不确定性决策的框架
大型语言模型(LLM)在商业、工程和医学等领域日益广泛应用。本文提出了 DeLLMa(不确定环境下的决策型大型语言模型助手)框架,通过多步骤的脚手架过程,绘制决策理论和效用理论的原则,提供一种优化且可由人类审查的决策过程,从而显著提高 LL