黑盒人工智能代理的差异性评估
本篇论文介绍了一种基于 agent assessment module 的 AI 系统执行高级指令序列并回答用户问题的方法,通过不同类别的查询来比较这种方法的计算要求和正确模型的学习所需的努力,并介绍了动态因果决策网络来捕捉 STRIPS-like 领域的因果结构。
Aug, 2021
本文提出了一种主动贝叶斯方法,通过选择实例进行标记来提高分类器模型性能的评估,从而在可靠性和标签效率上都满足要求,通过一系列系统实验评估现代神经分类器(例如,ResNet 和 BERT)在几个标准图像和文本分类数据集上的性能,证明了该方法的显着优势。
Feb, 2020
本文提出了一种新的方法,使用最少的查询界面,采用分层查询算法来生成询问策略,以估算黑盒自主智能体的可解释性实体模型,并使用谓词分类器学习代表状态的图像的规划智能体的可解释模型。经验证明,尽管可能存在无法搜索的潜在空间,但我们的方法允许对各种黑盒自主智能体进行正确和可扩展的估算。
Dec, 2019
本文介绍了一种通过不同 iable surrogates 来规避计算时间瓶颈的方法,这种方法可以使现代行为模型在线使用而无需考虑其计算成本,并且在计算时间上可以实现与无法似然推断方法相当的建模能力,最后,我们展示了如何使 AI 助手在先前研究过的菜单搜索任务中计算模型的可行性。
Nov, 2022
适应预测模型为基础的 AI 助手存在结构上的两个失败原因:自我暗示的错觉和预测 - 策略不一致。通过引入来自环境的反馈循环可以解决这两个问题,并验证了理论和实证分析的一致性。
Feb, 2024
本文从数据分布和不确定性的角度提出了一个分析 AI 系统的框架,并通过大规模实验和深入调查达成了几个对更深入研究 AI 系统的需求和机会的关键发现。
Dec, 2022
大型语言模型和 AI 助手通过 API 调用的能力取得了显著的进展,然而现有的评估方法可能具有误导性,我们提出了自动动态评估方法(AutoDE)来评估助手的 API 调用能力,不涉及人类的参与。实验证明 AutoDE 可以发现静态评估所遗漏的错误,并与人类评估更加接近。通过对四个 AI 助手使用我们构建的基准测试,我们的方法与人类评估具有 0.99 的相关性,比传统的静态评估提高了 8%。
Mar, 2024