trustworthy | BriefGPT - AI 论文速递

关键词trustworthy

搜索结果 - 25

LLM 自动竞技场：利用代理人对战和委员会讨论自动化评估 LLM
Auto-Arena 是一个自动、稳健且可信赖的评估框架，利用 LLM 代理自动化了整个评估过程，通过候选 LLM 之间的多轮对决以及 LLM 评委小组的讨论和决策，解决了 LLMs 评估的偏见和公平性问题，在 17 个最新的 LLMs 上
PDFa month ago
TELLER：一个可信的、泛化的、可控的假新闻检测框架
通过使用追求解释性、泛化性和可控性的认知系统和决策系统的双系统框架，我们提出了一种可信的假新闻检测方法，该方法使用人类专业知识生成逻辑谓词来指导大型语言模型生成可读的逻辑原子，并通过推导可泛化的逻辑规则来对这些原子进行聚合，从而实现对不同领
PDF5 months ago
保证智能逻辑代理在可信与道德行为方面的表现
在这篇论文中，我们提出 / 改进 / 扩展了基于动态（运行时）逻辑的自我检测技术，以确保自主智能代理的可靠和道德行为。
PDF5 months ago
精明：可信任的自动驾驶车辆架构
自动驾驶汽车的关键问题是安全性，本文提出了一种名为 Savvy 的可信智能自动驾驶汽车架构，通过控制层和数据层的明确分离来确保安全，并通过动态机器学习模型在安全时间限制内进行优化决策。
PDF5 months ago
ICML多模态、可解释的人工智能驱动的聊天机器人辅导系统中的信任与道德考虑：以共同解决魔方为例
人工智能有潜力以大数据揭示学生学习模式，但引发了伦理和可信问题。本文讨论了用于解决高中人工智能教育中的伦理和可信问题的技术组件，及 ALLURE 聊天机器人平台，以协助学生解决魔方问题。
PDF5 months ago
朝着可信赖的 AI 软件开发辅助
介绍了构建、训练和使用可靠的人工智能软件开发助理的整体架构，其中包括基于真实编码场景和复杂软件架构进行训练的 LLM，利用基于图形的代码表示进行高级语义理解，整合知识图谱以提供最新背景知识，并通过模块化的解码框架确保生成代码的正确性和安全性
PDF7 months ago
基于不确定性估计的聚焦式回归模型无关解释
该研究提出了一种利用模型非参数不确定性估计的选择性回归方法，通过全面的基准测试在 69 个数据集上展示了该框架优于现有选择性回归方法的性能，并使用可解释的人工智能技术对选择性回归的动因进行了理解。
PDF8 months ago
1-Lipschitz 神经网络基于 N - 激活的表达更加丰富
通过研究激活函数的角色，论文揭示了常用的激活函数以及两段式分段线性函数在表达函数时的局限性，并介绍了一种新的 N - 激活函数，证明其比目前流行的激活函数更具表达能力。
PDF8 months ago
通过可袭近性实现在线预测器的快速再校准
ML 预测模型需要是可靠的和值得信赖的，这通常意味着它们需要输出校准后的概率。本文介绍了一种使用布莱克韦尔可达定理的技术，将可能不具备校准性的在线预测模型转变为校准的预测模型，而原始模型的损失不会显著增加。我们提出的算法在在线环境中实现了比
PDF8 months ago
值得信赖的人工智能系统对环境和人类社会影响的社会伦理视角
AI 系统的可信发展需要多学科治理，通过关键的系统检查（如能源消耗）来全面审查其生命周期中的社会影响，以及从计算机科学、社会学、环境科学等多学科角度讨论其互相关联的社会风险和无法同时满足健康的方面，从社会伦理影响评估的角度强调了全面解决 A
PDF9 months ago
值得信赖且协同的软件工程人工智能：愿景与路线图
软件工程领域的未来将依靠人工智能技术（AI4SE）的发展，以提升开发者的生产力、提高软件质量，并实现可信赖和协同工作的目标。
PDF10 months ago
从生成智能到可信智能的过渡：大型语言模型可以从 Cyc 中学到什么
生成型 AI 是当前最流行的 AI 方法之一，它包括大型语言模型（LLM），这些模型被训练成可以生成看似正确但不一定准确的输出。然而，它们在推理方面存在不足，导致 LLMs 的可靠性不完全。此研究提出了一种替代 AI 方法，通过使用明确的知
PDFa year ago
使用大型语言模型的共形预测在多项选择题回答中的应用
探讨如何利用符合性预测方法对大型语言模型进行不确定性量化，以提高其在多选题答题等任务中的可靠性及稳定性。研究发现，符合性预测所估计的不确定性与模型的预测准确性存在密切关联，这一发现可以用于选择性分类及过滤低质量预测结果等下游应用。研究还探讨
PDFa year ago
推荐解释的可视化：调查与新视角
该论文综述了在可解释的推荐系统方面的文献，以四个维度为基础，即解释目标、解释范围、解释样式和解释格式，并探讨了使用可视化作为解释展示方式的指导方针，旨在帮助研究者和从业者更好地了解可视化解释研究的潜力，支持他们在现有和未来的推荐系统中进行系
PDFa year ago
合法使用合成说话头像视频的头像指纹识别
该研究提出了利用每个人独特的面部运动签名学习嵌入的想法来解决合成视频向肖像进行滥用的问题，同时贡献了一个大规模的数据集来解决这个新的 avatar fingerprinting 任务。
PDFa year ago
为可信 AI 野花监测平台定义质量要求
本文利用一种质量模型，对一个深度学习平台进行实际案例的研究，以野花监测为例，提出了三种跟该平台相关的现实情景，通过分析数据，模型和软件，提出质量要求，最终目的是为 AI 工程师提供可信任的 AI 系统的最佳实践。
PDFa year ago
面向在线广告拍卖的可信 AI 实时竞价
本文系统分析了在线广告领域中关键的问题，提出建立可信赖的 AIRTB 关键技术的研究方向，并详细讨论了建立安全性、稳健性和公正性等三个维度的可信体系所需的策略，并探讨了未来研究的方向。
PDF2 years ago
人道主义应对中的多人工智能复杂系统
本文介绍了人道主义应对中的多 AI 系统如何产生以及可能导致的紧急错误行为，讨论了如何更好地设计机制来理解和评估这些系统，从而实现更加可靠的多 AI 系统。
PDF2 years ago
值得信赖的图神经网络：方面、方法和趋势
本文提出了一个全面的路线图，从各种涉及的计算技术的角度建立可信任的图神经网络；介绍了可信任的图神经网络的六个方面的基本概念和全面总结了现有的研究，包括鲁棒性、可解释性、隐私、公平性、问责性和环境福祉，并强调了这些方面之间错综复杂的关系；最后
PDF2 years ago
面向用户为中心的沉浸式虚拟环境可信人工智能度量
本研究探讨了现有方法对于以用户为中心的服务生态系统中 AI 信任度评估的适用性，并提出了一种面向系统化且以用户为中心的值得信赖的 AI 研究议程。
PDF2 years ago