reliability | BriefGPT - AI 论文速递

关键词reliability

搜索结果 - 208

MedVH：面向医学环境中大型视觉语言模型的幻觉系统评估
大视觉语言模型（LVLMs）在自然图像和文本数据的各种任务中取得了卓越的性能，在 LVLMs 微调和训练方面引发了大量研究。尽管有所进展，但对这些模型在小型数据集上微调时对幻觉的稳健性的研究非常有限。本研究引入了一个新的基准数据集，即医学视
PDF3 days ago
值为基础的深度强化学习中超参数选择的一致性
深度强化学习在各个领域取得了巨大的成功，本文通过算法设计和精心选择超参数的结合实现了算法的改进，重要超参数的选择对性能有很大的影响，本文通过广泛的实证研究，引入了一个新的指标来确定各种超参数的一致性和可靠性，并明确了在不同的训练模式下仍然保
PDF11 days ago
评估用于大型视觉语言模型的幻觉基准的质量
大规模视觉语言模型（LVLMs）的幻觉问题是当前研究的主要关注领域，本研究提出了一种用于评估幻觉质量的基准测量框架（HQM），通过可靠性和有效性的指标对现有幻觉基准进行评估，并构建了一种高质量的 LVLMs 幻觉基准（HQH）。研究在多个代
PDF12 days ago
StackRAG Agent：利用检索辅助生成器改进开发者答案
StackRAG 是一种基于 LLMs 的检索增强多智能体生成工具，通过聚合来自 Stack Overflow 的知识，提高了生成答案的可靠性。初步评估表明生成的答案是正确、准确、有关和有用的。
PDF17 days ago
工具增强的大型语言模型是否能意识到不完整的条件？
本研究探讨了大型语言模型与工具的整合，以及在用户提供不完整信息或无法使用所需工具时如何识别并管理这些不完整场景，从而提高语言模型的可靠性，并验证了大多数语言模型在识别特定工具所需的附加信息和适当工具的缺失方面存在困难。
PDF18 days ago
UBENCH：使用多项选择题对大型语言模型中的不确定性进行基准测试
针对大型语言模型（LLMs）的可解释性低，现有的评估系统主要考察问题解决能力而忽视了响应的不确定性，为此提出了 UBENCH，一个全面评估 LLM 可靠性的基准，包括了 3,978 个多项选择题，实验结果表明 UBENCH 取得了最先进的性
PDF18 days ago
τ-bench：一种真实世界领域中工具 - 代理人 - 用户交互的基准
现有的基准测试无法测试语言代理与人类用户的交互或遵循特定领域规则的能力，我们提出了 $ au$-bench，这是一个基准测试，模拟了语言模型模拟的用户与具备特定领域 API 工具和策略指南的语言代理之间的动态对话。我们采用了高效且忠实的评估
PDF19 days ago
理解声音，忽视问题：大型音频语言模型中的对象幻觉挑战
现有的大型音频语言模型在集成音频感知能力方面扩展了传统大型语言模型的功能，对其性能在各种任务上进行了主要的评估，但忽视了它们的可靠性，特别是与对象幻觉等问题相关的可靠性。本研究引入了评估公开可用的大型音频语言模型的对象幻觉程度的方法。研究发
PDF24 days ago
人工评估指南中对漏洞的定义和检测：实现可靠的自然语言生成评估的初步研究
通过收集从现有论文中提取的指南注释以及由大型语言模型（LLMs）生成的指南注释，我们提出了第一个人工评估指南数据集，并引入了八种漏洞的分类和组成评估指南的原则。此外，我们还探索了使用 LLMs 检测指南漏洞的方法，并提供了一套增强人工评估可
PDF24 days ago
深度强化学习的验证引导屏蔽
通过整合形式验证和概率验证工具，将输入域划分为安全和不安全区域，通过聚类和符号表示过程对不安全区域进行压缩，从而在（潜在的）不安全区域高效地临时激活防护，显著减少运行时开销并保持形式安全保证。
PDFa month ago
关于大型语言模型最差提示性能的研究
大型语言模型在实际应用中存在可靠性问题，而使用提示工程和一致性方法在改善模型性能上的作用有限。因此，我们需要创建更具弹性的语言模型，以适应多样的提示并保持高性能。
PDFa month ago
通过 GSD-Front 进行统计多准则基准测试
通过借用鲁棒统计学和不精确概率的技术，本研究提出了一种可靠的方法来比较分类器，以满足不同质量指标、统计不确定性和基本假设的鲁棒性要求。
PDFa month ago
大型语言模型的基准数据污染：调查
大型语言模型如 GPT-4、Claude-3 和 Gemini 的快速发展已经改变了自然语言处理领域，但也引发了一个重大问题，即基准数据污染（BDC）。本文回顾了 LLM 评估中复杂的 BDC 挑战，并探讨了缓解传统基准风险的替代评估方法。
PDFa month ago
推进耳部生物特征识别：通过深度学习提高准确性和鲁棒性
本研究关注耳部生物特征识别，通过利用其独特特征来提高准确性、可靠性和实用性，并证明了耳部生物特征识别在克服面部表情和光照条件变化等局限性方面的有效性。通过数据预处理和增强等技术，我们的模型在 AMI 数据集上实现了 99.35% 的测试准确
PDFa month ago
ICML具有连续潜在动力的丰富观测强化学习
針對連續環境中高維感知輸入的強化學習算法的樣本效率和可靠性問題，本研究提出了一種新的理論框架 RichCLD（基於豐富觀測的連續潛在動力學強化學習），其中代理基於高維觀測進行控制，但環境卻由低維潛在狀態和 Lipschitz 連續動力學所控
PDFa month ago
RITUAL：随机图像变换作为 LVLM 中的通用抗幻觉杠杆
最近，大型视觉语言模型（LVLMs）的前沿发展彻底改变了机器基于视觉输入理解和生成文本响应的方式。然而，尽管这些模型的能力令人印象深刻，它们经常产生与视觉信息不符的 “幻觉性” 输出，给可靠性和可信度带来了挑战。当前的方法（如对比解码）在解
PDFa month ago
视觉语言建模简介
扩展到视觉领域的大型语言模型（LLMs）的应用将显著影响我们与技术的关系，但需要解决一些可靠性挑战。本文介绍了视觉语言模型（VLM）以及其工作原理、训练方法和评估方法，并讨论了将其扩展到视频领域的问题。
PDFa month ago
用于提高 LLMs 代码可靠性的目标验证问题链
通过自我完善方法，在没有人工介入和测试用例的情况下，通过针对初始代码中的特定节点使用目标验证问题（VQs），提高 LLM 生成代码的可靠性，并通过针对特定的 VQs 和初始代码重新提示 LLM 来修复潜在的漏洞。评估结果表明，我们的方法优于
PDFa month ago
AI 聊天机器人从患者的病情投诉中进行疾病预测的可靠性
人工智能聊天机器人在预测疾病方面的可靠性进行了研究，结果表明虽然聊天机器人的准确性有所差异，但它们都无法足够可靠地进行重要的医疗决策，强调了对严格的验证和人类监督的必要性。
PDF2 months ago
xFinder：大型语言模型的稳健精确定位答案提取
通过优化关键答案提取模块，xFinder 提高了关键答案提取准确率，降低了大语言模型对特定答案格式的依赖，增强了大语言模型评估的可靠性。
PDF2 months ago