- 值为基础的深度强化学习中超参数选择的一致性
深度强化学习在各个领域取得了巨大的成功,本文通过算法设计和精心选择超参数的结合实现了算法的改进,重要超参数的选择对性能有很大的影响,本文通过广泛的实证研究,引入了一个新的指标来确定各种超参数的一致性和可靠性,并明确了在不同的训练模式下仍然保 - 评估用于大型视觉语言模型的幻觉基准的质量
大规模视觉语言模型(LVLMs)的幻觉问题是当前研究的主要关注领域,本研究提出了一种用于评估幻觉质量的基准测量框架(HQM),通过可靠性和有效性的指标对现有幻觉基准进行评估,并构建了一种高质量的 LVLMs 幻觉基准(HQH)。研究在多个代 - StackRAG Agent:利用检索辅助生成器改进开发者答案
StackRAG 是一种基于 LLMs 的检索增强多智能体生成工具,通过聚合来自 Stack Overflow 的知识,提高了生成答案的可靠性。初步评估表明生成的答案是正确、准确、有关和有用的。
- 工具增强的大型语言模型是否能意识到不完整的条件?
本研究探讨了大型语言模型与工具的整合,以及在用户提供不完整信息或无法使用所需工具时如何识别并管理这些不完整场景,从而提高语言模型的可靠性,并验证了大多数语言模型在识别特定工具所需的附加信息和适当工具的缺失方面存在困难。
- UBENCH:使用多项选择题对大型语言模型中的不确定性进行基准测试
针对大型语言模型(LLMs)的可解释性低,现有的评估系统主要考察问题解决能力而忽视了响应的不确定性,为此提出了 UBENCH,一个全面评估 LLM 可靠性的基准,包括了 3,978 个多项选择题,实验结果表明 UBENCH 取得了最先进的性 - τ-bench:一种真实世界领域中工具 - 代理人 - 用户交互的基准
现有的基准测试无法测试语言代理与人类用户的交互或遵循特定领域规则的能力,我们提出了 $ au$-bench,这是一个基准测试,模拟了语言模型模拟的用户与具备特定领域 API 工具和策略指南的语言代理之间的动态对话。我们采用了高效且忠实的评估 - 理解声音,忽视问题:大型音频语言模型中的对象幻觉挑战
现有的大型音频语言模型在集成音频感知能力方面扩展了传统大型语言模型的功能,对其性能在各种任务上进行了主要的评估,但忽视了它们的可靠性,特别是与对象幻觉等问题相关的可靠性。本研究引入了评估公开可用的大型音频语言模型的对象幻觉程度的方法。研究发 - 人工评估指南中对漏洞的定义和检测:实现可靠的自然语言生成评估的初步研究
通过收集从现有论文中提取的指南注释以及由大型语言模型(LLMs)生成的指南注释,我们提出了第一个人工评估指南数据集,并引入了八种漏洞的分类和组成评估指南的原则。此外,我们还探索了使用 LLMs 检测指南漏洞的方法,并提供了一套增强人工评估可 - 深度强化学习的验证引导屏蔽
通过整合形式验证和概率验证工具,将输入域划分为安全和不安全区域,通过聚类和符号表示过程对不安全区域进行压缩,从而在(潜在的)不安全区域高效地临时激活防护,显著减少运行时开销并保持形式安全保证。
- 关于大型语言模型最差提示性能的研究
大型语言模型在实际应用中存在可靠性问题,而使用提示工程和一致性方法在改善模型性能上的作用有限。因此,我们需要创建更具弹性的语言模型,以适应多样的提示并保持高性能。
- 通过 GSD-Front 进行统计多准则基准测试
通过借用鲁棒统计学和不精确概率的技术,本研究提出了一种可靠的方法来比较分类器,以满足不同质量指标、统计不确定性和基本假设的鲁棒性要求。
- 大型语言模型的基准数据污染:调查
大型语言模型如 GPT-4、Claude-3 和 Gemini 的快速发展已经改变了自然语言处理领域,但也引发了一个重大问题,即基准数据污染(BDC)。本文回顾了 LLM 评估中复杂的 BDC 挑战,并探讨了缓解传统基准风险的替代评估方法。 - 推进耳部生物特征识别:通过深度学习提高准确性和鲁棒性
本研究关注耳部生物特征识别,通过利用其独特特征来提高准确性、可靠性和实用性,并证明了耳部生物特征识别在克服面部表情和光照条件变化等局限性方面的有效性。通过数据预处理和增强等技术,我们的模型在 AMI 数据集上实现了 99.35% 的测试准确 - ICML具有连续潜在动力的丰富观测强化学习
針對連續環境中高維感知輸入的強化學習算法的樣本效率和可靠性問題,本研究提出了一種新的理論框架 RichCLD(基於豐富觀測的連續潛在動力學強化學習),其中代理基於高維觀測進行控制,但環境卻由低維潛在狀態和 Lipschitz 連續動力學所控 - RITUAL:随机图像变换作为 LVLM 中的通用抗幻觉杠杆
最近,大型视觉语言模型(LVLMs)的前沿发展彻底改变了机器基于视觉输入理解和生成文本响应的方式。然而,尽管这些模型的能力令人印象深刻,它们经常产生与视觉信息不符的 “幻觉性” 输出,给可靠性和可信度带来了挑战。当前的方法(如对比解码)在解 - 视觉语言建模简介
扩展到视觉领域的大型语言模型(LLMs)的应用将显著影响我们与技术的关系,但需要解决一些可靠性挑战。本文介绍了视觉语言模型(VLM)以及其工作原理、训练方法和评估方法,并讨论了将其扩展到视频领域的问题。
- 用于提高 LLMs 代码可靠性的目标验证问题链
通过自我完善方法,在没有人工介入和测试用例的情况下,通过针对初始代码中的特定节点使用目标验证问题(VQs),提高 LLM 生成代码的可靠性,并通过针对特定的 VQs 和初始代码重新提示 LLM 来修复潜在的漏洞。评估结果表明,我们的方法优于 - AI 聊天机器人从患者的病情投诉中进行疾病预测的可靠性
人工智能聊天机器人在预测疾病方面的可靠性进行了研究,结果表明虽然聊天机器人的准确性有所差异,但它们都无法足够可靠地进行重要的医疗决策,强调了对严格的验证和人类监督的必要性。
- xFinder:大型语言模型的稳健精确定位答案提取
通过优化关键答案提取模块,xFinder 提高了关键答案提取准确率,降低了大语言模型对特定答案格式的依赖,增强了大语言模型评估的可靠性。
- ACLLG AI Research & KAIST 参与 EHRSQL 2024:利用伪标记的无法回答的问题自我训练大语言模型,构建可靠的电子病历文本到 SQL 系统
通过使用伪标记的无法回答的问题,我们提出了一种自我训练策略,以提高电子健康记录(EHR)的文本转 SQL 模型的可靠性。该方法包括两阶段的训练流程,紧接着使用基于令牌熵和查询执行的过滤方法。在 EHRSQL 2024 共享任务中,我们的方法