关键词reliability
搜索结果 - 208
  • MedVH:面向医学环境中大型视觉语言模型的幻觉系统评估
    PDF3 days ago
  • 值为基础的深度强化学习中超参数选择的一致性
    PDF11 days ago
  • 评估用于大型视觉语言模型的幻觉基准的质量
    PDF12 days ago
  • StackRAG Agent:利用检索辅助生成器改进开发者答案
    PDF17 days ago
  • 工具增强的大型语言模型是否能意识到不完整的条件?
    PDF18 days ago
  • UBENCH:使用多项选择题对大型语言模型中的不确定性进行基准测试
    PDF18 days ago
  • τ-bench:一种真实世界领域中工具 - 代理人 - 用户交互的基准
    PDF19 days ago
  • 理解声音,忽视问题:大型音频语言模型中的对象幻觉挑战
    PDF24 days ago
  • 人工评估指南中对漏洞的定义和检测:实现可靠的自然语言生成评估的初步研究
    PDF24 days ago
  • 深度强化学习的验证引导屏蔽
    PDFa month ago
  • 关于大型语言模型最差提示性能的研究
    PDFa month ago
  • 通过 GSD-Front 进行统计多准则基准测试
    PDFa month ago
  • 大型语言模型的基准数据污染:调查
    PDFa month ago
  • 推进耳部生物特征识别:通过深度学习提高准确性和鲁棒性
    PDFa month ago
  • ICML具有连续潜在动力的丰富观测强化学习
    PDFa month ago
  • RITUAL:随机图像变换作为 LVLM 中的通用抗幻觉杠杆
    PDFa month ago
  • 视觉语言建模简介
    PDFa month ago
  • 用于提高 LLMs 代码可靠性的目标验证问题链
    PDFa month ago
  • AI 聊天机器人从患者的病情投诉中进行疾病预测的可靠性
    PDF2 months ago
  • xFinder:大型语言模型的稳健精确定位答案提取
    PDF2 months ago
Prev