关键词evaluation
搜索结果 - 682
  • 未对齐” 不等于 “恶意”: 小心大型语言模型越狱的幻觉
    PDF3 days ago
  • 能否在长上下文中使用多样本情境学习来帮助 LLM 法官?更多观察,更好判断!
    PDF3 days ago
  • 大型语言模型人类偏好学习综述
    PDF3 days ago
  • 错误跨度标注:人工评估机器翻译的平衡方法
    PDF3 days ago
  • RepLiQA:用于评估 LLMs 在未见参考内容上的问答数据集
    PDF3 days ago
  • 缺失图像修复:一种评估视觉转换解释方法的新框架
    PDF3 days ago
  • KDDR-Eval: 评估检索增强大型语言模型的领域知识的统一工具包
    PDF3 days ago
  • 明辨视界,难答问题:基于多模态鲁棒性的机器学习语言模型评估
    PDF5 days ago
  • 使用大型视觉语言模型检测和评估医学幻觉
    PDF6 days ago
  • 机器学习优化算法和元启发式算法的 315 个基准和测试函数的综述与数学及可视化描述
    PDF7 days ago
  • 重新思考文本到视频模型的人工评估协议:提升可靠性、可复现性和实用性
    PDF7 days ago
  • 嵌入模型何时比其他模型更有前途?
    PDF9 days ago
  • 多模态编辑中的关键问题
    PDF9 days ago
  • AutoSurvey:大型语言模型能自动编写调查问卷
    PDF10 days ago
  • EAVE: 轻量级稀疏层交互的高效产品属性值提取
    PDF10 days ago
  • 基于 LLM 的问答系统中检索组件的评估
    PDF10 days ago
  • BiGGen Bench:一种用于精细评估语言模型的基准
    PDF11 days ago
  • 儿童图形表征评估工具简要回顾
    PDF13 days ago
  • 从链接预测到预测:基于批次的时间图学习中的信息损失
    PDF13 days ago
  • 自然计划:对自然语言规划的 LLMs 基准测试
    PDF14 days ago
Prev