关键词evaluation
搜索结果 - 568
  • ChatGPT 是因果文本挖掘的未来吗?综合评估与分析
    PDF2 days ago
  • 我的答案是 C”:指令调整的语言模型中的首词概率与文本答案不匹配
    PDF2 days ago
  • 利用结构树对(语音)短语结构分析进行评估
    PDF3 days ago
  • CriticBench: 评估大型语言模型作为评论家
    PDF3 days ago
  • AAAIConVQG:带有多模态引导的对比式视觉问句生成
    PDF4 days ago
  • 大型语言模型能否用于心理咨询?使用角色扮演对话分析 GPT-4 生成的回应
    PDF4 days ago
  • 用语义保持变换评估程序修复:一种自然性评估方法
    PDF5 days ago
  • 利用 LLMs 进行心理健康咨询的自动评估
    PDF5 days ago
  • 基准自演进:一种用于动态 LLM 评估的多智能体框架
    PDF6 days ago
  • 一次创意主导的全部:用于观点摘要评估的 LLMs
    PDF6 days ago
  • 解剖人类和 LLM 偏好
    PDF7 days ago
  • 大型多模型模型能否揭示图像背后的深层语义?
    PDF7 days ago
  • 近似高斯过程的基准线和基准测试建议
    PDF9 days ago
  • MultiMedEval:用于评估医学视觉 - 语言模型的基准和工具包
    PDF10 days ago
  • 使用无监督方法评估编码 LLMs 的循环正确性
    PDF11 days ago
  • 审计反火:用证据和风格评估先进的反驳生成
    PDF11 days ago
  • 大型语言模型是否受到成员推断攻击的影响?
    PDF12 days ago
  • AIR-Bench: 大规模音频语言模型的生成理解基准评估
    PDF12 days ago
  • MLLM 作为评判者:以视觉 - 语言基准评估多模态 MLLM
    PDF17 days ago
  • SALAD-Bench: 大型语言模型的分层与综合安全评估基准
    PDF17 days ago
Prev