关键词evaluation suite
搜索结果 - 12
- CharXiv:多模式 LLM 模型中现实图表理解的不足之处的概览PDF8 days ago
- 奇幻版权之兽及其 (不) 生成方法PDF14 days ago
- ACL从零到英雄:冷启动异常检测PDFa month ago
- 使用直接偏好头进行语言模型的推理时间对齐PDFa month ago
- EMNLPAMR 解析远未解决:GrAPES,AMR 解析评估套件PDF7 months ago
- OYXOY:用于现代希腊语的现代自然语言处理测试套件PDF10 months ago
- OpenFlamingo: 训练大规模自回归视觉语言模型的开源框架PDFa year ago
- L-Eval: 长上下文语言模型的标准化评估实施PDFa year ago
- InstructEval: 指令选择方法的系统评估PDFa year ago
- ADATIME:面向时间序列数据领域自适应的基准套件PDF2 years ago
- ICML使用 Melting Pot 进行可扩展的多智能体强化学习评估PDF3 years ago
- ACL仍是个烦人的问题:评估文本表示在词组合成中的表现PDF5 years ago
Prev
Next