关键词evaluation results
搜索结果 - 15
- Plot2Code:用于评估科学图形代码生成的多模态大型语言模型的综合基准PDF2 months ago
- ACLAda-LEval:使用可调整长度基准评估长上下文语言模型PDF3 months ago
- 人类还是 LLM 作为法官?对判断偏见的研究PDF5 months ago
- 多语种 E5 文本嵌入:技术报告PDF5 months ago
- PRIME:保护视频免受恶意编辑PDF5 months ago
- 使用贝叶斯卷积神经网络进行数据不可知人脸图像合成检测PDF6 months ago
- 纯净演示中的模仿学习PDF9 months ago
- SpaceNLI: 评估推理预测的一致性PDFa year ago
- 谢菲尔德参加美洲本土语言机器翻译共享任务PDFa year ago
- ICMLK-shot NAS: 带 K-shot 超网让 NAS 的权重共享可学习PDF3 years ago
- ICML零样本图像检索的视觉 - 语义嵌入方法综述PDF3 years ago
- 基于 REO 准则的图像描述生成细粒度评估PDF5 years ago
- 事实核查与伪造图片:确认有关图像的声明PDF5 years ago
- 显著性整合:仲裁模型PDF8 years ago
- COLING新闻文章中的命名事件段落识别PDF11 years ago
Prev
Next