BriefGPT.xyz
Ask
alpha
关键词
evaluation set
搜索结果 - 4
EMNLP
文本嵌入模型对语法的理解程度如何?
本研究通过开发评估集 SR 来审查文本嵌入模型在句法理解能力方面的表现,发现现有的文本嵌入模型在面对句法理解挑战时效果不佳,尤其在与现有基准数据集的对比中更加明显。同时,通过深入分析揭示了导致这些局限性的因素,并提出了增强文本嵌入模型在不同
→
PDF
8 months ago
ACL
FERMAT:数字推理中的非精确度替代方案
文章介绍了 FERMAT(英语数值推理的多维视角评估集),它通过对数值理解、数学操作和训练依赖等关键数值推理方面进行评估,提供了关于已有模型在不同数值推理方面的优势和劣势的全面评估,并能够系统化自动生成任意大规模的训练或评估集。
PDF
a year ago
CVPR
Winoground: 探究视觉和语言模型的视觉语言组成性
介绍了一项新的任务和数据集 Winoground,用于评估视觉和语言模型进行视觉 - 语言组成推理的能力,展示了目前最先进的视觉和语言模型在该任务上表现不尽如人意的情况,并探讨如何改进模型的方法。
PDF
2 years ago
ACL
SP-10K: 一个用于选择偏好获取的大规模评估集
通过介绍 SP-10K,提出一种更好的方法评估 SP 模型,并通过评估三种 SP 获取方法,探讨 SP-10K 与常识知识的关系,证明了提出新的 SP 关系对于处理短语代词共指问题的重要性。
PDF
5 years ago
Prev
Next