关键词evaluation datasets
搜索结果 - 26
  • 从心理测量学角度攻击大型语言模型以评估隐性偏见
    PDF14 days ago
  • Latxa: 为巴斯克语建立的开放式语言模型和评估工具套件
    PDF3 months ago
  • CLIP 是否总是比 ImageNet 模型具有更好的泛化能力?
    PDF4 months ago
  • Wikibench: 基于社区驱动的维基百科 AI 评估数据整理
    PDF4 months ago
  • 走向多模态多语种翻译的红色团队
    PDF5 months ago
  • ANGO:面向中文领域的下一级生成导向语言模型评估基准
    PDF6 months ago
  • 色情分類的最新技術:一項比較分析
    PDF6 months ago
  • CSMeD:填补自动引文筛选中系统文献综述的数据集空白
    PDF7 months ago
  • 小型语言模型是通过记忆还是泛化来回答上下文问题的?
    PDF7 months ago
  • EMNLP语义相似性分类任务中模型与评估数据集策划的界限定位
    PDF8 months ago
  • 评估结果的有效性:评估组成性基准测试的一致性
    PDF8 months ago
  • EMNLP通过群体评议和自我投票改进大型语言模型中的民族代表多样性
    PDF8 months ago
  • GDL-DS:基于分布偏移的几何深度学习基准
    PDF9 months ago
  • 考虑所有标签来评估预训练语言模型在自然语言推理中的性别偏见
    PDF10 months ago
  • PrOnto: 对 859 种语言的语言模型评估
    PDFa year ago
  • 理解偏见需真正均衡的数据集?影响准确性的因素并非身份和图像数量
    PDFa year ago
  • EMNLP跨媒体 - 3600:一款大规模多语言多模态评估数据集
    PDF2 years ago
  • EMNLPAPEACH:通过对众筹仇恨言论评估数据的分析攻击贬损用语
    PDF2 years ago
  • ACLParsiNLU: 波斯语语言理解挑战套件
    PDF4 years ago
  • AQuaMuSe: 自动为基于查询的多文档摘要生成数据集
    PDF4 years ago
Prev