关键词benchmarks
搜索结果 - 160
  • 与机器人对话:拓宽参与和研究的 SLIVAR 社区提案
    PDF3 months ago
  • 排行榜排名高 = 编码能力一直出众吗?通过 LLM 实现演进的编码基准评估
    PDF3 months ago
  • 评估大型语言模型的程序执行运行时行为
    PDF3 months ago
  • COLING大型语言模型的日本金融基准构建
    PDF3 months ago
  • OpenEval: 对中文语言模型在能力、对齐性和安全性方面进行基准测试
    PDF4 months ago
  • Gabor 引导的变换器用于单图像去雨
    PDF4 months ago
  • DACO:应用驱动的全面数据分析
    PDF4 months ago
  • Craftax: 一个开放式强化学习的快速基准
    PDF4 months ago
  • tinyBenchmarks: 用较少的样例评估 LLM
    PDF4 months ago
  • GATE X-E:弱性别语言的性别平等翻译挑战集
    PDF4 months ago
  • KetGPT -- 基于 Transformer 的量子电路数据增强
    PDF5 months ago
  • GPU 上的 LTL 学习
    PDF5 months ago
  • 对控制权空洞越狱的强制拒绝
    PDF5 months ago
  • 计算具有统一行动成本的计划
    PDF5 months ago
  • EMNLPBUSTER: 一个 “BUSiness Transaction Entity Recognition” 数据集
    PDF5 months ago
  • 多元一致性路线图
    PDF5 months ago
  • MOMENT:一种开放的时间序列基础模型家族
    PDF5 months ago
  • 规避语言模型的数据污染检测 (过于) 简单
    PDF5 months ago
  • 从实体中心的视角重新思考预训练的文本布局模型的评估
    PDF5 months ago
  • ACL谈判对话系统综述
    PDF5 months ago