benchmark evaluation | BriefGPT

关键词benchmark evaluation

搜索结果 - 18

Disce aut Deficere：评估 LLMs 对 INVALSI 意大利基准的熟练度
该研究介绍一种基于 ITALIAN EDUCATIONAL COMPETENCIES 的结构化基准测试来评估大型语言模型（LLMs），并提供它们在 LINGUISTIC VERSATILITY、CULTURAL RELEVANCE 和 BE
PDF7 days ago
NYC 室内长期视觉地点识别数据集与半自动标注
室内视觉地点识别对于人类和机器人的定位和导航具有益处。此论文介绍了 NYC-Indoor-VPR 数据集，它是纽约市 13 个不同拥挤场景的超过 36,000 张图片的独特且丰富的集合，这些图片采用了不同的光照条件和外观变化。为了建立视觉地
PDF3 months ago
基于法语的临床命名实体识别性能评估
这篇论文是关于对医学法语遮蔽语言模型在临床命名实体识别任务上的评估研究，发现 CamemBERT-bio 在性能上表现优于 DrBERT，而 FlauBERT 则具有竞争力，FrALBERT 的碳排放量最低。这是首个基准评估了法语医学遮蔽语
PDF3 months ago
面向麻醉学的中文大型语言模型训练
利用现有的大型医学语言模型（LLMs），我们构建了一个名为 Hypnos 的中文麻醉模型，通过改进数据质量、训练策略和引入标准化评估基准，Hypnos 在麻醉学中表现优于其他医学 LLMs。
PDF4 months ago
当基准成为目标：揭示大型语言模型排行榜的敏感性
利用基准排名构建的大型语言模型（LLM）排行榜经常被用来指导实践者选择模型，但我们展示了这是一个（潜在的昂贵）错误。在现有的排行榜中，LLM 的相对性能对（通常微小的）细节非常敏感。我们通过对多个选择题基准进行实验，比如改变选项的顺序或答案
PDF5 months ago
第四届神经网络验证国际比赛（VNN-COMP 2023）：概述与结果
该报告总结了第四届国际神经网络验证竞赛（VNN-COMP 2023），作为第六届机器学习驱动自主系统形式化方法研讨会（FoMLAS）的一部分，在第 35 届计算机辅助验证国际会议（CAV）上举行。VNN-COMP 是一年一度的活动，旨在促进
PDF6 months ago
UHGEval：通过无约束生成对中国大型语言模型的幻觉进行基准测试
我们开发了一个无约束幻觉生成评估 (UHGEval) 基准测试，用于编译 LLMs 产生的具有最小限制的输出，并建立了一个全面的基准测试评估框架，以帮助后续研究人员进行可扩展和可重复的实验，并对突出的中文语言模型和 GPT 系列模型进行了广
PDF7 months ago
基于卷积和 Transformer 的视频帧插帧网络
本文提出一种创新的方法，将 Transformer 编码器和卷积特征相结合，从而减少了近 50% 的内存负担，在推理时间上比现有的基于 Transformer 的插值方法运行速度提高了近四倍，并引入双编码器架构来结合局部相关的卷积和远程相关
PDFa year ago
如何训练一款基于多模态输入的 GPT4 风格语言模型？
探讨大型语言模型的结构、训练数据、训练策略和不同指令对模型的影响，并且创建了一个既包括图像任务又包括视频任务的全面评估集，最终呈现了 Lynx，该模型在保持最佳多模生成能力的同时，表现出最准确的多模态理解能力。
PDFa year ago
DUBLIN -- 语言 - 图像网络理解文档
通过预训练 DUBLIN 模型，利用文档图像中的空间和语义信息，包括 Masked Document Content Generation Task、Bounding Box Task 和 Rendered Question Answeri
PDFa year ago
使用对比式 3D 人体动作合成进行文本到动作的检索
该论文提出了 TMR 方法，利用对比损失结构化跨模态潜在空间，提高文本到 3D 人体运动检索的性能，并在多个数据集上验证了其优越性能，同时也展示了其在时刻检索方面的潜力。
PDFa year ago
AAAI面向对话 AI 的常识推理：现有技术综述
本论文调查了最近关于常识推理的谈话人工智能研究，列出了相关的训练数据集，并描述了在谈话人工智能中包含常识的主要方法，讨论了用于评估谈话人工智能中常识的基准，最后对两个最先进的开放对话模型 BlenderBot3 和 LaMDA 的常识能力进
PDFa year ago
EMNLPDial2vec: 自导对比学习非监督对话嵌入
本文介绍了学习无监督对话嵌入的任务，并提出了一种自我导向的对比学习方法来引导学习通过交流互动捕捉对话互动模式的对话嵌入，各种评估实验证明该方法比最强基准方法平均改进了 8.7-13.8 个百分点，而交流互动引导下的嵌入最佳性能是通过对话者级
PDF2 years ago
ACL用 FIRE 对抗火灾：评估文本到视频检索基准的有效性
通过修正误标的负样本，我们评测了三种模型在两个标准测试集上的表现，发现在最佳模型上，修正后的指标提升了 25% 以上。此外我们发现测试集的 recall@10 已经接近饱和，同时我们推荐以样本抽样方式缓解标注数据成本，对未来的 text-t
PDF2 years ago
ECG 生物特征识别：评述、系统提出和基准评估
本研究利用一个大型数据库训练出深度学习技术的特征提取器，结合多种单、多阶段及多种导联心电图实验，实现了 ECG 生物识别技术的精细分析及比较，并通过多个公共数据库的验证，进一步优化了模型，提出了行之有效的改进建议。
PDF2 years ago
基准测试可解释性人工智能的反事实算法：从白盒到黑盒
该研究通过在三种不同类型的机器学习模型上进行基准评估来调查机器学习模型对反事实解释生成的影响，发现不同的机器学习模型对反事实解释生成没有影响，强烈建议进行定性分析来确保反事实解释的稳健分析和潜在偏差的识别。
PDF2 years ago
EvidentialMix: 结合开放集和封闭集噪声标签的学习
本研究研究了一个新的嘈杂标签问题变形，将开放式和封闭式嘈杂标签结合在一起，并介绍了一个基准评估来评估此设置下训练算法的性能。我们提出了一种新的算法，称为 EvidentialMix，并将其与已有的封闭式和开放式噪声分类算法进行比较。实验结果
PDF4 years ago
TriGAN：多源域适应的图像到图像翻译
本文提出了基于生成对抗网络的多源域自适应方法，通过将图像特征投影到保留内容依赖性的空间，再将这个不变表示重新投影到像素空间，从而生成训练目标分类器所需的新标记图像。通过 MSDA 基准测试，表明本文的方法优于现有技术。
PDF4 years ago