evaluation results | BriefGPT

关键词evaluation results

搜索结果 - 15

Plot2Code：用于评估科学图形代码生成的多模态大型语言模型的综合基准
通过 Plot2Code 对大规模多模式语言模型的视觉编码进行全面评估，揭示了现有的大多数多模式语言模型在文字密集图中的视觉编码方面存在的困难，重度依赖于文本指导，希望评估结果能指导未来多模式语言模型的发展。
PDF2 months ago
ACLAda-LEval：使用可调整长度基准评估长上下文语言模型
我们引入了 Ada-LEval，这是一个适用于评估 LLM 长上下文理解能力的长度可适应性基准测试，包括两个具有挑战性的子集 TSort 和 BestAnswer，通过评估 4 个最先进的闭源 API 模型和 6 个开源模型，证明了目前 L
PDF3 months ago
人类还是 LLM 作为法官？对判断偏见的研究
采用人类和大型语言模型作为评判者（即人类和 LLM 评判者）来评估现有 LLM 的性能已经引起了关注。然而，这种方法同时引入了人类和 LLM 评判者的潜在偏见，对评估结果的可靠性提出了质疑。本文提出了一种针对 LLM 和人类评判者的 5 种
PDF5 months ago
多语种 E5 文本嵌入：技术报告
本技术报告介绍了开源多语言 E5 文本嵌入模型的训练方法和评估结果，该模型于 2023 年中期发布。提供了三种不同大小的嵌入模型（小 / 基础 / 大），在推理效率和嵌入质量之间取得平衡。训练过程遵循英文 E5 模型的方法，包括对 10 亿
PDF5 months ago
PRIME：保护视频免受恶意编辑
使用 PRIME 方法进行保护可以显著减少时间成本和提高保护性能，评估结果表明，与先前的最先进方法相比，PRIME 仅需 8.3% 的 GPU 时间，并在人工评估和客观指标上实现更好的保护结果。
PDF5 months ago
使用贝叶斯卷积神经网络进行数据不可知人脸图像合成检测
我们提出了一种数据无关的解决方案，基于异常检测框架，并使用后验概率与参考数据相关，以确定新样本是否为合成的，评估结果显示我们的解决方案非常具有竞争力。
PDF6 months ago
纯净演示中的模仿学习
基于扩散过程的两步纯化方法，通过引入噪声消除了不完美展示中的潜在扰动，并从扩散后的数据中恢复出最优的专家展示，评估结果表明方法的有效性.
PDF9 months ago
SpaceNLI: 评估推理预测的一致性
通过语义推理研究各种类型的空间表达方式与推理模式，我们创建了一个名为 SpaceNLI 的数据集，并测试了几种 NLI 系统的它们对于空间推理复杂度和系统能力的提高。通过评估结果，我们发现系统对于空间 NLI 问题获得了适度的结果，但缺乏推
PDFa year ago
谢菲尔德参加美洲本土语言机器翻译共享任务
本文介绍了谢菲尔德大学针对 2023 年的 AmericasNLP 机器翻译大赛中，从西班牙语翻译成 11 种土著语言的参赛方案，使用不同变体的 NLLB-200 进行扩展，训练和组合，包括组成，手册，新闻文章和单语数据生成的回译数据。在
PDFa year ago
ICMLK-shot NAS: 带 K-shot 超网让 NAS 的权重共享可学习
本文提出了一种基于 K-shot supernets 和 simplex-net 的 NAS 方法，可以自适应地学习权重共享，以获得更好的评估结果。实验结果表明，K-shot NAS 显著提高了路径的评估精度，并带来了令人印象深刻的性能提升
PDF3 years ago
ICML零样本图像检索的视觉 - 语义嵌入方法综述
本文关注零样本图像检索，使用句子作为查询条件，概述了该领域的技术趋势，包括图像与文本匹配的历史、常用的数据集和方法的评估结果，并介绍了 Github 上的实现，旨在鼓励研究者进一步发掘语言与图像之间的联系。
PDF3 years ago
基于 REO 准则的图像描述生成细粒度评估
本研究提出了细粒度评估方法 REO，从与实际参照的相关性、多余性和缺少性三个方面评估图像字幕系统的性能，实验证明与人类判断更具一致性，结果更直观。
PDF5 years ago
事实核查与伪造图片：确认有关图像的声明
本研究致力于解决社交媒体和 Web 网站中虚假声称的爆炸性增长所带来的手动事实检查的挑战。该研究新建了数据集并探讨了几种特征对声明、图片及二者之间的关系进行建模。最终评估结果显示与基线相比，取得了显著的进展，并发布了数据集以期推动该领域的进
PDF5 years ago
显著性整合：仲裁模型
本研究提出一种基于仲裁模型的显著性整合方法，通过参考显著性模型和外部知识来纠正误导，利用两种不同的模型专业度估计方法，并使用贝叶斯整合框架，在四个数据集上对 27 种状态下的显著性模型进行广泛评估，结果表明提出的方法较现有的最先进的整合方法
PDF8 years ago
COLING新闻文章中的命名事件段落识别
本文将命名实体概念扩展至命名事件，提出了一种在新闻文章中发现包含该类事件信息的特定段落的方法并报告初步评估结果。使用 Amazon Mechanical Turk 服务获取 Gold Standard 数据的方法也被介绍。
PDF11 years ago