benchmark performance | BriefGPT

关键词benchmark performance

搜索结果 - 15

LlamaCare：增强医疗知识共享的大型医学语言模型
提出了使用低碳排放量进行细调的医疗语言模型 LlamaCare，以及处理 LLMs 分类问题的新模块 Extended Classification Integration (ECI)。通过在 PubMedQA 和 USMLE 等基准测试中
PDFa month ago
PLLaVA：基于图像到视频的无参数 LLaVA 扩展用于视频密集字幕
通过引入一种简单但有效的汇聚策略，本文将图像 - 语言预训练模型应用于视频理解任务，并在问题回答和字幕生成等基准测试上取得了最新的最佳表现。
PDF2 months ago
RealHumanEval: 评估大型语言模型对程序员的支持能力
通过使用 RealHumanEval、静态基准以及优先度度量，研究了大型语言模型（LLMs）在代码编写中的效能表现以及对程序员生产力的影响。发现优化的基准性能可以提高程序员的生产力，但基准性能与人类表现之间的差距并不成比例，同时程序员的偏好
PDF3 months ago
ACL基于融合实例解码的实体消歧
提出了一种编码器 - 解码器模型来消除实体歧义，通过更详细的实体描述来改进基准性能，取得了强大而稳健的性能，尤其在 ZELDA 基准上比 GENRE 提高了 +1.5%，并在 GERBIL 基准的全流程实体链接中比 EntQA 提高了 +1
PDF3 months ago
ACL大城市偏见：评估都市规模对语言模型计算任务市场能力的影响
该研究评估了大型语言模型中城市规模偏差的数量，以及其对工资、企业存在和通勤时间的预测性能的影响，结果显示小型地区确实被低估了。
PDF4 months ago
语言模型基准测试的可预测性如何？
通过在 11 种最近的模型架构中研究大规模语言模型在五个数量级的计算规模上的表现，我们发现平均基准性能相当可预测，尽管在特定任务中的性能预测具有挑战性，因此计算规模提供了预测人工智能在不同基准测试中能力的有希望的基础。
PDF6 months ago
提升 AI 能力，无需昂贵重训
通过在初始训练后应用诸如微调系统以使用网络浏览器等技术的 “训练后增强” 技术，可以显著提高先进的人工智能系统的性能，我们回顾了最近的训练后增强方法，并将其归类为五种类型：工具使用、提示方法、脚手架、解决方案选择和数据生成。不同的增强方法改
PDF7 months ago
消除训练的神经辐射场的不利容积效应
本文针对神经辐射场（NeRF）在雾环境中的运用进行研究，提出了一种去除雾气的方法，并介绍了一个新的数据集用于评估在此类场景上的性能表现。
PDF8 months ago
量子储池计算的高效量子递归强化学习
通过构建基于 QRNN 的储层，并利用 QLSTM 构建量子强化学习代理，本文提出了一种新方法以应对 QRNN 在 QRL 中训练低效的挑战，并使用异步优势演员 - 评论家算法进行训练。通过数值模拟验证了 QLSTM-Reservoir R
PDF10 months ago
INSPIRED2: 一个改进的社交对话推荐数据集
本文研究了人工标注数据对于对话式推荐系统中实体识别精准性和回应一致性的影响，并以 INSPIRED2 数据集为例，证明数据质量对于对话式推荐系统的学习和表现具有重要意义。
PDF2 years ago
CVPR基于图嵌入的姿态聚类用于异常检测
本论文提出使用基于人体姿态图的新型异常检测方法，并运用 Dirichlet 过程，将数据映射到潜在空间中，最终通过弱分类器，达到在广泛基准测试集上表现优异的结果。
PDF5 years ago
ECCV场景图像生成中规范表示的学习
通过学习数据中的规范图形表征，我们提出了一种新模型，以改进复杂视觉场景的图像生成，并在 Visual Genome、COCO 和 CLEVR 三个基准测试上展示了模型的改进性能。
PDF5 years ago
CVPR文本检测的字符区域认知
提出了一种使用神经网络 2 来检测场景文本的新方法，在字符级别推断文本区域，采用新的关联表示法来估算字符背景。通过使用合成图像的给定字符级别注释和学习的中间模型获得的真实图像的估计字符级别地面真实性，也解决了缺少单独字符级别注释的问题，在
PDF5 years ago
AVA-Speech: 一部电影中密集标注的语音活动数据集
本文描述了一个新的数据集，其中含有 YouTube 视频中密集标记的语音活动，目的是为该任务创建一个共享，可用的数据集，并在 AVASpeech 上使用现成的最先进的音频和视觉模型报告基准性能数字，以便于未来的研究。
PDF6 years ago
Ubuntu 对话语料库：一份用于非结构化多轮对话系统研究的大型数据集
介绍 Ubuntu 对话语料库，包含近 100 万个多轮对话，可以用于建立基于神经语言模型的对话管理器，同时提供适用于此数据集的两种神经学习架构，并在选择最佳下一个响应的任务上提供了基准表现。
PDF9 years ago