evaluation metrics | BriefGPT

关键词evaluation metrics

搜索结果 - 489

基于维度对齐的机器遗忘再调研
机器遗忘是一个新兴的研究课题，关注数据隐私法规合规性问题，使训练过的模型可以从特定数据中删除所学习的信息。我们通过对原始模型和重新训练模型之间的潜在特征空间的变化进行分析，并观察到不参与训练的样本的特征表示与之前训练样本的特征流形密切对齐，
PDF2 days ago
智能艺术排版：艺术文本设计与生成综述
艺术性文字生成旨在增强文本的审美特性，同时保持可读性。它可以使文本更具吸引力，更好地传达其表达意义，因此在社交媒体展示、消费电子产品、时尚和图形设计等领域都有广泛的应用场景。本综述提供了艺术文本样式化和语义排印的介绍，包括分类法、代表性方法
PDF7 days ago
ICCV视听对齐：通过音视频对齐来实现先进的声源定位
通过综合分析现有方法、基准、评估指标和跨模态理解任务，我们提出了一个新的综合声源定位方法，该方法通过跨模态对齐策略增强跨模态交互能力，并在现有和新基准上使用新的和标准评估指标对竞争方法进行了广泛验证。
PDF9 days ago
面向多地图 SLAM 中子地图连接的视觉地点识别再探
本研究探讨了在视觉 SLAM 中使用现代 VPR 组件进行子地图合并的影响，并提出了一种后处理流程和一组度量指标，以评估现代 VPR 组件的影响。研究结果表明，使用 VPR 组件可以改善 ORB-SLAM3 的地图合并性能，研究者可以通过这
PDF10 days ago
ICML电信领域问答的 RAG 度量评估
使用任何大型语言模型 (LLM)，本研究以修改的 RAGAS 包提供开放领域 LLM 的评估指标，分析专家评估及其在电信领域中的困难，并研究检索的正确性对度量标准的影响以及域自适应的差异，最后讨论这些度量标准在电信问答任务中的适用性和挑战。
PDF12 days ago
ECCVSPIN: 自然图像中的分层细分与子部分粒度
我们介绍了第一个具有自然图像的子部分标注的分层语义分割数据集（SPIN）。我们还引入了两个新的评估指标来评估算法在分层级别中捕捉空间和语义关系的程度。我们评估了现代模型在三个不同任务上的性能，并分析了它们在对象、部分和子部分上的优势和劣势。
PDF15 days ago
ESM+: 大语言模型时代的文本到 SQL 评估的现代观点
通过比较 9 个基于大型语言模型的文本到 SQL 模型在测试套件执行准确率 (EXE)、精确匹配准确率 (ESM) 和改进后的 ESM+(ESM+) 方面的表现，我们发现 EXE 和 ESM 评估指标在准确性方面存在明显的不足，而 ESM
PDF17 days ago
ECCV重新思考少样本类增量学习：向自己学习
通过引入新的评估指标 general average accuracy (gAcc) 和使用基于 gAcc 的面积曲线 (AUC) 总体度量，以及利用远距离层级的中间特征来改善特征的泛化能力，本研究提出了一个基于 Transformer 的
PDF17 days ago
ACL情感分析和情感识别中的多模态提示学习与缺失模态
通过使用提示学习、引入生成提示、缺失信号提示和缺失类型提示，我们提出了一种新的多模态 Transformer 框架，从而解决了缺失模态的问题，并在所有评估指标上显著优于其他方法，通过大量的实验和消融研究证明了我们方法的有效性和鲁棒性，展示了
PDF20 days ago
检测可见的更接近的表面：跨域 3D 物体检测的新建模和评估
提出两个指标来综合和合理评估跨领域场景中 3D 物体检测模型的性能，并为提高现有模型在跨领域情境下的性能提出了 EdgeHead 细化模块。
PDF23 days ago
图像数据增强的扩散模型进展：方法、模型、评估指标和未来研究方向综述
图像数据增强在计算机视觉任务中是一种重要的方法，它可以增强训练数据集的多样性和质量，从而提高机器学习模型在下游任务中的性能和鲁棒性。本研究对基于扩散模型的图像增强方法进行了系统、全面、深入的综述，涵盖了广泛的策略、任务和应用。具体而言，首先
PDF23 days ago
ACL基于 LLMs 的系统任务探索：引文文本生成研究
大型语言模型（LLMs）在定义和执行复杂的创造性自然语言生成（NLG）任务方面带来了前所未有的灵活性。然而，这种灵活性也带来了新的挑战，因为它在制定任务输入和指令以及评估模型性能方面引入了新的自由度。为了促进创造性 NLG 任务的探索，我们
PDF23 days ago
与人类感知相适应的人体动作生成对齐
通过引入一个大规模的人类感知性评估数据集 MotionPercept 和一个人类运动批评模型 MotionCritic，我们提出了一种数据驱动的方法来评估和提高生成的人类动作的质量。
PDF25 days ago
移动贝奇：一种用于基于 LLM 的移动代理的评估基准
通过引入 103 个 API 来扩展传统的 UI 操作，结合真实用户查询和 LLMs 的扩充数据，Mobile-Bench 提出了一种评估 LLM-based 移动代理能力的新型基准，其中包括 832 个数据输入和 200 多个任务，特别设
PDFa month ago
多语言环境下的检索增强生成
检验检索增强生成（RAG）在多语言环境下的性能，发现任务特定的提示工程和调整评估指标是必要的，同时解决非拉丁字母语言中经常发生的代码切换、流畅性错误、提供文档的错误阅读或无关的提取等问题。
PDFa month ago
自动樱桃挑选者：从语言驱动的高质量生成数据中学习
通过使用扩增感知和多模态训练的高质量多模态训练样例，Auto Cherry-Picker（ACP）框架能够生成高质量的图像布局并改善现有模型性能，其中使用了扩散模型、语言模型、评价指标等关键技术。
PDFa month ago
可扩展的领域通用抽象命题分段
将文本分成细粒度的含义单元对于广泛的自然语言处理应用非常重要，本文重点讨论了抽象命题分割的任务，并提出了评估指标和可扩展准确的命题分割模型，同时介绍了领域泛化方法，并分享了一个简单易用的 API。
PDFa month ago
从零开始：自动知识图谱补全的三元组预测
本研究提出了一种新的图级自动知识图谱补全任务，称为三元组集合预测（TSP），该任务旨在预测给定一组已知三元组的一组缺失三元组。为了评估这一新任务，我们提出了 4 个评估指标，包括 3 个分类指标和 1 个排序指标，并考虑了部分开放世界和封闭
PDFa month ago
X 射线简化：用通俗语言生成和评估放射学报告
通过引入一个以外行人术语为基础的数据集、评估和训练框架来系统地改进放射学报告生成 (RRG)，以解决现有用于评估 RRG 的词汇基准度量方法（如 BLEU）的问题，该方法的高性能可能只是一个幻觉。我们提出了一个基于语义的评估方法，并证明其可
PDFa month ago
机器反学习无法消除数据投毒攻击
我们重新审视了用于大规模深度学习的几种近似机器遗忘方法的功效。虽然现有的遗忘方法在一些评估设置下表现出了有效性，但我们实验证明它们无法消除数据污染的影响，在各种类型的污染攻击和模型中都表现出失败的情况。我们引入了基于数据污染的遗忘评估指标，
PDFa month ago