基于 MRR 和 NDCG 模型的视觉对话集成

ACLApr, 2021

基于 MRR 和 NDCG 模型的视觉对话集成

Ensemble of MRR and NDCG models for Visual Dialog

Idan Schwartz

TL;DR介绍了一种基于非参数排序的双步骤方法，可以将 MRR 和 NDCG 模型合并，从而在视觉对话的领域中发挥出色，展现了当前 MRR 和 NDCG 的最优表现。

Abstract

Assessing an ai agent that can converse in human language and understand visual content is challenging. Generation metrics, such as BLEU scores favor correct syntax over semantics. Hence a discriminative approach is often used, where an agent ranks a set of candidate options. The mean

ai agent conversational ai ndcg metric mrr metric visual dialog

发现论文，激发创造

NeuralNDCG: 直接通过可微分的排序松弛优化排名指标

本文提出了一种 NeuralNDCG 算法作为一种新颖的不可区分且可微分的排序近似来解决传统 LTR 算法中优化目标与评估标准之间的矛盾，并且我们介绍了两种这种算法的变体，实证评估结果显示其性能优于之前针对优化 NDCG 的工作，并且与最先进算法基本持平。

Feb, 2021

排名与重新加权改善组分布鲁棒性

本文提出了一种基于 Discounted Cumulative Gain（DCG）评估模型质量的方法，并建议了 Discounted Rank Upweighting（DRU）训练方法以提高模型的品质，在实验中结果表明，这种基于组排名的训练方法能够选择和学习出对组分布性变化具有鲁棒性的模型。

May, 2023

RankDCG: 排序评价指标

介绍了 nDCG 的变体 ——rankDCG, 旨在解决 nDCG 等在用户排序或推荐系统中存在的问题；新方法满足有效排序算法的多个标准，并在实验中证明了其有效性。

Mar, 2018

关于（标准化的）折扣累积收益作为一个离线评估 $n$ 个项目推荐的度量

对推荐方法的评估方法进行了探讨，研究了离线评估和在线试验之间的关系，并分析了离线评估指标的一致性和实用性。

Jul, 2023

深度学习中基于 NDCG 替代函数的大规模随机优化及证明收敛性

本文提出了一种优化排序度量 NDCG（即归一化折扣累计增益）和其变种方法的方法，包括创新的组成式方法和双层组成式优化问题，以及利用初始热身和停止梯度算子的实用策略。该方法使用可证明收敛保证的有效随机算法，并通过多个数据集上的实验，展示了在 NDCG 方面优于之前的排序方法的效果。

Feb, 2022

基于排名的损失函数的高效优化

提出了一种新的 quicksort-flavored 算法，可以在大量训练数据集上优化非可分离损失函数。已证明，该方法适用于包括 AP 和 NDCG 基础上的损失函数，并且对于我们的方法渐近计算复杂度不能提高。我们展示了该方法在优化结构化铰链损失上的效果并且得到了比简单的可分离损失函数更好的结果，同时需要相当的训练时间。

Apr, 2016

DCR - 一致性：大规模语言模型的划分 - 征服 - 推理的一致性评估和改进

提出了 DCR（一种自动化评估框架）以评估和改善大型语言模型生成的文本一致性，通过使用分而治之的方法，将段落到段落之间的比对转化为句子到段落的比对，并引入了自动度量转换器以翻译结果为可解释的数值分数。该方法在评估一致性方面表现出色，还能显著减少近 90% 的输出不一致性，并有望有效减少虚假信息。

Jan, 2024

图像检索的排名损失优化

图像检索中，标准评估指标依赖于分数排名，如平均精度（AP）、前 k 个结果的召回率（R@k）、归一化折现累积增益（NDCG）。本研究引入了一种用于鲁棒且可分解的排名损失优化的通用框架，解决了端到端训练深度神经网络时面临的两个主要挑战：非可微性和非可分解性。首先，我们提出了一种通用的排名操作符替代品 SupRank，它适用于随机梯度下降，提供了排名损失的上界并保证了鲁棒训练。其次，我们使用一个简单而有效的损失函数来减小排名损失的批次平均近似与整个训练集上的损失值之间的可分解性差距。我们将我们的框架应用于图像检索的两个标准指标：AP 和 R@k。此外，我们还将我们的框架应用于分层图像检索。我们引入了 AP 的扩展，即分层平均精度 H-AP，并对其以及 NDCG 进行了优化。最后，我们创建了第一个分层地标检索数据集。我们使用半自动流程创建分层标签，扩展了大规模的 Google Landmarks v2 数据集。该分层数据集可在此 URL 公开获取。代码将在此 URL 发布。

Sep, 2023

NDCG 类型排名度量的理论分析

本研究从理论角度探讨了广泛使用的标准化折扣累计增益（NDCG）- 类型排名度量的理论特性，提出了 “一致可区分性” 的概念，揭示了是否具有一致可区分性取决于折扣函数的降幂程度，在各种选择 k 和折扣函数的情况下，对 NDCG@k 的可区分性进行了分析，并对实验结果进行检验。

Apr, 2013

针对条件自然语言生成的分布感知度量

本文提出了一个新的方法对多样本设置下条件语言生成模型进行评估，通过对多个生成的结果进行比较，以区分单一描述和多样性质的差异并提出一些结论。

Sep, 2022