- VIEScore:面向条件图像合成评估的可解释度量
本文介绍了 VIESCORE,这是一种视觉指导的可解释度度量指标,用于评估任何条件图像生成任务。VIESCORE 利用多模态大语言模型(MLLMs)的通用知识作为支撑,无需训练或微调。在七项著名的条件图像任务上评估 VIESCORE,我们发 - 关于会话推荐中遗忘机制的有效性研究
我们提出了 SRU,这是一个基于会话的推荐系统的遗忘框架,它能够实现高效的遗忘、准确的推荐性能和改善基于会话的推荐中的遗忘效果。我们通过将训练会话分成不同的子模型,并利用基于注意力的聚合层来融合隐藏状态,提出了三种额外数据删除策略,并提出了 - Reason2Drive:面向自动驾驶的可解释和链式推理
提出了一个用于自动驾驶的新数据集 Reason2Drive,其中包含了 600K 个视频文本对,以促进对复杂驾驶环境中可解释推理的研究。基于该数据集进行实验评估各种现有的视觉语言模型,并通过开发一种有效的方法来提高模型的推理准确性。
- 评估 ChatGPT 在中文拼写纠错中的性能的新度量标准 Eval-GCSC
ChatGPT 在中国拼写纠错任务中表现出色,但传统指标得分低,我们提出了 Eval-GCSC 这个新的评估指标,它采用了词级和语义相似度判断,来更好地评估生成模型在拼写纠错任务中的能力。实验结果显示,Eval-GCSC 与人工评估结果密切 - FAITHSCORE:评估大型视觉语言模型中的幻觉
我们介绍了 FAITHSCORE(Faithfulness to Atomic Image Facts Score),这是一个无需参考的细粒度评估指标,用于衡量大型视觉语言模型(LVLMs)生成的自由形式答案的忠实度。我们的度量方法与人类对 - GEMBA-MQM: 用 GPT-4 检测翻译质量错误片段
这篇论文介绍了 GEMBA-MQM,它是一种基于 GPT 的评估指标,专门用于检测翻译质量错误,尤其适用于无需人工参考翻译的质量估计设置。基于大型语言模型(LLM)的强大能力,GEMBA-MQM 采用了固定的三步提示技术,查询 GPT-4 - EMNLPCodeTransOcean:一项用于代码翻译的全面多语言基准
为了推动代码翻译研究并满足实际应用的多样需求,构建了支持最多语言的大规模综合基准 CodeTransOcean,其中包括了多种新颖的多语种数据集,以及用于评估编译性能的新颖交叉框架数据集 DLTrans。还展示了多语种建模方法在提高低资源和 - 弱监督语义分割中的小物体重要性
弱监督语义分割方法在不具备像素级标签的训练数据下,通过只有图像级标签进行像素级分类。本文通过提出新的评估指标和收集一个大小平衡的评估集,揭示了现有弱监督语义分割方法在捕捉小物体方面的困难,并提出了一个大小平衡的交叉熵损失函数和适当的训练策略 - 文本生成动作的最佳自动评估指标是什么?
人们对从自然语言描述中生成基于骨架的人类动作越来越感兴趣。本文系统地研究了哪些度量标准与人类评价最为相关,并提出了新的度量标准,这些度量标准与人类判断之间的相关性更好。通过对样本水平的人类评价,发现目前用于此任务的度量标准中没有一个与人类判 - MDSC:评估音乐与之间的风格一致性
MDSC 是一种评估指标,用于衡量舞蹈动作和音乐匹配程度。通过预训练音乐和动作编码器,以及在联合空间中最小化簇内距离和最大化簇间距离的方式,将舞蹈动作和音乐嵌入进行映射和对齐,并通过测量簇内距离、簇间距离以及两者之间的比例来评估这一度量标准 - 基于机器学习的视频编解码器的全参考视频质量评估
机器学习视频编解码器领域的研究论文,提出了一种新的全参考视频质量评估模型和数据集,证明现有评估指标对于机器学习视频编解码器并不高度相关,并开源数据集和评估模型以促进该领域的研究。
- 实用的无监督领域自适应评估指标研究
通过引入源准确度和数据增强,本文提出了一种新的无监督领域适应度评估指标,名为增强一致性度量。通过大规模实验证明了该指标的有效性,并且在四个常见基准测试中,相比手动调优的超参数集,自动搜索得到的超参数集表现更加优越。
- 语言生成系统的否定感知评估
本研究旨在改进语言模型对否定词的敏感性,提出了一种基于否定词的 BLEURT 评估指标 NegBLEURT,并通过设计基于规则的句子否定工具和创建 CANNOT 数据集进行模型优化。结果表明,经过优化的模型在否定句上表现优于现有的评估指标, - 学习和评估人类对话头生成的偏好
我们提出了一种名为 Preference Score(PS)的新型基于学习的评估指标,用于对人类偏好进行定量评估,验证其在与人类感知的一致性、对未见数据的鲁棒性和泛化能力方面的优越性,对推进对话头生成具有重要价值。
- 无上下文的多样手势类型交互分割
我们提出了一个简化的交互分割任务,支持多种手势类型,没有指定手势类型,通过引入第一个具有多个手势类型的交互分割数据集和一个新的评估度量来支持该任务。我们分析了许多交互分割算法,并分享了我们的新数据集。
- TopP&R:评估生成模型的保真度和多样性的鲁棒支持估计方法
提出了一种关于生成模型的可靠评估方法,称之为 Topological Precision and Recall(TopP&R),通过引入拓扑和统计方面的处理来进行严谨的支持估计,这不仅使得 TopP&R 更适合有噪音的特征,而且提供了统计一 - ConceptBed: 评估文本到图像扩散模型的概念学习能力
为了定量衡量 T2I 模型在学习和合成新型视觉概念的能力,该论文提出了一个大规模数据集 ConceptBed 和一个新的评估指标 Concept Confidence Deviation (CCD),作者评估了对象、属性、样式及四种组合性维 - ACL关于日语语音识别的宽松评估:建模自然发生的拼写不一致性
本研究提出了一种新的宽松的评价模型作为日语自动语音识别的更具潜力的 CER 测量,通过利用词汇量,文本处理计算机系统以及神经机器翻译模型对参考转录文本进行了合理重写。
- ACLOpenPI-C: 开放词汇状态跟踪的更好基准和更强基础线
本篇论文旨在研究开放词汇状态跟踪,针对现有数据集和评估指标存在的问题,提出了一个新的数据集 OpenPI-C 和基于聚类的度量方法,同时也提出了一种新的模型 —— 基于 seq2seq 生成模型,在考虑时间依赖和实体识别的情况下对模型进行了 - 潜在魔法:对语义潜空间中制造的对抗样本的调查
本文提出了一种利用变分自编码器来生成语义潜空间中的对抗样本的方法,并通过提出一个新的评估指标来解决评估挑战。同时研究了潜空间中的对抗样本与像素空间中对抗样本的可转移性,并证明了前者优于后者。