- GenAI Arena:生成模型的开放评估平台
通过开源平台 GenAI-Arena 和统计方法,该研究论文提出一种评估图像和视频生成模型的方法,以更准确地衡量模型性能,并发现现有的多模态模型在评估生成的视觉内容方面存在不足。
- 评估生成模型中的世界模型
大型语言模型潜在学习世界模型的研究及其评估方法和度量标准的提出,揭示了现有生成模型在评估世界模型的经典诊断上表现良好,但度量标准揭示了其世界模型的内在不连贯性和脆弱性,并提出新的评估方法以实现更接近真实逻辑的生成模型。
- 基于视觉输入的故事生成:技术、相关任务和挑战
从视觉数据中创建引人入胜的叙述对于自动化数字媒体消费、辅助技术和互动娱乐至关重要。该研究综述了用于生成这些叙述的方法学,重点讨论其原理、优势和局限性。该综述还涵盖了与自动故事生成相关的任务,如图像和视频字幕以及视觉问题回答,以及没有视觉输入 - 提升 LLMs 的信任度:比较和解释 LLMs 的算法
评估技术在提高大规模语言模型(LLM)的可信度和理解性方面起到了至关重要的作用,通过算法方法和评估指标来评估 LLM 的性能,发现其弱点,并引导其发展以实现更可信赖的应用。
- 深度学习音频生成方法概述
本文综述了音频生成中深度学习模型开发所使用的典型技术,包括音频表示、深度学习架构变体及其实际应用,以及常用的评估指标。该文章旨在为音频生成领域的初学者和新手提供对当前最先进的音频生成方法及相关研究的全面理解,以供未来研究探索。
- 细节图像描述的基准测试与改进
图像标注长期以来一直被视为视觉理解的基本任务。最近,由于过时的短字幕基准和不可靠的评估指标,很少有大规模视觉 - 语言模型(LVLM)研究讨论模型的图像标注性能。本文提出了通过由人类专家注释的高质量评估数据集 GPT-4V 和 Gemini - Mashee 参加 SemEval-2024 任务 8:样本质量对机器文本分类的上下文学习性能的影响
该论文的主要目标是通过选择高质量样本来提高评估指标,从而增强在少样本学习场景中的上下文学习的性能。
- COLING个性化对话生成的最新趋势:数据集、方法和评估综述
通过个性化,在对话代理中提高用户参与度已经变得很重要,尤其是随着大规模语言模型的出现,能够生成流畅的回应。本文系统地调查了个性化对话生成的最新研究现状,包括使用的数据集、开发的方法论和应用的评价指标。涵盖了 22 个数据集,我们重点介绍了基 - ICML动态治疗方案中的强化学习需要全面重新审视
通过对超过 17,000 个评估实验的案例研究,我们批判性地检视了当前离线强化学习在动态治疗方案中的应用现状,并提出了评估指标的不一致性、缺乏基线比较、以及现有研究中选择的强化学习表示形式的多样性等关注点。令人惊讶的是,在一些情况下,随机基 - 评估遗忘模型的信息论度量
机器反学习(MU)通过从训练模型中删除有关 “遗忘数据” 样本的信息来解决隐私问题。我们质疑使用现有的评估方法是否有效,并提出了一种量化中间特征中关于遗忘数据样本的剩余信息的度量指标,称为信息差异指数(IDI),以更好地评估 MU 方法。I - QUB-Cirdan 在 “出院啦!” 中:零射击出院信生成的开源 LLM
利用 Llama3 8B 量化模型和检索增强生成(RAG)方法生成病人出院信中的 “简要医院病程” 和 “出院指示” 节,结果表明我们的方法在多个评估指标上取得了高效且有效的结果。
- AnyLoss:将分类指标转化为损失函数
我们提出了一种通用的方法,将任何基于混淆矩阵的度量转化为可用于优化过程的损失函数,并通过对其导数的建议证明了其可微分性,我们在多个数据集上进行了广泛的实验证明了该方法在处理不平衡数据集方面的杰出成就,并且与多个基准模型相比的竞争学习速度凸显 - 热图的基于部件的定量分析
热力图在解释人工智能(XAI)中起到了重要的作用,这篇论文探讨了提高热力图信息性和可访问性的方法,并提出了开发自动化、可扩展和数值分析方法以使热力图 XAI 更客观、用户友好和成本效益的需求,同时也需要全面的评估指标来评估热力图质量。
- 多模态机器翻译调查:任务、方法与挑战
多模态机器翻译是近年来引起学术界和工业界广泛关注的研究领域,本文通过综述先前的 99 项研究工作,全面总结了主要模型、数据集和评估指标,分析了各种因素对模型性能的影响,并讨论了未来该领域的研究方向。与之前限制在早期多模态机器翻译的调查不同, - CVPRDiff-BGM: 视频背景音乐生成的扩散模型
本文通过提出高质量的音乐视频数据集 BGM909 并进行详细注释和镜头检测,使用检索精确度度量标准来评估音乐质量,提出了 Diff-BGM 框架,以自动为给定的视频生成背景音乐,并引入片段感知交叉注意力层进行视频和音乐的顺序对齐,实验证明了 - 从黄昏直到黎明:利用视觉基础模型进行自监督夜间立体深度估计
提出了一种算法,专注于夜间条件下准确的自监督立体深度估计,通过使用预训练的视觉基础模型提取具有挑战性场景的泛化特征,并提出了一种有效的匹配和集成方法,同时采用了新颖的遮罩方法来过滤掉违反光度一致性假设的像素,并提出了新颖的评估指标,实验证明 - SimAD: 一种基于简单不相似性的时间序列异常检测方法
时间序列异常检测仍然具有挑战性,现有方法在处理时间窗口、正常模式表示和评估指标上存在问题。本文提出了一种名为 SimAD 的基于差异性的时间序列异常检测方法,通过先进的特征提取器、EmbedPatch 编码器和 ContrastFusion - COLING通过众包评估自然语言处理中的显著性解释
通过众包方法,我们提出了一种新的基于人类的自然语言处理(NLP)显著性方法评估方法,对七种显著性方法在两个数据集上进行了实证评估,与现有的自动评估方法进行了对比,发现了 NLP 和计算机视觉(CV)领域在使用显著性方法时存在显著差异。
- ICML尺寸不变性的重要性:重新考虑用于不平衡多目标显著目标检测的指标和损失函数
本研究探讨了显著目标检测中评估指标的尺度不变性,尤其是当同一图像中存在多个不同大小的目标时。通过观察,我们发现当前的评估指标对尺寸很敏感,更倾向于关注较大的目标而忽略较小的目标。我们认为评估应该是尺度不变的,因为没有附加语义信息时,基于尺寸 - 野外文本生成三维内容调查
文献调查了最新的文本生成三维内容的方法,并详细介绍了该领域的背景、数据集、评估指标以及不同的三维表示方法。通过对生成流程的分类和优劣势的分析,为进一步探索基于文本的三维内容创建提供了启示,并指出了未来研究的几个有希望的方向。