- ACLAgentQuest: 一个模块化的基准测试框架,用于衡量和提升 LLM 代理的进展
通过构建可扩展的模块化基准和评估指标,提出了 AgentQuest 框架用于追踪和改进大规模语言模型代理在解决复杂多步骤推理任务中的性能。
- 偶然输入条件下的在线学习:综合评述与分析
在线学习中处理无序输入的方法和数据集的分类,评估以及对数据集不平衡性的度量,附带了代码实现和碳足迹的介绍。
- 增强上下文感知的视频摘要
视频摘要是一个至关重要的研究领域,旨在从当今海量视频内容中高效浏览和检索相关信息。尽管视频摘要的重要性,缺乏多样化和有代表性的数据集阻碍了算法的全面评估和基准测试。为了克服数据稀缺的挑战并改进评估,我们提出了一种利用视频数据结构和信息生成信 - EASSE-DE:德文自动句子简化评估的更简易方法
提出了 EASSE-multi 框架,用于多种语言的更轻松的自动句子评估;以德语 TS 为例,比较了不同语言和分词设置下的文本简化结果,给出了提高 (德语) TS 模型评估透明度和可比性的建议。
- COLING评价信息抽取中的生成式语言模型作为主观问题纠正
利用主观问句纠错法评估了现代大型语言模型在信息提取任务中的性能,提出了 SQS-Score 评价方法,衡量输出结果与真实标签之间的语义一致性,并通过结合自然语言推理模型,丰富了评价标签,解决了评价标准中的缺陷,发现 SQS-Score 相较 - 重新思考标注模拟:全身 PET 病灶交互分割方法的实际评估
通过引入四个评估度量值来量化真实用户和模拟用户之间的转换,我们提出一种更逼真的机器人用户,通过考虑点击变异和标注者之间的不一致性来减小模拟与真实用户之间的差距,并通过一个具体案例表明这种机器人用户相比传统机器人用户能够持续减少模拟与真实用户 - 对对抗性图像生成方法的基准测试
本文提出了一个综合性框架,旨在评估反事实图像生成方法,并包含了聚焦于反事实的多个方面的评估指标,如组成、有效性、干预的最小性和图像逼真度。通过基于结构因果模型范式的三种不同的条件图像生成模型类型的性能评估,证明了该框架的有效性,并提供了一个 - COLING神经多模态主题建模:全面评估
本文提出了首次系统全面评估多模式主题建模的方法,并提出了两个新的主题建模解决方案和两个新的评估指标。通过对数据集的评估,我们发现我们的模型都能生成连贯且多样化的主题。然而,一个方法优于另一个方法的程度取决于评估指标和数据集的组合,这表明未来 - ICCV 2023 第一届科学图像标题生成挑战的解决方案
通过文本摘要生成图像标题,提取 OCR 信息,提取特定图像的信息,使用评估指标 BRIO 进行质量评估,获得最高的得分。
- 评估文本到图像合成:图像质量指标的调查和分类
最近的文本到图像合成研究利用语言和视觉结合的基础模型取得了突破。为了确保文本和图像之间的内容对齐,研究人员开发了新的评估指标,通过收集带有复杂注释的数据集来研究视觉 - 语言模型的组合性以及作为内容对齐质量度量的能力。本文全面介绍了现有的文 - LMStyle 基准测试:评估聊天机器人的文本风格转移
本研究提出了 LMStyle Benchmark,这是一个适用于聊天风格文本风格转换的评估框架,可以自动化和可扩展地评估大型语言模型的风格转换质量,并引入了适应度等新颖的度量方法,从而更好地反映人类判断。
- 提升幸福感:通过图像扩散模型引发情绪
通过扩展已有的图像生成研究,我们提出了一种新的情感诱发图像生成模型,旨在在保留原始场景的语义和结构的同时,生成能够引发目标情感的图像。我们使用扩散模型来有效地理解和编辑源图像,以传达所需的情感和情绪,通过进行人类心理物理实验和引入四种新的评 - 大型视觉语言模型中评估和缓解数字幻觉:一种一致性视角
通过建立数据集和使用评估指标,我们发现大规模视觉语言模型中存在数量幻觉的普遍问题,并从内部和外部一致性问题的角度进行了深入分析。我们提出了一种一致性训练方法来减轻这种幻觉,与直接微调方法相比,其平均改善了 8%。
- 评估神经网络的可视连续性腐败鲁棒性相对于人类表现
我们提出了一种视觉连续的损坏稳健性(VCR)方法,允许在范围广泛且连续的变化中评估神经网络对图像损坏的稳健性,并使用两种新颖的人类感知度量标准进行评估。通过在 14 种常用图像损坏上进行实验,并与大量的人类参与者和最新的稳健神经网络模型进行 - RORA: 强健自由文本理由评估
通过评估条件性 V - 信息以及对容易被小型模型利用的敏感特征进行鲁棒性评估,我们提出了一种针对标签泄漏的强韧的自由文本基于理由的评估方法 RORA,它在评估人类编写、合成或模型生成的基于理由时提供了更可靠和准确的度量,尤其是对于标签泄漏展 - KDD研究随机性对深度神经网络进行森林火灾预测评估的影响
本文首次系统研究了在随机假设下对离散动力系统的深度神经网络(DNN)进行评估,并重点关注野火预测。我们开发了一个框架来研究随机性对两类评估指标的影响:基于分类的指标,用于评估与观测地面真实性(GT)的一致性;和正确性评分规则,用于测试与统计 - 鹰:真实互动的伦理数据集
本研究通过从 ChatGPT 与用户之间的真实交互中提取出具有社会偏见、毒性和不道德问题的 Eagle 数据集,实验结果表明 Eagle 捕捉到了现有用于评估和缓解这些道德挑战的数据集所没有覆盖到的互补方面。
- UFO: 一个用于评估大型语言模型事实性的统一灵活框架
大语言模型(LLMs)可能生成与人类知识不一致的文本,导致事实错误或产生虚构。为解决这些问题,本研究将可用的事实来源分类为人工书写证据、参考文献、搜索引擎结果和 LLM 知识,并提出了一种名为 UFO 的基于 LLM 的统一灵活评估框架,以 - COLING低资源南亚语言中的多语言共指消解
通过使用现成的翻译和词对齐工具,我们引入了一个包含 31 种南亚语言的多语种共指解析翻译数据集(TransMuCoRes)。两个现成的共指解析模型使用 TransMuCoRes 与一份具有手工注释的印地语共指解析数据集的连接进行训练,最佳模 - 音乐生成的结构导向位置编码
利用结构信息的位置编码框架改进深度学习生成音乐的一项研究,通过使用变换器模型,提出了三种不同类型的位置信息编码方法,并通过两个符号音乐生成任务对其进行全面测试,结果表明这些方法能够提升生成音乐作品的旋律和结构的一致性。