LLMScore:揭示大型语言模型在文本到图像合成评估中的优势
提出一种称为 SemScore 的直接将模型输出与目标响应进行语义文本相似度比较的简单但非常有效的评估度量,对于评估调整教学语言模型在人工评估方面具有优势。
Jan, 2024
利用大型视觉语言模型来评估生成图像与输入文本之间的对齐,在此基础上,通过细调扩散模型来提升其对齐能力。实验证明,该方法显著改善了构图图像生成中的文本 - 图像对齐,特别在物体数量、属性绑定、空间关系和审美质量方面。
Oct, 2023
使用 iScore 的交互式可视化分析工具,我们解决了评估大型语言模型在自动评分和信任建立方面的设计挑战,并通过与学习工程师的合作验证了该方法的有效性。
Mar, 2024
本研究提出了基于行为一致性概念的 TrustScore 框架,用于评估大型语言模型(LLMs)的响应与其内在知识的一致性,同时能够与事实核实方法无缝集成,实现与人类判断强相关性的结果。
Feb, 2024
利用大型语言模型 (LLM) 从文本提示中提取关键组件,包括前景对象的边界框坐标、各个对象的详细文本描述和简洁的背景上下文。这些组件构成了布局到图像生成模型的基础,该模型通过两个阶段的操作实现,初步生成全局场景后,使用迭代细化方案对内容进行评估和修正,以确保与文本描述的一致性,从而在生成复杂的场景时展现出比传统扩散模型更好的召回率,经由用户研究进一步验证了我们的方法在从错综复杂的文本输入中生成连贯详细场景方面的功效。
Oct, 2023
本文提出了 EvalAlign,这是一种准确性、稳定性和细粒度特性突出的评估指标,通过利用在大规模数据集上进行预训练的多模式大型语言模型(MLLMs)的能力,通过开发集中在图像忠实度和文本 - 图像对齐的两个关键维度的评估协议以及详细的、细粒度的指导指令,进行生成图像的精确手动评分,使 MLLMs 与人类评估判断紧密对齐,得到了一个强大的评估模型。我们对 24 个文本 - 图像生成模型进行了全面的测试,结果表明 EvalAlign 不仅提供了更好的指标稳定性,而且比现有的指标更接近人类的偏好,从而验证了其在模型评估中的有效性和实用性。
Jun, 2024
我们提出了 CompAgent,这是一种无需训练的组合文本到图像生成方法,核心是一个大型语言模型代理。我们的方法在复杂的文本提示下能够保持对图像的可控性,尤其是在保留对象属性和关系方面,通过先将文本提示分解成独立的对象、属性和场景布局,并引入验证和人类反馈机制来进一步校正属性错误和改进图像生成。
Jan, 2024
我们提出了一种评估方法,使用强大的大视觉语言模型作为评判者来全面评估大视觉语言模型的各种能力,通过构建综合的触石视觉对话数据集和整合详细的图像注释,我们能够在不需要人为干预的情况下,利用先进的大语言模型直接评估多模态对话的质量,从而为大视觉语言模型的评估提供参考,并铺就构建更强大的大视觉语言模型的道路。
Aug, 2023
该论文介绍了一个评估大型语言模型的新颖框架,重点是将图像生成的精确性和召回率指标应用于文本生成。通过对最先进的语言模型进行全面评估,揭示了它们在开放式生成任务上的性能问题,传统基准测试无法充分捕捉到。研究结果表明,在模型通过人类反馈进行微调时,生成样本的质量和多样性之间存在权衡。此工作扩展了基于分布的自然语言处理评估工具包,为当前大型语言模型在生成多样且高质量文本时面临的实际能力和挑战提供了深入洞察。
Feb, 2024