大型多模态模型时代中的指代表达理解评估再探

Jun, 2024

大型多模态模型时代中的指代表达理解评估再探

Revisiting Referring Expression Comprehension Evaluation in the Era of Large Multimodal Models

Jierun Chen, Fangyun Wei, Jinjing Zhao, Sizhe Song, Bohuai Wu...

TL;DR参考表达理解（REC）涉及根据文本描述定位目标实例。本研究质疑现有基准对大型多模态模型（LMMs）的全面性能力，通过手动检查现有基准，发现高标注错误率，并通过排除问题实例和重新评估多种 LMMs 来解决。为了评估现代 REC 模型，引入了 Ref-L4，一个全面的 REC 基准。在 Ref-L4 上评估了 24 个大模型并提供了有价值的见解。

Abstract

referring expression comprehension (REC) involves localizing a target instance based on a textual description. Recent advancements in REC have been driven by large multimodal models (LMMs) like CogVLM, which achi

referring expression comprehension benchmark labeling error rates large multimodal models accuracy improvements

发现论文，激发创造

LLMRec：在推荐任务上对大规模语言模型进行基准测试

通过 LLMRec，我们对各种推荐任务对多个常用的 LLM 模型进行了基准测试，发现 LLM 模型在准确性任务中表现中等，但在可解释性任务中与最先进的方法相比具有相当的性能，并通过定性评估进一步验证了生成内容的质量和合理性。

Aug, 2023

RefuteBench：评估大型语言模型的反驳指令跟随

该研究论文介绍了大型语言模型在接受用户反馈方面的问题，并提出了一个包括问答、机器翻译和电子邮件写作等任务的综合评估基准 RefuteBench。研究发现，大型语言模型倾向于自身内部知识，并且在对话过程中逐渐遗忘用户的反馈，而回归到自己的回复，通过召回和重复提示的方式可以提高模型响应用户反馈的能力。

Feb, 2024

探索精确度和召回率以评估 LLMs 的质量和多样性

该论文介绍了一个评估大型语言模型的新颖框架，重点是将图像生成的精确性和召回率指标应用于文本生成。通过对最先进的语言模型进行全面评估，揭示了它们在开放式生成任务上的性能问题，传统基准测试无法充分捕捉到。研究结果表明，在模型通过人类反馈进行微调时，生成样本的质量和多样性之间存在权衡。此工作扩展了基于分布的自然语言处理评估工具包，为当前大型语言模型在生成多样且高质量文本时面临的实际能力和挑战提供了深入洞察。

Feb, 2024

ReLLa: 检索增强的大型语言模型用于推荐中的终身顺序行为理解

我们提出了一种名为 ReLLa 的新框架，即检索增强的大型语言模型，用于零样本和少样本推荐任务，通过语义用户行为检索和检索增强指导调优技术，提高了大型语言模型在推荐系统中的推荐性能和对用户行为序列的理解能力。

Aug, 2023

大型语言模型与协同过滤相遇：一种高效全能基于 LLM 的推荐系统

提出了一种高效的全方位基于语言模型的推荐系统，能够在冷和热场景下表现出卓越的性能，并利用协同知识和高质量用户 / 物品嵌入来生成自然语言输出。

Apr, 2024

KELLMRec：知识增强的大型语言模型用于推荐

利用外部知识辅助大规模语言模型（LLM）在生成真实可用的文本方面具有潜力，因此我们提出了一种名为‘Knowledge-Enhanced LLMRec’的方法，通过使用外部知识在生成过程中，并且通过基于知识的对比学习方案来训练模型，实验证实了该方法的有效性。

Mar, 2024

CherryRec: 基于 LLM 驱动框架的新闻推荐质量增强

通过使用自定义的基于文本特征的大型语言模型 (LLMs)，我们提出了一个名为 CherryRec 的新闻推荐框架，以提高新闻推荐的效果和效率，并通过与基准方法在基准数据集上的比较验证了其有效性。

Jun, 2024

LLM 引导的归纳推理在解决组合问题上的应用

使用递归解决方案和自动推理技术，REBEL 方法扩展了大型语言模型的能力，允许其在开放世界情境中进行深度推理任务和外部工具的使用。

Sep, 2023

DocReLM: 用语言模型掌握文档检索

通过使用大型语言模型，我们展示了文献检索系统能够达到先进的语义理解能力，显著优于现有系统；我们的方法包括使用大型语言模型生成的领域特定数据来训练检索器和再排名器，此外，我们还利用大型语言模型从检索到的论文参考文献中识别候选项以进一步提高性能；我们使用量子物理学和计算机视觉领域的学术研究人员标注的测试集来评估系统的性能，结果显示 DocReLM 在计算机视觉领域的前十准确率为 44.12%，而 Google Scholar 为 15.69%，在量子物理学中提高到 36.21%，而 Google Scholar 为 12.96%。

May, 2024

利用大型语言模型进行推荐的表示学习

通过整合大型语言模型与推荐系统的表示学习，我们提出了一个模型不可知的框架 RLMRec，旨在增强现有的推荐器，并提高其对于用户行为和偏好的语义理解，同时通过交叉视角对齐框架，将 LLM 的语义空间与协同关系信号的表示空间相对应。

Oct, 2023