评价信息抽取中的生成式语言模型作为主观问题纠正

COLINGApr, 2024

评价信息抽取中的生成式语言模型作为主观问题纠正

Evaluating Generative Language Models in Information Extraction as Subjective Question Correction

Yuchen Fan, Yantao Liu, Zijun Yao, Jifan Yu, Lei Hou...

TL;DR利用主观问句纠错法评估了现代大型语言模型在信息提取任务中的性能，提出了 SQS-Score 评价方法，衡量输出结果与真实标签之间的语义一致性，并通过结合自然语言推理模型，丰富了评价标签，解决了评价标准中的缺陷，发现 SQS-Score 相较于基准度量更受人类标注者的偏好，并利用 SQS-Score 对最先进的大型语言模型进行了全面评估，为未来的信息提取研究提供了洞见。

Abstract

Modern large language models (LLMs) have showcased remarkable prowess in various tasks necessitating sophisticated cognitive behaviors. Nevertheless, a paradoxical performance discrepancy is observed, where these models underperform in seemingly elementary tasks like relation extractio

large language models evaluation metrics subjective question correction information extraction benchmark incompleteness

发现论文，激发创造

为复杂信息抽取任务微调和对齐问答模型

使用提取式 QA 模型进行特征提取的方法可改善德语商业文档的信息提取，并通过微调现有德语 QA 模型提高性能，同时还讨论了评估信息提取任务的相关度得分指标。

Sep, 2023

利用 LLM 提升条件问答

该研究探讨了大型语言模型 (LLMs) 在具有挑战性的条件问答领域中的能力和局限性。利用条件问答 (CQA) 数据集，重点关注 T5 和 UL2 等生成模型，我们评估了 LLMs 在不同问题类型上的性能。研究发现，经过微调的 LLMs 在某些情况下可以超越现有技术在一些方面的表现，即使没有完全编码所有输入上下文，对于是 / 否问题的精确匹配 (EM) 和 F1 分数有 7-8 个点的增加。然而，这些模型在抽取性问答方面遇到了挑战，在与现有技术相比落后于 10 个以上的点，并且在减少注入错误信息的风险方面也存在问题。与神谕检索器进行的一项研究强调了有效证据检索的关键作用，强调了该领域需要先进解决方案的必要性。此外，我们强调了评估评价指标对性能评估的重要影响，并倡导使用更全面的评估框架。任务的复杂性、观察到的性能差异以及在条件问答任务中改进训练任务和探索基于提示的技术以提高 LLMs 性能的未来工作的需求，突显了这一领域面临的持续挑战。

Dec, 2023

重新思考基于生成的大型语言模型对语义理解的评估

通过对 24 种模型的 11 个评估标准进行综合评估，本文首先回顾了当前的评估方法 —— 多项选择题回答（MCQA），并突出了 MCQA 的一些潜在缺点，接着引入了 RWQ-Elo 评分系统，通过 24 种大型语言模型的竞争性对战，模拟现实世界的使用情景，最后分析了系统特点、与先前排行榜的对比，揭示了 RWQ-Elo 系统的稳定性、注册新模型的可行性和其重塑 LLM 排行榜的潜力。

Mar, 2024

形式胜于内容：大型语言模型的评估偏见

在评估自然语言生成的过程中，使用大型语言模型 (LLMs) 作为人类评判的替代方法是一种最新的趋势。然而，本研究发现其评估结果存在偏见。为解决这一问题，提出了多维度独立评估系统 (Multi-Elo Rating System)，在提高 LLM 评估质量方面取得了显著成效，但对众包评估没有明显改善，需要进一步探索和改进。

Jul, 2023

在大语言模型时代评估开放领域问答

通过人工评估，我们发现使用 InstructGPT 在 NQ-open 取得了新的最优结果，且所有模型的真实性能均被显著低估，同时超过 50％的词汇匹配失败归因于意义相当的答案，正则匹配排名与人类判断一致

May, 2023

通过语义一致性预测大型语言模型的问答性能

我们通过手动创建一个高质量的事实问答近义词语料库，并与先前工作中的其他相关度量标准相结合，以评估现代大型语言模型（LLMs）的语义一致性，以构建和评估一个用于事实问答参考无关性能预测的框架 -- 预测语言模型准确回答问题的可能性。通过对五个现代 LLMs 对该框架进行评估，我们展示了令人鼓舞的结果，显著超越了基线水平。

Nov, 2023

SemScore：基于语义文本相似度的指导调整 LLMs 的自动评估

提出一种称为 SemScore 的直接将模型输出与目标响应进行语义文本相似度比较的简单但非常有效的评估度量，对于评估调整教学语言模型在人工评估方面具有优势。

Jan, 2024

评估信息提取的质量

大规模语言模型的进展显著提高了从非结构化和半结构化数据源中提取信息的效率。本文引入了一个自动框架，用于评估信息提取的质量和完整性，重点关注实体及其属性的信息提取。讨论了如何处理大规模语言模型的输入 / 输出大小限制，并分析了在迭代提取信息时它们的性能。最后，介绍了用于评估提取质量的度量标准，并对如何解释这些度量标准进行了广泛讨论。

Apr, 2024

利用大型语言模型改进自动 VQA 评估

借助大型语言模型的上下文学习能力，我们提出了一个更好的 VQA 评估指标，该指标在多个 VQA 模型和基准测试中与人类判断更好地相关，希望广泛采用我们的指标以更好地估计 VQA 任务的研究进展。

Oct, 2023

多选题是否能够有效地检测 LLM 的能力？

在这篇论文中，我们评估了九个大语言模型在两种语言（中文和英文）的四个问答数据集上的表现，发现大语言模型在双语的多选题中存在一种顺序敏感性，竞争第一位置的选项更容易被选择，与此同时我们提出了两种衡量大语言模型输出一致性和置信度的方法，并发现多选题相较长篇生成题在一致性和预期校准误差方面较不可靠。

Mar, 2024