xFinder：大型语言模型的稳健精确定位答案提取

May, 2024

xFinder：大型语言模型的稳健精确定位答案提取

xFinder: Robust and Pinpoint Answer Extraction for Large Language Models

Qingchen Yu, Zifan Zheng, Shichao Song, Zhiyu Li, Feiyu Xiong...

TL;DR通过优化关键答案提取模块，xFinder 提高了关键答案提取准确率，降低了大语言模型对特定答案格式的依赖，增强了大语言模型评估的可靠性。

Abstract

The continuous advancement of large language models (LLMs) has brought increasing attention to the critical issue of developing fair and reliable methods for evaluating their performance. Particularly, the emergence of subjective or non-subjective cheating phenomena, such as test set l

large language models evaluation answer extraction key answer finder reliability

发现论文，激发创造

在大语言模型时代评估开放领域问答

通过人工评估，我们发现使用 InstructGPT 在 NQ-open 取得了新的最优结果，且所有模型的真实性能均被显著低估，同时超过 50％的词汇匹配失败归因于意义相当的答案，正则匹配排名与人类判断一致

May, 2023

利用 LLMs 从混合长文档中检索 KPI 的综合框架与数据集

本文提出了一个基于自动化金融信息提取框架的研究，该框架可以提高大型语言模型在理解和提取来自复杂的混合文本数据类型，特别是金融报告中的信息，尤其是数字提取方面的准确性。与一个简单的方法相比，我们在 GPT-3.5 和 GPT-4 上进行了评估和实验证明了该框架的实际效果提升，平均准确性分别提升了 53.94% 和 33.77%。

May, 2023

为复杂信息抽取任务微调和对齐问答模型

使用提取式 QA 模型进行特征提取的方法可改善德语商业文档的信息提取，并通过微调现有德语 QA 模型提高性能，同时还讨论了评估信息提取任务的相关度得分指标。

Sep, 2023

提升大型语言模型性能以更准确地回答问题和提取信息

通过精调模型和对称相似度、LLM 评估和 Rouge-L 分数等指标的连续反馈循环来提高人工智能模型，利用金融数据集和检索增强生成技术 (RAG)，证明精调模型在问题回答能力方面能够超越零 - shot LLMs 的准确性。

Jan, 2024

使用语言模型作为审核器的基础模型基准测试

本文提出了一种新的基准测试框架，Language-Model-as-an-Examiner，其中 LM 作为一个知识丰富的考官，提出问题，并以无参考的方式评估答复，以便更全面和公平地评估模型。

Jun, 2023

CFMatch: 自动化答案等效评估与专家判断在开放域问答中的对齐

通过采用职业人员 QA 竞赛来评估机器 QA 中答案的正确性，结合标准评估和一种更高效、稳健、轻量级的基于偏差 AE 分类器的匹配方法（CFMatch，小于 1 MB），培训和验证以更准确地评估答案的正确性，使得 QA 能够进一步发展。

Jan, 2024

利用大型语言模型研究自动评分和反馈

使用参数高效微调（PEFT）方法中的量化模型，通过细调大型语言模型（LLMs）自动为短答案和论文分配连续数值评分以及生成相关反馈，达到高准确性且成本和延迟相对较低。

May, 2024

重新寻求真相：多轮检索增强的大型语言模型是强大的假新闻检测器

通过多轮检索策略从网络源自动抽取关键证据进行主张验证的检索增强 LLMs 框架是第一种能自动地并有目的性地从网页信息中提取关键证据的框架，通过在三个现实世界数据集上进行全面的实验证明了该框架对现有方法的优越性。重要的是，我们的模型不仅提供准确的结论，还提供可读的解释，以提高结果的可解释性。

Mar, 2024

评价信息抽取中的生成式语言模型作为主观问题纠正

利用主观问句纠错法评估了现代大型语言模型在信息提取任务中的性能，提出了 SQS-Score 评价方法，衡量输出结果与真实标签之间的语义一致性，并通过结合自然语言推理模型，丰富了评价标签，解决了评价标准中的缺陷，发现 SQS-Score 相较于基准度量更受人类标注者的偏好，并利用 SQS-Score 对最先进的大型语言模型进行了全面评估，为未来的信息提取研究提供了洞见。

Apr, 2024

大型语言模型不是好的小样本信息提取器，但是对于难样本是一个很好的重新排名器！

通过使用自适应的筛选和重排序范式，使用大型语言模型和小型预训练语言模型相互补充，可以提高信息提取任务的性能和效率，并消减时间和预算成本。

Mar, 2023