自动化数据集更新以实现可靠和及时评估

Feb, 2024

自动化数据集更新以实现可靠和及时评估

Have Seen Me Before? Automating Dataset Updates Towards Reliable and Timely Evaluation

Jiahao Ying, Yixin Cao, Bo Wang, Wei Tang, Yizhe Yang...

TL;DR通过自动化数据集更新以可靠且及时进行评估，来解决大型语言模型面临的评估挑战及数据泄漏问题。

Abstract

Due to the expanding capabilities and pre-training data, Large Language Models (LLMs) are facing increasingly serious evaluation challenges. On one hand, the data leakage issue cause over-estimation on existing b

large language models evaluation challenges data leakage automate dataset updates evaluation stability

发现论文，激发创造

通过知识检测自我训练大型语言模型

该论文研究自训练范式，其中大型语言模型 (Large language models, LLMs) 通过自主策划标签并选择性地在未知数据样本上训练，以显著改善多个主题中生成中的虚构问题。此外，选择性训练框架在处理超出分布基准的灾难性遗忘时具有重要意义，解决了训练 LLMs 过程中的关键限制。我们的研究结果表明，这种方法可以大幅减少对大规模标记数据的依赖，为更可伸缩和经济有效的语言模型训练铺平了道路。

Jun, 2024

现代大语言模型中数据污染问题研究

我们通过检测数据污染并提出 “Testset Slot Guessing” 方法，发现商业化的 LLM 在评估基准中有明显的性能改进，并呼吁在该领域使用更强大的评估方法和基准。

Nov, 2023

一点点泄漏将毁掉一艘巨舰：从头到尾的大语言模型透明度调查

大型语言模型存在泄漏风险，可能泄漏个人信息、侵犯版权以及评估数据集，本文通过实验调查泄漏数据比例与输出速率、检测性能之间的关系，并提出了一种自检测方法，结果显示即使训练数据中含有少量泄漏数据，大型语言模型仍能产生大量的泄漏信息，而我们的自检测方法表现优于现有的方法。

Mar, 2024

自带数据！面向大语言模型的自监督评估

提出了一种自监督评估框架，用于分析大型语言模型的敏感性或不变性，以测量其中的知识、毒性、远程上下文依赖性等特征，以及语法结构和令牌化错误，这一自监督评估可直接监视大量的真实数据，以帮助评估大型语言模型的行为表现。

Jun, 2023

时间视角下的数据污染

大型语言模型的数据污染问题及对基准测试的影响进行了全面纵向分析，结果表明数据污染现象显著存在，这项研究为研究现代模型中数据污染问题的严格分析奠定了基础，并提出了在大型语言模型时代进行基准测试的最佳实践和未来步骤。

Oct, 2023

关于基于 LLMs 驱动的合成数据生成、整理和评估的调查

这篇论文旨在通过提出一种基于合成数据生成的通用工作流程的组织方式，突出现有研究中的差距，并概述未来研究的前景，以引导学术和工业界更深入、更系统地探索基于大型语言模型驱动的合成数据生成的能力和应用。

Jun, 2024

不要让您的 LLM 成为一个评估基准作弊者

大型语言模型的评估常常会受到不适当使用评估基准和误导性解读评估结果等问题的影响。本研究通过大量实验发现，评估基准泄漏会极大地提高评估结果，从而导致对模型性能的不可靠评估。最后，为大型语言模型的开发者和基准维护者提出了一些建议。

Nov, 2023

揭示 LLM 生成数据的本质

本研究探讨了大型语言模型（LLMs）在生成人工数据中的不断扩大的作用。尽管人工数据能够与人类性能相匹配，但本文揭示了显著的潜在差异，尤其是在复杂任务中，LLMs 常常错过对内在人类生成内容的微妙理解。该研究批判性地考察了多样化的 LLM 生成数据，并强调了在数据创建和使用 LLMs 时遵循道德实践的必要性。它凸显了解决 LLM 生成内容中产生的偏差和人为因素对于未来研究和开发的重要性。所有数据和代码都可在我们的项目页面上获得。

Jan, 2024

通过减轻曝光偏差来更新大型语言模型的自我信息

本文对 LLMs 的自我信息更新任务进行了全面的研究，并评估了其持续微调方法。作者发现，普通的持续微调方法可能存在暴露偏差问题。因此，他们提出了一种有效的方法来缓解这个问题，进一步开发了新闻文章数据集来评估信息更新。实验结果表明，所提出的方法能显著提高事实一致性分数（0 到 1）0.16，对与新信息不直接相关的指令的性能几乎没有影响。

May, 2023

提升大型语言模型的数据生成能力

本文提出了一种统一的数据创建流程，只需一个格式示例，适用于包括传统上问题较多的任务在内的广泛范围，通过实验证明使用指令跟随型大型语言模型创建的数据比使用人工标注的数据在分布外评估上表现更好（高达 17.5%），同时在分布内任务上保持可比较的性能，这些结果对于在现实世界中部署的自然语言处理系统的稳健性具有重要意义。

Oct, 2023