自带数据！面向大语言模型的自监督评估

Jun, 2023

自带数据！面向大语言模型的自监督评估

Bring Your Own Data! Self-Supervised Evaluation for Large Language Models

Neel Jain, Khalid Saifullah, Yuxin Wen, John Kirchenbauer, Manli Shu...

TL;DR提出了一种自监督评估框架，用于分析大型语言模型的敏感性或不变性，以测量其中的知识、毒性、远程上下文依赖性等特征，以及语法结构和令牌化错误，这一自监督评估可直接监视大量的真实数据，以帮助评估大型语言模型的行为表现。

Abstract

With the rise of large language models (LLMs) and their ubiquitous deployment in diverse domains, measuring language model behavior on realistic data is imperative. For example, a company deploying a client-facing chatbot must ensure that the model will not respond to client requests w

large language models self-supervised evaluation closed-book knowledge toxicity long-range context dependence

发现论文，激发创造

语言模型能够在无外部监督的情况下自主学习

大语言模型（LLMs）在追求超人类表现时，传统上一直依赖于人类注释的数据集和预定义的训练目标 - 这是一种既费时又固有有限的过程。本文提出了一种变革性的方法：自主学习 LLMs，这是一种无监督学习范式，使模型摆脱了人类监督的限制。我们的方法使 LLMs 能够通过与文本的直接交互来自我教育，类似于人类阅读和理解文学。我们的实证结果表明，自主学习在综合实验中表现优于预训练、监督微调以及检索增强方法。这些发现突显了自主学习不仅可以提高 LLMs 训练的效率和效果，还可以为更先进、自主的人工智能系统的发展铺平道路。

Jun, 2024

通过知识检测自我训练大型语言模型

该论文研究自训练范式，其中大型语言模型 (Large language models, LLMs) 通过自主策划标签并选择性地在未知数据样本上训练，以显著改善多个主题中生成中的虚构问题。此外，选择性训练框架在处理超出分布基准的灾难性遗忘时具有重要意义，解决了训练 LLMs 过程中的关键限制。我们的研究结果表明，这种方法可以大幅减少对大规模标记数据的依赖，为更可伸缩和经济有效的语言模型训练铺平了道路。

Jun, 2024

通过自监督的数据选择和合成实现设备端大规模语言模型个性化训练

通过提出一种新的框架来选择和存储在线上最具代表性的数据，本文解决了在设备上进行个性化的大型语言模型优化的问题，考虑了稀疏标注和有限的设备存储空间。

Nov, 2023

大型语言模型中自我评估提高选择性生成

使用大型语言模型进行自我评估可以提高生成内容的准确性，并与生成内容的整体质量更好地相关。

Dec, 2023

基于玻璃盒特征的大型语言模型的自我评估

通过研究自评估的情景，我们探索了使用开源大型语言模型 (LLMs) 进行自我评估的实用性，发现了 softmax 分布作为质量评估的可靠指标，并提出了两种增强评估的策略，从引用中获取特征。通过公共基准的实验结果验证了使用模型自我评估的可行性。

Mar, 2024

通过自我对话增强基于 LLM 的任务导向对话系统

通过使用大型语言模型进行自我对话的方法可以改进对话质量并生成用于训练的自我对话数据集。

Jan, 2024

自我认知评估大型语言模型

基于 Feynman 的理解通过创造原则，我们引入了一个易于实施的自我认知评估框架，评估模型对自动生成的问题的理解和回应能力。我们的研究发现，在多个任务上测试多个模型后，模型的自我认知能力存在显著差距。进一步分析表明，这些差距可能是由于与人类注意机制的不匹配所导致的。此外，对自动生成的数学任务进行微调可以提高模型的数学性能，突出了该框架在高效和富有洞察力的模型评估方面的潜力，并可能有助于改善大型语言模型。

Jun, 2024

超越静态数据集：一种深度交互方法用于 LLM 评估

基于深度交互的大语言模型评估框架能够评估大规模的现实世界任务中大语言模型的性能。

Sep, 2023

针对对话推荐系统的合成数据集评估

本研究提出对生成模型产生的数据集进行多方面评估的框架，探讨了各种评估方法的优缺点

Dec, 2022

自动化数据集更新以实现可靠和及时评估

通过自动化数据集更新以可靠且及时进行评估，来解决大型语言模型面临的评估挑战及数据泄漏问题。

Feb, 2024