追踪信誉动态：重新审视大型语言模型的预训练时期

Feb, 2024

追踪信誉动态：重新审视大型语言模型的预训练时期

Towards Tracing Trustworthiness Dynamics: Revisiting Pre-training Period of Large Language Models

Chen Qian, Jie Zhang, Wei Yao, Dongrui Liu, Zhenfei Yin...

TL;DR通过对大型语言模型的早期预训练进行线性探测和互信息探测，本文揭示了预训练中大型语言模型在可靠性、隐私、有害性、公平性和稳定性等方面的潜力，为揭示预训练中的可信性建模进行了初步探索。

Abstract

Ensuring the trustworthiness of large language models (LLMs) is crucial. Most studies concentrate on fully pre-trained LLMs to better understand and improve LLMs' →

large language models trustworthiness pre-training linear probing accuracy mutual information estimation

发现论文，激发创造

TrustLLM：大型语言模型的可信性

介绍了 TrustLLM，这是一个关于 LLM（大型语言模型）信任度的综合研究，包括不同维度的信任度原则、建立的基准、评估和分析主流 LLM 的信任度，以及对开放挑战和未来方向的讨论。

Jan, 2024

值得信赖的 LLM：评估大型语言模型的对齐性的调查和指南

为了确保大型语言模型在实际应用中与人类意图保持一致，本研究介绍了对 LLM 值得信赖性进行评估时需要考虑的关键维度，包括对 LLM 的可靠性、安全性、公平性、抵抗滥用性、可解释性和推理性、遵守社会规范以及鲁棒性进行调查研究。通过对几个广泛使用的 LLM 进行测试，研究结果表明，总体上，更加符合人类意图的模型在整体可信度方面表现更好，但是模型对不同可信度类别的影响程度有所不同，这凸显了在 LLM 对齐方面进行更加细致的分析、测试和不断改进的重要性。本研究旨在为该领域的从业人员提供有价值的见解和指导，理解和解决这些问题对于在各种应用中实现可靠和符合伦理的 LLM 部署至关重要。

Aug, 2023

对预训练数据检测的语言模型探究

大语言模型（LLMs）在展示其出色的能力的同时，也引发了由于隐私问题和基准数据集泄露所导致的数据污染问题。因此，在预训练阶段检测污染是否有 LLM 在目标文本上进行了预训练变得至关重要。最近的研究关注生成的文本并计算困惑度，但这些都是表面特征而不可靠。本研究提出利用探测技术来检测预训练数据，通过检查模型的内部激活状态。我们的方法简单且有效，并实现了更可靠的预训练数据检测。此外，我们还提出了 ArxivMIA 基准，它包括来自计算机科学和数学类别的 arxiv 摘要。我们的实验证明我们的方法胜过所有基准，实现了 WikiMIA 和 ArxivMIA 的最新性能，并通过额外的实验验证了其有效性。

Jun, 2024

提升 LLMs 的信任度：比较和解释 LLMs 的算法

评估技术在提高大规模语言模型（LLM）的可信度和理解性方面起到了至关重要的作用，通过算法方法和评估指标来评估 LLM 的性能，发现其弱点，并引导其发展以实现更可信赖的应用。

Jun, 2024

关于自我纠正和语言模型信任的交叉问题

通过探索大型语言模型的自我纠正能力，研究发现自我纠正能够提升大型语言模型的可信度和真实性，但这种改进程度会根据可信度的具体方面和任务的性质而有所不同，并发现大型语言模型在自我纠正过程中存在自我怀疑的实例，带来了一系列需要解决的新挑战。

Nov, 2023

走向可信的语言模型：大型语言模型信息质量的研究

大型语言模型产生信息速度快，但信息质量不可信，由于预训练中的不可靠和有偏见的标记化导致信息质量下降，进而导致虚构和伪造信息。本文引入了一种新的数学信息质量评估方法，并分析了信息质量挑战和语言模型的可伸缩性规律。

Jan, 2024

多模态大型语言模型可信度评估：一项全面研究

通过建立 MultiTrust 综合基准，本研究通过对 21 种现代多模态大型语言模型的广泛实验，揭示了一些之前未开发的可信度问题与风险，强调了多模态性引入的复杂性，并强调提升其可靠性的先进方法的必要性。

Jun, 2024

利用局部内在维度表征大型语言模型生成的真实性

我们研究了如何表征和预测由大型语言模型生成的文本的真实性，这在人类与语言模型之间建立信任的过程中起着关键作用。通过对四个问答数据集进行实验，我们提出的方法通过研究内部激活和量化语言模型激活的本地内在维度（LID）来证明其有效性。此外，我们还研究了语言模型中的内在维度及其与模型层、自回归语言建模和语言模型训练的关系，揭示了内在维度在理解语言模型中的潜力。

Feb, 2024

使用类人开发数据文集预训练 LLMs

利用与儿童所见的单词数量大致相同的单词数量，我们对大型语言模型进行预训练和评估，以学习上下文词表示，其中比较了不同架构、不同训练轮次的性能变化以及与任务组织者给出的 RoBERTa 基准的训练稳定性和可复现性。

Nov, 2023

基于验证和验证的视角对大型语言模型的安全性和可信度进行调查

本文介绍了大语言模型（LLMs）在人工智能领域的应用。主要探讨了 LLMs 的安全性和可靠性问题，并对经典软件和深度学习模型如卷积神经网络的验证和验证技术进行了综述和扩展，以提供对 LLMs 及其应用程序的安全性和可靠性的严格分析。

May, 2023