CSS: LLM 的不确定性量化的对比语义相似性

Jun, 2024

CSS: LLM 的不确定性量化的对比语义相似性

CSS: Contrastive Semantic Similarity for Uncertainty Quantification of LLMs

Shuang Ao, Stefan Rueger, Advaith Siddharthan

TL;DR利用基于 CLIP 的对比语义相似度方法，通过提取相似性特征来度量文本对的不确定性，以提高大型语言模型的可靠性。

Abstract

Despite the impressive capability of large language models (LLMs), knowing when to trust their generations remains an open challenge. The recent literature on uncertainty quantification of →

large language models uncertainty quantification natural language generation clip trustworthiness

发现论文，激发创造

生成有信心：针对黑盒大型语言模型的不确定性量化

该研究探讨了基于黑盒 LLMs 的自然语言生成的不确定性计量，提出几个置信度 / 不确定度统计度量标准，并发现语义分散的平均值可以作为评估 LLMs 响应质量的可靠指标。

May, 2023

CLAMP：对比式语言模型启发调节

研究论文简介：本文研究了大型语言模型在图像分类方面的应用，通过对多模态语言模型进行轻微微调，使用对比式图像 - 标题匹配目标，取得了比目前最先进的 MLLMs 提高了 13% 的图像分类性能，同时保留了语言模型的生成能力。

Dec, 2023

基于大型语言模型的语义感知对照句子表示学习

通过利用大型语言模型的生成和评估能力，我们提出了 SemCSR，一种语义感知的对比句子表示框架，可以自动构建高质量的 NLI 风格语料库，并将生成的句子对纳入对比句子表示模型的学习，实验证明了我们提出的框架在使用大型语言模型学习更好的句子表示方面的有效性。

Oct, 2023

上下文序列似然性：增强自然语言生成的置信分数

通过为各种标记分配不同的权重，使用从基础语言模型中产生的注意力值来增强预测的序列概率，我们提出了上下文化的序列可能性（CSL）这一新的评分方法。在几个问答数据集和各种语言模型中，CSL 在预测生成质量方面显示出明显更高的可靠性。

Jun, 2024

语义密度：大型语言模型中语义空间的不确定性量化

通过语义密度方法，解决大型语言模型在安全关键场景中的不确定性问题，提高可信度和性能表现。

May, 2024

比较之前的推理：领域专业文本分析的 LLM 增强语义相似性度量

利用 LLM 增强语义分析以及为文本开发相似度度量标准，解决了传统无监督 NLP 度量标准如 ROUGE 和 BLEU 的局限性。我们开发了一个框架，利用类似 GPT-4 的 LLMs 进行零样本文本识别和标签生成并为放射学报告进行度量，然后将这些标签作为文本相似度的测量标准。通过在 MIMIC 数据上测试提出的框架，我们发现 GPT-4 生成的标签能够显著改善语义相似度评估，其得分与临床实际情况更为一致，而不同于传统的 NLP 度量标准。我们的工作证明了利用 LLMs 对高度专业化领域的文本数据进行半定量推理结果进行语义分析的可能性。虽然该框架是针对放射学报告相似性分析而实现的，但其概念也可扩展到其他专业化领域。

Feb, 2024

语义不确定性：自然语言生成中不确定性估计的语言不变性

本文提出了一种测量大型语言模型中不确定性的方法，介绍了语义熵的概念，并且证明该方法在问答任务上的准确性优于基线模型。

Feb, 2023

使用协作样本选择和对比半监督学习来学习带噪标签的内容

利用 CLIP 模型的协作样本选择及预训练，并通过对 prompt 的微调以及协同训练 DNN 分类器，解决在学习有噪声标签的过程中由于样本选择错误累积导致的 DNN 训练偏见和泛化性能问题。

Oct, 2023

大型语言模型的语义一致性保障

通过引入语义一致性的综合度量和提出的问询策略来提高大型语言模型在开放式文本生成和闭卷问题回答方面的性能。

Aug, 2023

评价信息抽取中的生成式语言模型作为主观问题纠正

利用主观问句纠错法评估了现代大型语言模型在信息提取任务中的性能，提出了 SQS-Score 评价方法，衡量输出结果与真实标签之间的语义一致性，并通过结合自然语言推理模型，丰富了评价标签，解决了评价标准中的缺陷，发现 SQS-Score 相较于基准度量更受人类标注者的偏好，并利用 SQS-Score 对最先进的大型语言模型进行了全面评估，为未来的信息提取研究提供了洞见。

Apr, 2024