CSS: LLM 的不确定性量化的对比语义相似性
该研究探讨了基于黑盒 LLMs 的自然语言生成的不确定性计量,提出几个置信度 / 不确定度统计度量标准,并发现语义分散的平均值可以作为评估 LLMs 响应质量的可靠指标。
May, 2023
研究论文简介:本文研究了大型语言模型在图像分类方面的应用,通过对多模态语言模型进行轻微微调,使用对比式图像 - 标题匹配目标,取得了比目前最先进的 MLLMs 提高了 13% 的图像分类性能,同时保留了语言模型的生成能力。
Dec, 2023
通过利用大型语言模型的生成和评估能力,我们提出了 SemCSR,一种语义感知的对比句子表示框架,可以自动构建高质量的 NLI 风格语料库,并将生成的句子对纳入对比句子表示模型的学习,实验证明了我们提出的框架在使用大型语言模型学习更好的句子表示方面的有效性。
Oct, 2023
通过为各种标记分配不同的权重,使用从基础语言模型中产生的注意力值来增强预测的序列概率,我们提出了上下文化的序列可能性(CSL)这一新的评分方法。在几个问答数据集和各种语言模型中,CSL 在预测生成质量方面显示出明显更高的可靠性。
Jun, 2024
利用 LLM 增强语义分析以及为文本开发相似度度量标准,解决了传统无监督 NLP 度量标准如 ROUGE 和 BLEU 的局限性。我们开发了一个框架,利用类似 GPT-4 的 LLMs 进行零样本文本识别和标签生成并为放射学报告进行度量,然后将这些标签作为文本相似度的测量标准。通过在 MIMIC 数据上测试提出的框架,我们发现 GPT-4 生成的标签能够显著改善语义相似度评估,其得分与临床实际情况更为一致,而不同于传统的 NLP 度量标准。我们的工作证明了利用 LLMs 对高度专业化领域的文本数据进行半定量推理结果进行语义分析的可能性。虽然该框架是针对放射学报告相似性分析而实现的,但其概念也可扩展到其他专业化领域。
Feb, 2024
利用 CLIP 模型的协作样本选择及预训练,并通过对 prompt 的微调以及协同训练 DNN 分类器,解决在学习有噪声标签的过程中由于样本选择错误累积导致的 DNN 训练偏见和泛化性能问题。
Oct, 2023
利用主观问句纠错法评估了现代大型语言模型在信息提取任务中的性能,提出了 SQS-Score 评价方法,衡量输出结果与真实标签之间的语义一致性,并通过结合自然语言推理模型,丰富了评价标签,解决了评价标准中的缺陷,发现 SQS-Score 相较于基准度量更受人类标注者的偏好,并利用 SQS-Score 对最先进的大型语言模型进行了全面评估,为未来的信息提取研究提供了洞见。
Apr, 2024