语言模型是弱学习器
使用弱监督和微调大型语言模型(LLM)的方法,在几乎没有领域知识的情况下,能够在性能上显著优于传统的有限的标准数据的监督方法,利用基于提示的方法,LLM 生成弱标记数据来训练下游的 BERT 模型,然后将弱监督模型进一步在少量的标准数据上进行微调,通过评估发现该方法优于 out-of-the-box PubMedBERT 4.7% 至 47.9% 的 F1 得分。
Jun, 2024
通过整合大型语言模型(LLMs)提升预训练视觉 - 语言模型(VL)在低样本图像分类中的能力,提出了大型语言模型作为提示学习者(LLaMP)的方法,并在 11 个数据集上的零样本和小样本图像分类任务中取得了更好的性能。
Dec, 2023
利用预训练的大型语言模型 (LLM) 对经典的监督机器学习方法进行增强,以应对分类问题,并提出了几种将 LLM 集成到经典机器学习估计器中的方法,从而进一步提高预测性能。通过标准的有监督学习二分类任务和数据分布发生变化的迁移学习任务,对所提出的方法进行了性能评估。通过对四个公开的数据集进行数值实验,结果表明利用 LLM 增强经典机器学习估计器可以显著提升预测性能。
May, 2024
提出了一种新颖的上下文学习框架 FealtLLM,利用大型语言模型作为特征工程师,生成适合表格预测的优化输入数据集,在推断阶段使用生成的特征和简单的下游机器学习模型 (如线性回归) 来推断分类的可能性,从而实现高性能的小样本学习。FeatLLM 框架只使用简单的预测模型和推断时发现的特征,相较于现有的基于大型语言模型的方法,FeatLLM 可以消除每个样本都需要查询大型语言模型的需求和克服提示大小的限制,并且仅需要对大型语言模型的 API 进行访问。在多个来自不同领域的表格数据集上的实验证明,FeatLLM 生成高质量的规则,明显 (平均达到 10%) 优于 TabLLM 和 STUNT 等替代方法。
Apr, 2024
本文研究了是否通过显式添加语义信息来改善大型语言模型在代码汇总任务中的性能,发现通过添加语义信息可以显著提高模型性能,特别是在 PHP 语言的 CodeSearchNet 数据集上。
Apr, 2023
研究使用大型语言模型对输入进行注释以提高自然语言处理模型的泛化性,并提出一种基于模型预测得分差异的采样策略来重新训练模型,证明在分类和排名任务中取得了显著的精度提高。
Jun, 2023
本研究提出使用大型预训练语言模型进行弱监督学习的策略,并使用 Snorkel 系统去噪声标签,得到的训练数据可提高分类器的准确性,相比于零样本方法,错误率平均降低 19.5%。此外,该方法所得分类器的准确度相当或高于手动设置的规则。
May, 2022
利用大型语言模型(LLMs)处理明确反馈可以提高推荐系统在少样本场景中的性能。LLMs 具备生成和逻辑推理能力,能够有效处理明确反馈,成为增强推荐系统性能的组成部分。
Dec, 2023
利用零样本学习采用递进性思维提示,与传统的问答格式相比,GPT 模型在文本分类问题上具备零样本分类器的能力,有效地利用提示策略在各种文本分类场景中展现出较好的性能。
Dec, 2023