GPT 也能理解
本研究评估了 ChatGPT 对最流行的 GLUE 基准的理解能力,并与 4 个代表性的 fine-tuned 的 BERT 模型进行比较。我们发现,ChatGPT 在处理释义和相似性任务方面存在不足,但在推理任务方面优于所有 BERT 模型,并在情感分析和问答任务上表现与 BERT 相当。此外,通过组合一些高级提示策略,我们展示了 ChatGPT 的理解能力可以进一步提高。
Feb, 2023
本文研究了参数高效微调方法和少样本自然语言生成,提出了一个超越传统方法且在训练成本上没有明显增加的方法,同时通过中间实验证明了该方法在少样本场景中的卓越可迁移性,为数据不充足和计算有限的情况提供了解决方案。此外,综合比较了多种参数高效微调方法,揭示了在少样本自然语言生成任务中某些方法在挑战性数据集上可能存在困难。
Sep, 2023
该研究对多个 Transformer 模型进行基准测试,展示了这些模型如何从新闻事件中判断情感。这个信号随后可用于下游建模和商品交易的信号识别。我们发现,在这一任务中,微调的 BERT 模型优于微调或原版的 GPT 模型。研究还提出了 CopBERT 模型,它在域特定的 BERT 训练模型(如 FinBERT)的性能上表现更好。综上所述,BERT 模型可能不会成为下一个 XGboost,但对于需要融合可解释性和准确性的金融工程任务来说,它代表了一个有趣的选择。
Apr, 2024
提出使用 SGPT 进行句子嵌入和语义搜索的方法,通过提示或微调,SGPT 在 BEIR 搜索基准上的表现优于先前最佳的句子嵌入方法,并且在 1750 亿个参数的并发方法上也取得了更好的效果。
Feb, 2022
本研究通过在科学教育中使用示例评估任务,突显了精调 ChatGPT(GPT-3.5)自动评分学生书面构建性答案的潜力。与经过领域特定训练数据细调的 Google 生成语言模型 BERT 相比,GPT-3.5 在自动评分准确性上表现出显著提高,并发布了细调模型以供公众使用和社区参与。
Oct, 2023
本文评估了 GPT-neo 1.3 亿模型在常识推理任务上的表现,发现模型在某些任务上具有竞争力,但当数据集大小显著较小时表现会很差。研究者还使用可视化和推理测试来证实结果,并通过多种方法进行彻底的健壮性测试。
Nov, 2022
在大规模预训练语言模型上进行 fine-tuning 可以显著提高模型在 NLP 任务中的任务值线表现,同时还证明了 scaling up 语言模型可以大大改善任务独立的 few-shot learning 表现,并探讨了 GPT-3 模型优势和局限性。
May, 2020
语言模型(如 GPT-3.5 和 ChatGPT)在执行各种任务和遵循多样化人类指令方面表现出卓越能力;然而,通过使用一系列基础的表格理解任务进行分析,我们发现当今的语言模型在许多与表格相关的任务上仍不完善,这可能是因为它们主要是在 “一维” 的自然语言文本上预训练的,而监管表格是 “二维” 的对象。因此,我们提出了一种新的 “表格调优” 范式,在这个范式中,我们通过使用合成自真实表格的多样化表格任务作为训练数据,继续训练 / 微调 GPT-3.5 和 ChatGPT 这类语言模型,以增强其理解表格和执行表格任务的能力。我们的实验结果表明,我们的 Table-GPT 模型在广泛的表格任务上始终优于普通 GPT-3.5 和 ChatGPT,并且在包括未见过的任务在内的情况下,它具有强大的泛化能力,可以以与 GPT-3.5 和 ChatGPT 类似的方式响应各种人类指令执行新的表格任务。
Oct, 2023
SPT 是一种半参数化的提示微调方法,其包含一个内存库,可以根据离散提示检索记忆提示,并通过 Fine-Tuning GLUE 数据集以及在五个自然语言处理任务类别下评估零 - shot 泛化以及在 SuperGLUE 数据集上预训练,众多实验证明了其有效性。
Dec, 2022
提出了 HetGPT,一种通用的后训练提示框架,用于改善预训练的异构图神经网络(HGNNs)的预测性能,并通过多视图邻域聚合机制捕捉异构图中的复杂邻域结构。在三个基准数据集上进行的大量实验证明了 HetGPT 在半监督节点分类方面改进了最先进的 HGNNs 的性能。
Oct, 2023