ChatGPT 模型在生物医学任务中的零样本性能探究
本文旨在评估 ChatGPT 在生物医学领域中各种基准任务(如关系提取、文档分类、问答和摘要)的性能,在拥有较小训练集的生物医学数据集中,zero-shot ChatGPT 甚至优于最先进的经调优生成变换器模型(如 BioGPT 和 BioBART),这表明 ChatGPT 在生物医学领域也非常专业,具备成为缺乏大型注释数据的各种生物医学任务的有价值工具的潜力。
Jun, 2023
研究了大型语言模型在生物医学任务中的性能,并与更简单的模型进行了比较,特别地,探讨了分类和因果关系检测任务。发现精细调整后的模型依然是最佳策略,而简单的词袋模型的表现与最复杂的大型语言模型的表现相当。
Apr, 2023
本文对 GPT-3.5 和 GPT-4 进行全面技术评估,发现 GPT-4 在几乎所有测试任务中优于 GPT-3.5,并提出一组改良数据来提高两种模型的零样本学习能力。
May, 2023
本研究旨在探究以零注释方式进行临床命名实体识别任务中,OpenAI 开发的大型语言模型 ChatGPT 以两种不同提示策略的潜力。我们将其与 GPT-3 在类似的零注释情况下进行比较,以及使用来自 MTSamples 的一组合成临床笔记的精调 BioClinicalBERT 模型。研究发现,与 GPT-3 相比,ChatGPT 在零注释情况下表现优异,并且使用不同的提示策略可以过提高其性能。虽然 ChatGPT 的表现仍低于 BioClinicalBERT 模型,但本研究证明了 ChatGPT 在不需要注释的情况下进行临床 NER 任务的巨大潜力。
Mar, 2023
研究 OpenAI 的 ChatGPT 对多种语言任务具有零 - shot 性能优势的结果表明,在 LexGLUE 基准测试中,该模型表现良好,平均 micro-F1 得分为 47.6%,特别是在某些数据集中,模型表现非常优秀,如 ECtHR B 和 LEDGAR 数据集中的得分分别达到 62.8%和 70.2%。
Mar, 2023
本文通过对 20 个流行的任务数据集进行评估,就 ChatGPT 的零 - shot 学习能力进行了实证分析,并发现它在推理能力较强的任务上表现良好,如算术推理,但在特定任务(如序列标记)的解决方面仍面临挑战。
Feb, 2023
通过对 USMLE 和 MultiMedQA 基准数据集的全面评估,我们发现不需要专门的提示造型来激发 GPT-4,它的表现超过了 USMLE 的合格分数约 20 分,并表现优于早期的通用模型(GPT-3.5)以及专门针对医学知识进行细化调整的模型(Med-PaLM,Flan-PaLM540B 的提示调整版本)。
Mar, 2023
ChatGPT 作为一个问答系统,通过对其在提供的段落中提取回答的能力进行评估,发现它在生成模型方面表现出了实力,但在问题回答方面相对于特定任务模型表现较差,而提供上下文可以提高其性能,提问方式对其准确性有所影响,并且在提供的上下文中提供了无法从中获取答案的问题的回答,还存在答案幻觉的现象。
Dec, 2023
本研究探究零样本学习在金融领域中的应用,使用 ChatGPT 等大型语言模型与 RoBERTa 在有标签数据和无标签数据的情况下进行比较,并针对数据标注、模型表现差距和生成模型在金融领域中的使用可行性等三个问题进行了研究。结果表明,即使在没有标签数据的情况下,ChatGPT 的表现仍然很好,但是精细调参的模型通常表现更佳。同时,我们的研究还强调了用生成模型进行注释可能需要大量时间。
May, 2023
本研究通过实验验证了 GPT-3 和 GPT-4 在 8 个 BioNLP 应用中的性能表现,并对其识别错误进行了分析,提出了在 BioNLP 应用中使用 LLMs 的建议。
May, 2023