使用 ChatGPT 进行实体匹配
本研究旨在探究以零注释方式进行临床命名实体识别任务中,OpenAI 开发的大型语言模型 ChatGPT 以两种不同提示策略的潜力。我们将其与 GPT-3 在类似的零注释情况下进行比较,以及使用来自 MTSamples 的一组合成临床笔记的精调 BioClinicalBERT 模型。研究发现,与 GPT-3 相比,ChatGPT 在零注释情况下表现优异,并且使用不同的提示策略可以过提高其性能。虽然 ChatGPT 的表现仍低于 BioClinicalBERT 模型,但本研究证明了 ChatGPT 在不需要注释的情况下进行临床 NER 任务的巨大潜力。
Mar, 2023
通过使用大型语言模型 (LLMs) 进行实体匹配,我们对可托管的 LLMs (如 GPT3.5 和 GPT4) 以及基于 Llama2 的开源 LLMs 进行了评估,在零 - shot 场景和有任务特定训练数据的场景中比较了不同的提示设计以及模型在零 - shot 场景中的提示敏感度。根据实验结果,我们发现 GPT4 在没有任务特定训练数据的情况下在三个基准数据集上优于精调的 PLMs (RoBERTa 和 Ditto),达到约 90% 的 F1 分数,而在上下文学习和规则生成方面,除了 GPT4 之外,所有模型都从这些技术中受益(平均 F1 分数提高了 5.9% 和 2.2%),大多数情况下 GPT4 无需额外的指导。
Oct, 2023
本研究评估了 ChatGPT 对最流行的 GLUE 基准的理解能力,并与 4 个代表性的 fine-tuned 的 BERT 模型进行比较。我们发现,ChatGPT 在处理释义和相似性任务方面存在不足,但在推理任务方面优于所有 BERT 模型,并在情感分析和问答任务上表现与 BERT 相当。此外,通过组合一些高级提示策略,我们展示了 ChatGPT 的理解能力可以进一步提高。
Feb, 2023
本文旨在评估 ChatGPT 在生物医学领域中各种基准任务(如关系提取、文档分类、问答和摘要)的性能,在拥有较小训练集的生物医学数据集中,zero-shot ChatGPT 甚至优于最先进的经调优生成变换器模型(如 BioGPT 和 BioBART),这表明 ChatGPT 在生物医学领域也非常专业,具备成为缺乏大型注释数据的各种生物医学任务的有价值工具的潜力。
Jun, 2023
本文探讨大型语言模型在历史文本中的命名实体识别和分类任务中的应用,通过比较其与基于最先进的语言模型的系统的表现找出其存在的问题。研究结果表明,历史文本中的命名实体识别存在多个问题,包括实体注释规范的一致性、实体复杂性和代码切换等,这些问题导致大型语言模型与其他系统相比存在着一些缺点。
Mar, 2023
本文通过对 20 个流行的任务数据集进行评估,就 ChatGPT 的零 - shot 学习能力进行了实证分析,并发现它在推理能力较强的任务上表现良好,如算术推理,但在特定任务(如序列标记)的解决方面仍面临挑战。
Feb, 2023
本文研究了 ChatGPT 在 25 个多样化的自然语言处理任务(如情感分析、情感识别、态度检测、自然语言推断、词义消歧、语言可接受性和问答)中的表现及其个性化响应能力,并与现有的国际先进水平(SOTA)解决方案进行了比较。结果表明,任务难度越高(低 SOTA 表现),ChatGPT 的损失越大。同时也揭示了 ChatGPT 偏见,在一定程度上限制了 ChatGPT 的有效性。
Feb, 2023
我们使用 ChatGPT ,一个通用语言模型,展示了它在零 - shot DST 上达到的最先进的表现,并证明了通用模型在专业系统替代方面的能力受到其属性的限制,但我们认为通用模型的语境学习能力很可能成为支持专门的动态对话状态跟踪器开发的有力工具。
Jun, 2023
通过添加模块的方式提高 ChatGPT 在各种自然语言处理任务中的表现,解决了 token,生成能力以及 LLMs 模型特有问题等方面的挑战并在 21 个数据集的 10 个代表性任务中获得了与监督学习基线相当甚至更好的表现.
Jun, 2023
本文评估了 ChatGPT 模型在性能、评估标准、稳健性和错误类型四个方面的能力,并提出了一种用于更准确反映 ChatGPT 性能的软匹配策略,同时发现了 ChatGPT 的最主要的错误类型是 “未注释的跨度”,从而引发了对标注数据质量的关注,并提示可以使用 ChatGPT 进行数据标注。
May, 2023