ChatGPT 对输入扰动下信息提取的可靠性有多高?
本文评估了 ChatGPT 模型在性能、评估标准、稳健性和错误类型四个方面的能力,并提出了一种用于更准确反映 ChatGPT 性能的软匹配策略,同时发现了 ChatGPT 的最主要的错误类型是 “未注释的跨度”,从而引发了对标注数据质量的关注,并提示可以使用 ChatGPT 进行数据标注。
May, 2023
本研究旨在探究以零注释方式进行临床命名实体识别任务中,OpenAI 开发的大型语言模型 ChatGPT 以两种不同提示策略的潜力。我们将其与 GPT-3 在类似的零注释情况下进行比较,以及使用来自 MTSamples 的一组合成临床笔记的精调 BioClinicalBERT 模型。研究发现,与 GPT-3 相比,ChatGPT 在零注释情况下表现优异,并且使用不同的提示策略可以过提高其性能。虽然 ChatGPT 的表现仍低于 BioClinicalBERT 模型,但本研究证明了 ChatGPT 在不需要注释的情况下进行临床 NER 任务的巨大潜力。
Mar, 2023
该研究调查了 ChatGPT 在零 - shot 文本标注和分类任务中一致性的表现,包括模型参数、提示变化和相同输入的重复。结果显示 ChatGPT 的分类输出的一致性可能低于可靠性的科学阈值,并警告使用 ChatGPT 的谨慎性。建议进行彻底的验证,例如与人类注释数据的比较,并不推荐使用 ChatGPT 进行无监督文本标注和分类。
Apr, 2023
本研究使用 7 个信息提取任务评估了 ChatGPT 在理解用户意图和提供合理回答方面的总体能力,发现其在标准信息提取设置中的表现差,但在 OpenIE 设置中表现出色,并提供高质量和可信任的解释,但存在预测自信度过高导致校准性低的问题。
Apr, 2023
本文探讨了零样本信息提取(Zero-shot information extraction)的挑战,通过大型语言模型和基于提示的方法构建具有强大信息提取能力的 ChatIE 框架,成功地实现了多轮问答式的信息提取任务,这为使用有限资源构建信息提取模型提供了研究思路和方法。
Feb, 2023
本文探讨使用 ChatGPT 作为传统 Transformer 模型的更健壮、训练数据更有效的替代方法,对实体匹配任务进行实验,证明 ChatGPT 表现竞争力与经过 fine-tuned 的 RoBERTa 模型相当,达到 83%的 F1 零次训练,同时使用很少一部分的在上下文中的示例以及提供高级匹配规则可在零次训练下获得类似的增益。
May, 2023
本篇论文对 ChatGPT 进行了可靠性的大规模实验,在 8 个领域的 5,695 个问题数据集中发现 ChatGPT 的性能变化较大,尤其在法律和科学方面表现不佳,还指出了 ChatGPT 的系统角色和对抗性样例都会影响它的可靠性,这是加强大型语言模型可靠性和安全性的必要性。
Apr, 2023
本文探讨了 ChatGPT 在不同任务中的表现评估问题,特别是针对数据污染问题,以 stance detection 为例,同时讨论了如何在当前大型、连续训练语言模型的时代保证公平的模型评估。
Mar, 2023
本文通过对 ChatGPT 的对抗性和分布外鲁棒性测试,发现 ChatGPT 在大多数分类和翻译任务中有着较好的表现。但是相对地,绝对表现仍然有很大的改进空间,表明对抗性和分布外鲁棒性仍然是模型面临的一项重大挑战。此外,ChatGPT 在理解与对话相关的文本方面表现出色。最后,我们提出了可能的研究方向。
Feb, 2023
该论文主要研究大型语言模型在零 - shot 信息提取方面的性能,并提出针对命名实体识别的推理策略,包括分解式问答范式、句法增强和自一致性等方法,并在七个基准测试中取得了显著的改进,对错误类型进行了全面分析,并验证了这些方法在少样本情况和其他大型语言模型中的有效性。
Oct, 2023