ChatGPT 能否识别历史文档中的实体?
该论文主要研究大型语言模型在零 - shot 信息提取方面的性能,并提出针对命名实体识别的推理策略,包括分解式问答范式、句法增强和自一致性等方法,并在七个基准测试中取得了显著的改进,对错误类型进行了全面分析,并验证了这些方法在少样本情况和其他大型语言模型中的有效性。
Oct, 2023
在这项研究中,我们评估了两个最先进的语言模型 ——GPT-3 和 GPT-3.5(通常被称为 ChatGPT)在提取叙述实体(事件、参与者和时间表达)方面的能力,并发现它们与开箱即用的基准系统相媲美,为资源有限的从业者提供了一种全能的替代方案。通过研究这些模型在信息提取领域的优势和局限性,我们提供了可以指导未来改进和探索的见解。
Nov, 2023
本研究旨在探究以零注释方式进行临床命名实体识别任务中,OpenAI 开发的大型语言模型 ChatGPT 以两种不同提示策略的潜力。我们将其与 GPT-3 在类似的零注释情况下进行比较,以及使用来自 MTSamples 的一组合成临床笔记的精调 BioClinicalBERT 模型。研究发现,与 GPT-3 相比,ChatGPT 在零注释情况下表现优异,并且使用不同的提示策略可以过提高其性能。虽然 ChatGPT 的表现仍低于 BioClinicalBERT 模型,但本研究证明了 ChatGPT 在不需要注释的情况下进行临床 NER 任务的巨大潜力。
Mar, 2023
本文介绍了一种基于 GPT 模型的 NER 算法 ——GPT-NER,它通过将序列标注任务转化为生成任务来弥补 LLMs 在 NER 任务上的缺陷,并提出自我验证策略以解决 LLMs 易出现的幻觉问题。实验结果表明,该算法表现与有监督算法相当,在低资源学习中表现显着优于有监督模型,具有实现限制样本 NER 应用的能力。
Apr, 2023
本文探讨使用 ChatGPT 作为传统 Transformer 模型的更健壮、训练数据更有效的替代方法,对实体匹配任务进行实验,证明 ChatGPT 表现竞争力与经过 fine-tuned 的 RoBERTa 模型相当,达到 83%的 F1 零次训练,同时使用很少一部分的在上下文中的示例以及提供高级匹配规则可在零次训练下获得类似的增益。
May, 2023
本研究分析了 ChatGPT 在不同对话问答语料库中生成的回答,并使用 BERT 相似度得分进行比较,以获取自然语言推理(NLI)标签。该研究还确定了 ChatGPT 提供错误答案的情况,提供了有关该模型可能存在错误的领域的见解。通过评估分数,比较 GPT-3 和 GPT-4 的整体性能。
Apr, 2023
本研究提出了 ChatExtract 方法,该方法利用先进的会话型 LLM(或 AI)自动提取数据,并通过一系列后续问题确保其正确性。 ChatExtract 可用于任何会话型 LLMs,结果表明,由于其简单性,可转移性和准确性,类似 ChatExtract 的方法有望在不久的将来取代其他数据提取方法。
Mar, 2023
本文通过对 20 个流行的任务数据集进行评估,就 ChatGPT 的零 - shot 学习能力进行了实证分析,并发现它在推理能力较强的任务上表现良好,如算术推理,但在特定任务(如序列标记)的解决方面仍面临挑战。
Feb, 2023
本研究的主要目的是提供 ChatGPT 检测的最新技术的全面评估,同时我们评估了其他 AI 生成的文本检测工具,以检测 ChatGPT 生成的内容。此外,我们还创建了一个基准数据集用于评估各种技术在检测 ChatGPT 生成内容方面的性能。研究结果表明,现有方法都不能有效地检测 ChatGPT 生成的内容。
Apr, 2023
通过添加模块的方式提高 ChatGPT 在各种自然语言处理任务中的表现,解决了 token,生成能力以及 LLMs 模型特有问题等方面的挑战并在 21 个数据集的 10 个代表性任务中获得了与监督学习基线相当甚至更好的表现.
Jun, 2023