探索 ChatGPT 在事件提取中的可行性

Mar, 2023

探索 ChatGPT 在事件提取中的可行性

Exploring the Feasibility of ChatGPT for Event Extraction

Jun Gao, Huan Zhao, Changlong Yu, Ruifeng Xu

TL;DR本文研究了用 ChatGPT 进行事件抽取的可行性并探究了遇到的挑战，结果表明 ChatGPT 在长尾和复杂情况下只有任务特定模型 EEQA 的 51.04％的性能，ChatGPT 不够稳定，继续改进提示不会导致稳定的性能提高，而且 ChatGPT 对不同的提示风格非常敏感。

Abstract

event extraction is a fundamental task in natural language processing that involves identifying and extracting information about events mentioned in text. However, it is a challenging task due to the lack of anno

event extraction natural language processing large language models chatgpt usability testing

发现论文，激发创造

在药物监测事件提取中利用 ChatGPT 的实证研究

探索大型语言模型 (LLMs) 在医学应用方面的潜力，特别是在药物监测事件提取方面的 ChatGPT 的能力。我们进行了广泛的实验，评估了 ChatGPT 在药物监测事件提取任务中的性能，并采用了各种提示和演示选择策略。研究结果表明，虽然 ChatGPT 在适当的演示选择策略下表现出了合理的性能，但与完全微调的小型模型相比仍然有所不足。此外，我们探索了利用 ChatGPT 进行数据增强的潜力。然而，我们的研究发现将合成数据引入微调可能会导致性能下降，可能是由于 ChatGPT 生成的标签中存在噪声。为了减轻这个问题，我们探索了不同的过滤策略，并发现在适当的方法下可以实现更稳定的性能，尽管不断改进仍然具有挑战性。

Feb, 2024

GPT 模型对叙事实体提取的探究

在这项研究中，我们评估了两个最先进的语言模型 ——GPT-3 和 GPT-3.5（通常被称为 ChatGPT）在提取叙述实体（事件、参与者和时间表达）方面的能力，并发现它们与开箱即用的基准系统相媲美，为资源有限的从业者提供了一种全能的替代方案。通过研究这些模型在信息提取领域的优势和局限性，我们提供了可以指导未来改进和探索的见解。

Nov, 2023

使用 ChatGPT 进行零 - shot 时序关系抽取

本文探讨了 ChatGPT 在零 - shot 时序关系抽取中的应用能力，并且设计了三种不同的提示技术来解决该任务。实验表明 ChatGPT 的性能与监督方法有较大差距，并且在时间推理过程中可能存在不一致性和长依赖时序推理失败的问题。

Apr, 2023

ChatGPT 是否解决了信息提取？绩效、评估标准、鲁棒性和错误分析

本文评估了 ChatGPT 模型在性能、评估标准、稳健性和错误类型四个方面的能力，并提出了一种用于更准确反映 ChatGPT 性能的软匹配策略，同时发现了 ChatGPT 的最主要的错误类型是 “未注释的跨度”，从而引发了对标注数据质量的关注，并提示可以使用 ChatGPT 进行数据标注。

May, 2023

探索基于 ChatGPT 的查询或基于方面的文本摘要的极限

本文介绍了关于文本摘要的各种方法，包括提取式和抽象式，并探讨了大型语言模型在此方面的应用潜力。作者以四个数据集为例，展示了 ChatGPT 生成的摘要与人类参考的差异，并发现 ChatGPT 在摘要性能上可以与传统的微调方法媲美。该研究为各种文本摘要任务开辟了新方向，提供了有价值的见解。

Feb, 2023

发挥 ChatGPT 在翻译中的威力：一项实证研究

本文探究了如何用 ChatGPT 辅助机器翻译，提出了多种翻译提示。实验结果表明，ChatGPT 在高资源语言翻译方面的表现与专业翻译系统相当或更好，在低资源翻译方面略逊于专业翻译系统，并在多参考文献翻译和特定领域翻译方面表现出优异的性能。此外，我们进行了几个快速提示，表现出不同基础提示的一致改进。这项工作提供了 ChatGPT 在翻译方面仍然具有巨大潜力的实证证据。

Apr, 2023

ChatGPT，还是不 ChatGPT：这是一个问题！

本研究的主要目的是提供 ChatGPT 检测的最新技术的全面评估，同时我们评估了其他 AI 生成的文本检测工具，以检测 ChatGPT 生成的内容。此外，我们还创建了一个基准数据集用于评估各种技术在检测 ChatGPT 生成内容方面的性能。研究结果表明，现有方法都不能有效地检测 ChatGPT 生成的内容。

Apr, 2023

评估 ChatGPT 的信息提取能力：性能、可解释性、校准度和忠实度评估

本研究使用 7 个信息提取任务评估了 ChatGPT 在理解用户意图和提供合理回答方面的总体能力，发现其在标准信息提取设置中的表现差，但在 OpenIE 设置中表现出色，并提供高质量和可信任的解释，但存在预测自信度过高导致校准性低的问题。

Apr, 2023

评估 ChatGPT 作为一个问答系统：全面分析与现有模型的比较

ChatGPT 作为一个问答系统，通过对其在提供的段落中提取回答的能力进行评估，发现它在生成模型方面表现出了实力，但在问题回答方面相对于特定任务模型表现较差，而提供上下文可以提高其性能，提问方式对其准确性有所影响，并且在提供的上下文中提供了无法从中获取答案的问题的回答，还存在答案幻觉的现象。

Dec, 2023

HCI 挑战的映射：ChatGPT 和 GPT-4 的应用和评估用于成本效益问答

本文通过对 CHI 会议记录进行提取，评估了 ChatGPT 和 GPT-4 对成本低廉的抽取式问题回答的实际任务的表现，发现 ChatGPT 和 GPT-4 的组合是分析文本语料库的有效低成本手段，对于 HCI 领域的研究人员，我们提供了 90 多个研究主题中 4392 个研究挑战的交互式可视化。

Jun, 2023