ChatGPT 句子级关系评估：重点关注时间、因果和语篇关系

Apr, 2023

ChatGPT 句子级关系评估：重点关注时间、因果和语篇关系

ChatGPT Evaluation on Sentence Level Relations: A Focus on Temporal, Causal, and Discourse Relations

Chunkit Chan, Jiayang Cheng, Weiqi Wang, Yuxin Jiang, Tianqing Fang...

TL;DR该研究针对 ChatGPT 大型语言模型，通过对 13 个数据集的测试集进行综合评估，采用了三种任务定制型 prompt 模板，发现 ChatGPT 对于识别因果关系具有较强的能力，但在识别事件之间的时间顺序方面表现较差，并在需要结构性理解对话的对话语篇分析任务中表现不佳。

Abstract

This paper aims to quantitatively evaluate the performance of chatgpt, an interactive large language model, on inter-sentential relations

chatgpt language model inter-sentential relations temporal relations causal relations

发现论文，激发创造

使用 ChatGPT 进行零 - shot 时序关系抽取

本文探讨了 ChatGPT 在零 - shot 时序关系抽取中的应用能力，并且设计了三种不同的提示技术来解决该任务。实验表明 ChatGPT 的性能与监督方法有较大差距，并且在时间推理过程中可能存在不一致性和长依赖时序推理失败的问题。

Apr, 2023

激发隐式言论关系注释

对于 ChatGPT 而言，在隐性话语关系分类任务中，使用标准的多项选择问题提示尚不令人满意，且远远不及最先进的有监督方法。本研究通过尝试多种证实的提示技术来提高 ChatGPT 对话语关系的识别能力，但实验结果表明，即使使用复杂的提示工程，推理准确性几乎没有改变，暗示隐性话语关系分类在零样本或少样本情况下尚未得到解决。

Feb, 2024

聊天 GPT 在对话中的话语分析潜力：实证研究

本研究探讨了 ChatGPT 在话语语篇分析中的能力，特别是话题分割、话语关系识别和话语分析三个任务的能力。结合创新的思维链（COT）方法，发现 ChatGPT 对于话题分割有较好的表现，但在话语关系识别和话语分析等较难的任务中有待提高。

May, 2023

ChatGPT 是否是一个良好的因果推理器？综合评估

本文对 ChatGPT 的因果推理能力进行了全面评估。实验结果表明，ChatGPT 在因果推理方面存在严重的幻觉，主要由于自然语言中因果关系和非因果关系之间的汇报偏差以及 ChatGPT 的升级过程。此外，在提示中使用的表达因果概念的单词对 ChatGPT 的因果推理能力产生重要影响，针对性较强的提示表现更好。ChatGPT 主要擅长捕捉显式的因果关系，对隐式的因果关系处理能力相对较差，对句子中事件密度较低和事件之间词汇距离较小的情况处理效果较好。

May, 2023

ChatGPT 在生物医学任务中的评估：与微调生成变换器的零样本比较

本文旨在评估 ChatGPT 在生物医学领域中各种基准任务（如关系提取、文档分类、问答和摘要）的性能，在拥有较小训练集的生物医学数据集中，zero-shot ChatGPT 甚至优于最先进的经调优生成变换器模型（如 BioGPT 和 BioBART），这表明 ChatGPT 在生物医学领域也非常专业，具备成为缺乏大型注释数据的各种生物医学任务的有价值工具的潜力。

Jun, 2023

一个多任务、多语言、多模态的 ChatGPT 推理、幻觉和交互评估

本文提出了一个评估 ChatGPT 等交互式 LLM 的框架，使用公开数据集进行多任务、多语言和多模态方面的评估，发现 ChatGPT 能够生成多模态内容，但是其推理能力较差，存在幻觉问题，但通过 “提示工程” 可以与人类协作，提高性能。

Feb, 2023

评估 ChatGPT 作为一个问答系统：全面分析与现有模型的比较

ChatGPT 作为一个问答系统，通过对其在提供的段落中提取回答的能力进行评估，发现它在生成模型方面表现出了实力，但在问题回答方面相对于特定任务模型表现较差，而提供上下文可以提高其性能，提问方式对其准确性有所影响，并且在提供的上下文中提供了无法从中获取答案的问题的回答，还存在答案幻觉的现象。

Dec, 2023

ChatGPT 是因果文本挖掘的未来吗？综合评估与分析

通过综合评估 ChatGPT 在因果文本挖掘领域的能力，揭示了其适用性、性能、限制和未来挑战。尽管 ChatGPT 在各种数据集上表现良好，但在具备足够的训练数据和处理复杂因果关系方面，先前的模型仍然优于 ChatGPT，并指出其中存在误识非因果序列和处理复杂因果关系类型方面的挑战。

Feb, 2024

ChatGPT 在需求信息检索中的初步评估

本文通过对 ChatGPT 在需求分析任务上的表现进行实证评估，探讨生成式大语言模型在自然语言处理领域对需求工程的影响，结果显示 ChatGPT 在多语言多类型需求文档检索上表现出令人惊叹的能力。

Apr, 2023

ChatGPT 是否解决了信息提取？绩效、评估标准、鲁棒性和错误分析

本文评估了 ChatGPT 模型在性能、评估标准、稳健性和错误类型四个方面的能力，并提出了一种用于更准确反映 ChatGPT 性能的软匹配策略，同时发现了 ChatGPT 的最主要的错误类型是 “未注释的跨度”，从而引发了对标注数据质量的关注，并提示可以使用 ChatGPT 进行数据标注。

May, 2023