ChatGPT 是否是一个良好的多方对话解决器？

EMNLPOct, 2023

ChatGPT 是否是一个良好的多方对话解决器？

Is ChatGPT a Good Multi-Party Conversation Solver?

Chao-Hong Tan, Jia-Chen Gu, Zhen-Hua Ling

TL;DR利用 ChatGPT 和 GPT-4 等生成型大型语言模型对多方对话进行评估与分析，揭示了利用生成型大型语言模型处理多方对话所面临的挑战以及可行的解决方案。

Abstract

large language models (LLMs) have emerged as influential instruments within the realm of natural language processing; nevertheless, their capacity to handle multi-party conversations (MPCs) -- a scenario marked b

large language models multi-party conversations generative llms zero-shot learning mpc structures

发现论文，激发创造

ChatGPT 是否是通用自然语言处理任务解决方案？

本文通过对 20 个流行的任务数据集进行评估，就 ChatGPT 的零 - shot 学习能力进行了实证分析，并发现它在推理能力较强的任务上表现良好，如算术推理，但在特定任务（如序列标记）的解决方面仍面临挑战。

Feb, 2023

ChatGPT 在超越英语方面的综合评估：多语言学习中的大型语言模型

本研究评估了多语言文本处理技术的热门系统 ChatGPT 在 37 种不同的语言中进行的 7 项不同任务的表现，揭示了其在不同 NLP 任务和语言方面的表现与其他模型相比较差，需要进一步的研究来发展更好的模型和了解多语言学习。

Apr, 2023

聊天 GPT 在对话中的话语分析潜力：实证研究

本研究探讨了 ChatGPT 在话语语篇分析中的能力，特别是话题分割、话语关系识别和话语分析三个任务的能力。结合创新的思维链（COT）方法，发现 ChatGPT 对于话题分割有较好的表现，但在话语关系识别和话语分析等较难的任务中有待提高。

May, 2023

多方目标跟踪与 LLMs：预训练、微调和提示工程比较

通过对大规模语言模型在任务导向的多方对话中捕捉能力的评估，本研究记录并转录了医院中患者、他们的陪伴者和社交机器人之间的 29 个多方对话，并对此语料库进行了多方目标跟踪和意图 - 插槽识别的注释。我们在零样本和少样本设置中比较了三种方法，即微调 T5，使用 LED 创建预训练任务以训练 DialogLM，并采用 GPT-3.5-turbo 的提示工程技术，以确定哪种方法可以用有限数据完成这一新任务。在少样本设置中，GPT-3.5-turbo 显著优于其他方法。当给出例子注释对话中 7% 的语料库时，“推理” 风格的提示是效果最好的方法。它正确注释了 62.32% 的目标跟踪多方对话和 69.57% 的意图 - 插槽识别多方对话。而 “故事” 风格的提示会增加模型的虚构成分，在安全关键环境中可能会有不利影响。我们得出结论，多方对话仍然对最先进的大规模语言模型构成挑战。

Aug, 2023

大型语言模型在初级编程教育中的应用：ChatGPT 的性能和对评估的影响

该论文研究了大型语言模型（LLMs）ChatGPT-3.5 和 GPT-4 在解决入门级编程任务中的表现，并根据表现得出了利用 LLMs 进行教学场景和评估格式的暗示。研究选取了来自免费网站 CodingBat 的 72 个针对初学者的 Python 任务，使用完整任务描述作为 LLMs 的输入，通过 CodingBat 的单元测试评估生成的回复。此外，还分析了文本解释和程序代码的普遍可用性。结果显示得分高，正确响应率为 94.4％至 95.8％，同时文本解释和程序代码的可用性可靠，从而为将 LLMs 纳入编程教育和评估中打开了新的途径。

Aug, 2023

扩展 ChatGPT 的前沿：代码生成和调试

本研究探讨了 ChatGPT 在解决编程问题方面的有效性，考察了其解决问题的正确性和时间、内存复杂度等效率，研究结果表明 ChatGPT 在结构化问题方面表现出较好的成功率，但其调试任务表现不佳，为 ChatGPT 的能力和改进提供了精辟的了解。

Jul, 2023

ChatGPT/GPT-4 研究综述及对大型语言模型未来的展望

本文对 ChatGPT 和 GPT-4 进行了综合调查，分析了其在各领域的潜在应用，发现 ChatGPT/GPT-4 主要应用于自然语言处理，并在教育、历史、数学、医学和物理等领域具有潜力。同时也提出了伦理问题和未来发展方向。

Apr, 2023

一个多任务、多语言、多模态的 ChatGPT 推理、幻觉和交互评估

本文提出了一个评估 ChatGPT 等交互式 LLM 的框架，使用公开数据集进行多任务、多语言和多模态方面的评估，发现 ChatGPT 能够生成多模态内容，但是其推理能力较差，存在幻觉问题，但通过 “提示工程” 可以与人类协作，提高性能。

Feb, 2023

ChatGPT 在生成式人工智能和大型语言模型时代的简明调查

ChatGPT 是 OpenAI 创建的一种大型语言模型 (LLM)，通过大量数据的精心训练，推动了自然语言处理 (NLP) 的发展，并拓展了 LLM 的能力边界。本文主要目标是对 ChatGPT 及其演变的当前研究方向进行简明概述，提供了基于玻璃盒和黑盒观点的综合分析。此概述也揭示了 LLM 和 GAI 领域的现有和缺失研究方向，有益于公众用户和开发人员。

Jul, 2023

基于大型语言模型的文档级机器翻译

本文研究利用 Chat-GPT 建立的大型语言模型在文档级机器翻译中的应用，通过评估话语建模的能力，比较它与商业翻译系统和高级文档级机器翻译方法的性能，发现 Chat-GPT 在人类评估方面表现优异，同时揭示了话语建模的挑战和机遇。

Apr, 2023