ChatGPT 的回复能提升传统自然语言处理吗?
基于 ChatGPT 模型的广泛研究评估了 GPT-4 和 GPT-3.5 在 13 个影响计算问题上的性能,发现它们在涉及情感、情绪和毒性等问题上表现出色,但在涉及隐性信号的问题上表现较差,如参与度测量和主观性检测。
Aug, 2023
本文主要评估了 ChatGPT 在文本分类中的能力,尤其针对情感计算问题,实验结果显示,虽然 ChatGPT 表现良好,但相对于 RoBERTa 来说还有一个较大的提升空间。
Mar, 2023
本文通过对 20 个流行的任务数据集进行评估,就 ChatGPT 的零 - shot 学习能力进行了实证分析,并发现它在推理能力较强的任务上表现良好,如算术推理,但在特定任务(如序列标记)的解决方面仍面临挑战。
Feb, 2023
本研究分析了 ChatGPT 在不同对话问答语料库中生成的回答,并使用 BERT 相似度得分进行比较,以获取自然语言推理(NLI)标签。该研究还确定了 ChatGPT 提供错误答案的情况,提供了有关该模型可能存在错误的领域的见解。通过评估分数,比较 GPT-3 和 GPT-4 的整体性能。
Apr, 2023
ChatGPT 作为一个问答系统,通过对其在提供的段落中提取回答的能力进行评估,发现它在生成模型方面表现出了实力,但在问题回答方面相对于特定任务模型表现较差,而提供上下文可以提高其性能,提问方式对其准确性有所影响,并且在提供的上下文中提供了无法从中获取答案的问题的回答,还存在答案幻觉的现象。
Dec, 2023
本研究探讨了 ChatGPT 在解决编程问题方面的有效性,考察了其解决问题的正确性和时间、内存复杂度等效率,研究结果表明 ChatGPT 在结构化问题方面表现出较好的成功率,但其调试任务表现不佳,为 ChatGPT 的能力和改进提供了精辟的了解。
Jul, 2023
本文研究了大型语言模型(尤其是生成预训练变压器)在各种语言相关任务上显示出的令人印象深刻的结果。我们探索了 ChatGPT 仅通过提示就能够执行情感计算任务的零点能力。我们显示 ChatGPT a)能够在价值、唤起和支配维度上执行有意义的情绪分析,b)在情绪类别和这些情感维度方面具有有意义的情感表示,以及 c)可以根据基于提示的 OCC 评估模型的计算实现,对情况进行基本的评估引发情绪的操作。这些发现具有很高的相关性:首先,它们表明解决复杂的情感处理任务的能力源于对广泛数据集进行基于语言的标记预测的训练。其次,它们显示了大型语言模型模拟、处理和分析人类情绪的潜力,这对于诸如情感分析、社交互动代理和社交机器人等各种应用具有重要意义。
Sep, 2023
结合 ChatGPT 和传统的基于信息检索的聊天机器人框架,提供优化的高等教育学生支持,以解决 LLMs 在教育背景下生成错误、偏见或无用答案的挑战。
Dec, 2023
本文研究了 ChatGPT 在 25 个多样化的自然语言处理任务(如情感分析、情感识别、态度检测、自然语言推断、词义消歧、语言可接受性和问答)中的表现及其个性化响应能力,并与现有的国际先进水平(SOTA)解决方案进行了比较。结果表明,任务难度越高(低 SOTA 表现),ChatGPT 的损失越大。同时也揭示了 ChatGPT 偏见,在一定程度上限制了 ChatGPT 的有效性。
Feb, 2023
本文比较了 ChatGPT 在自然语言处理领域中,在机器翻译、文本摘要、问答和语言生成等方面的表现,并使用自由质量(SQ)分数与每个类别中的主要算法进行了比较。通过有效的验证策略,安全性和可大规模采用 LLM 的示例总结了该论文的观点和结果。
Mar, 2023