LLM 之战：对话型 QA 任务的比较研究

May, 2024

LLM 之战：对话型 QA 任务的比较研究

The Battle of LLMs: A Comparative Study in Conversational QA Tasks

Aryan Rangapur, Aman Rangapur

TL;DR通过对 ChatGPT、GPT-4、Gemini、Mixtral 和 Claude 在不同的会话问答语料库中生成的回答进行评估，本研究得出了这些最先进的语言模型的综合比较和评估结果，揭示了它们的能力，并突出了改进的潜在领域。

Abstract

large language models have gained considerable interest for their impressive performance on various tasks. Within this domain, chatgpt and gpt-4<

large language models chatgpt gpt-4 gemini evaluation

发现论文，激发创造

CHATGPT 与语言模型的比较分析

本文比较了 ChatGPT 在自然语言处理领域中，在机器翻译、文本摘要、问答和语言生成等方面的表现，并使用自由质量（SQ）分数与每个类别中的主要算法进行了比较。通过有效的验证策略，安全性和可大规模采用 LLM 的示例总结了该论文的观点和结果。

Mar, 2023

ChatGPT-Crawler: 查看 ChatGPT 的言论是否可靠

本研究分析了 ChatGPT 在不同对话问答语料库中生成的回答，并使用 BERT 相似度得分进行比较，以获取自然语言推理（NLI）标签。该研究还确定了 ChatGPT 提供错误答案的情况，提供了有关该模型可能存在错误的领域的见解。通过评估分数，比较 GPT-3 和 GPT-4 的整体性能。

Apr, 2023

ChatGPT 与 Gemini 与 LLaMA 在多语言情感分析中的比较

使用大型语言模型（LLM）的自动情感分析在学术研究和工业应用中越来越普遍，但在处理模糊或讽刺文本的性能评估和验证方面仍不够完善。本研究构建了细致和模糊的场景，将其翻译成 10 种语言，并使用流行的 LLM 预测其关联的情感。结果经过后续人为响应的验证。ChatGPT 和 Gemini 通常能够很好地处理模糊场景，但我们也发现了在不同模型和评估的人类语言之间存在显著偏见和不一致的性能。本研究提供了自动情感分析评估的标准化方法，并呼吁进一步改进算法和其基础数据，以提高其性能、可解释性和适用性。

Jan, 2024

ChatGPT 在超越英语方面的综合评估：多语言学习中的大型语言模型

本研究评估了多语言文本处理技术的热门系统 ChatGPT 在 37 种不同的语言中进行的 7 项不同任务的表现，揭示了其在不同 NLP 任务和语言方面的表现与其他模型相比较差，需要进一步的研究来发展更好的模型和了解多语言学习。

Apr, 2023

ChatGPT 在基准数据集上的系统研究和综合评估

本文通过评估 ChatGPT 在各种自然语言处理任务中的表现，旨在验证其优缺点，并为未来的 LLM 研究提供思路。作者发现 ChatGPT 能够完成多种任务，取得很好的表现，但仍有许多难题需要解决。

May, 2023

评估 ChatGPT 作为一个问答系统：全面分析与现有模型的比较

ChatGPT 作为一个问答系统，通过对其在提供的段落中提取回答的能力进行评估，发现它在生成模型方面表现出了实力，但在问题回答方面相对于特定任务模型表现较差，而提供上下文可以提高其性能，提问方式对其准确性有所影响，并且在提供的上下文中提供了无法从中获取答案的问题的回答，还存在答案幻觉的现象。

Dec, 2023

扩展 ChatGPT 的前沿：代码生成和调试

本研究探讨了 ChatGPT 在解决编程问题方面的有效性，考察了其解决问题的正确性和时间、内存复杂度等效率，研究结果表明 ChatGPT 在结构化问题方面表现出较好的成功率，但其调试任务表现不佳，为 ChatGPT 的能力和改进提供了精辟的了解。

Jul, 2023

揭示巨人真面目：ChatGPT 在编写算法和数据结构方面的全面评估

本文对 ChatGPT 的编码能力进行全面评估，重点考察了其在 Python 编程语言和数据结构与算法等基础计算机科学问题上的表现，包括解决问题的能力、代码质量和运行时错误性质，探究了其对训练数据的直接记忆现象，并在各个子主题和难度不等的问题上与人类表现进行对比研究。

Jul, 2023

ChatGPT 是否能与神经机器翻译匹敌？一项比较研究

通过比较 ChatGPT 和主流神经机器翻译（NMT）引擎将中文外交文本翻译成英文，本文评估了大型语言模型在翻译方面的能力。研究采用四个自动化度量和基于错误类型和六个分析指标的人工评估来检验 ChatGPT 和 NMT 引擎的翻译质量。研究结果表明，在不同的提示下，自动化度量对 ChatGPT 产生了类似的结果，而当提供翻译任务的示例或上下文信息时，人工评估者更倾向于给 ChatGPT 较高的评分。自动化度量与人工评估维度之间的两两相关性结果弱且不显著，这表明了两种翻译质量评估方法之间的差异。这些发现为 ChatGPT 作为一种可靠的机器翻译工具以及提示工程对其性能的影响提供了有价值的见解。

Jan, 2024

基于大型语言模型的文档级机器翻译

本文研究利用 Chat-GPT 建立的大型语言模型在文档级机器翻译中的应用，通过评估话语建模的能力，比较它与商业翻译系统和高级文档级机器翻译方法的性能，发现 Chat-GPT 在人类评估方面表现优异，同时揭示了话语建模的挑战和机遇。

Apr, 2023