ChatGPT 提示无法估计高资源语言的预测不确定性

Nov, 2023

ChatGPT 提示无法估计高资源语言的预测不确定性

ChatGPT Prompting Cannot Estimate Predictive Uncertainty in High-Resource Languages

Martino Pelucchi, Matias Valdenegro-Toro

TL;DRChatGPT 通过在高资源语言中表现和预测答案准确性的能力进行分析，发现高资源语言表现与英语相似，但 ChatGPT 缺乏良好的置信度校准，常常过于自信且不会给出低置信度值。

Abstract

chatgpt took the world by storm for its impressive abilities. Due to its release without documentation, scientists immediately attempted to identify its limits, mainly through its performance in natural language processing (NLP) tasks. This paper aims to join the growing literature reg

chatgpt high-resource languages nlp tasks confidence calibration overconfident

发现论文，激发创造

ChatGPT MT：高资源语言竞争力强（但对于低资源语言则不强）

使用 FLORES-200 基准测试，我们提供了首个针对 204 种语言的实验证据和机器翻译成本分析，发现 GPT 模型在某些高资源语言上接近或超过传统机器翻译模型的性能，但在低资源语言上表现一直落后于传统机器翻译，对于我们覆盖的语言中的 84.1％，ChatGPT 的翻译能力低于传统机器翻译模型水平。我们的分析表明，语言的资源水平是决定 ChatGPT 相对翻译能力的最重要特征，并且暗示 ChatGPT 在低资源语言和非洲语言上处于劣势。

Sep, 2023

ChatGPT 在超越英语方面的综合评估：多语言学习中的大型语言模型

本研究评估了多语言文本处理技术的热门系统 ChatGPT 在 37 种不同的语言中进行的 7 项不同任务的表现，揭示了其在不同 NLP 任务和语言方面的表现与其他模型相比较差，需要进一步的研究来发展更好的模型和了解多语言学习。

Apr, 2023

大型语言模型在概率学习中的潜力：ChatGPT3.5 与一年级计算机工程学生的研究

我们评估了 ChatGPT（2023 年 2 月版本），即一个大规模语言模型，在解决典型的介绍性计算机工程考试中出现的概率问题方面的效果。我们的研究包括了一套 23 个概率练习，这些练习被用来测试马德里市 Rey Juan Carlos 大学（URJC）的学生。我们对 ChatGPT 生成的回答进行了定性评估，并根据与学生相同的标准评分。我们的结果表明，ChatGPT 在措辞、组织和逻辑推理方面超过了平均学生。该模型在西班牙语和英语版本的练习中表现一致。然而，ChatGPT 在执行基本的数值运算方面遇到了困难。我们的实验表明，要求 ChatGPT 以 R 脚本形式提供解决方案是克服这些限制的有效方法。总之，我们的结果表明，ChatGPT 在解决计算机工程入门考试中常见的概率问题方面超过了平均学生。然而，该模型在某些概率概念的推理方面存在局限性。大型语言模型在提供高质量解释和以任何编程语言呈现解决方案方面的能力，以及其在解决概率练习中的表现，显示了它们作为学习助理的潜力。

Oct, 2023

发挥 ChatGPT 在翻译中的威力：一项实证研究

本文探究了如何用 ChatGPT 辅助机器翻译，提出了多种翻译提示。实验结果表明，ChatGPT 在高资源语言翻译方面的表现与专业翻译系统相当或更好，在低资源翻译方面略逊于专业翻译系统，并在多参考文献翻译和特定领域翻译方面表现出优异的性能。此外，我们进行了几个快速提示，表现出不同基础提示的一致改进。这项工作提供了 ChatGPT 在翻译方面仍然具有巨大潜力的实证证据。

Apr, 2023

混乱中的巴别塔：对 ChatGPT 的语言识别能力的调查

最近，ChatGPT 作为一种强大的 NLP 工具出现了，它可以执行多项任务。然而，ChatGPT 可以处理的语言范围仍然是个谜。本文研究了 ChatGPT 的语言识别能力，为此我们编制了 Babel-670，其中包括 670 种代表 23 个语言系的语言。Babel-670 的语言涵盖了从资源丰富到资源稀缺的广泛范围，并且分布在五大洲。我们研究了 ChatGPT（包括 GPT-3.5 和 GPT-4）在零样本和少量样本条件下，有无标签集提供的情况下，识别语言名称和语言代码的能力。与较小规模的微调语言识别工具相比，我们发现 ChatGPT 落后于它们。我们的实证分析显示 ChatGPT 仍处于一个潜在增强的状态，尚不足以为不同社区提供足够的服务。

Nov, 2023

跨语言评估 ChatGPT 的数学能力

本文评估了 ChatGPT 在印地语、古吉拉特语和马拉地语等不同语言中的数学能力。我们探索了 ChatGPT 在多种自然语言中解决数学问题的能力，并使用思维链提示来确定它是否像在英语中那样增加了回答的准确性，并提供了当前的限制。

May, 2024

优化 ChatGPT 在机器翻译中的应用

本文旨在通过重新审视温度、任务信息和领域信息等方面，提出两种简单但有效的提示：任务特定提示 (TSP) 和领域特定提示 (DSP)，以进一步挖掘 ChatGPT 的翻译能力。我们表明：1) ChatGPT 的性能很大程度上取决于温度，较低的温度通常可以取得更好的性能；2) 强调任务信息可以进一步提高 ChatGPT 的性能，尤其是在复杂的机器翻译任务中；3) 引入领域信息可以引出 ChatGPT 的泛化能力，并提高其在特定领域的性能；4) 对于非英文中心的机器翻译任务，ChatGPT 倾向于产生幻觉，我们的提示可以部分解决这个问题，但仍需引起机器翻译 / 自然语言处理社区的重视。我们还探讨了高阶上下文学习策略的影响，发现一个 (负但有趣的) 观察结果：强大的思维链提示会导致逐字逐句的翻译行为，从而带来显著的翻译降解。

Mar, 2023

GPTEval: ChatGPT 和 GPT-4 评估调查

对 ChatGPT 和 GPT-4 的语言能力、科学知识和伦理考虑进行全面评估的研究，包括现有评估方法的探讨和未来研究中对大型语言模型的评估建议。

Aug, 2023

ChatGPT 在 USMLE 上的表现：揭示大型语言模型为 AI 辅助医学教育的潜力

本研究评估了使用 ChatGPT 回答医学问题的可靠性，结果发现 ChatGPT 的答案更加上下文相关，代表着较好的演绎推理模型。ChatGPT 等语言学习模型可以成为 e-learners 的宝贵工具，但研究表明还有提高其准确性的空间。

Jun, 2023

ChatGPT 是否是一个好的翻译器？使用 GPT-4 作为引擎，是的

该报告提供了 ChatGPT 在机器翻译方面的初步评估，包括翻译提示、多语言翻译和翻译健壮性。我们采用了 ChatGPT 建议的提示来触发其翻译能力，并发现候选提示通常表现良好，并显示出轻微的性能差异。在多个基准测试集上进行评估后，我们发现 ChatGPT 在高资源欧洲语言方面表现与商业翻译产品（如 Google Translate）相当，但在低资源或远程语言方面明显落后。对于远程语言，我们探索了一种有趣的策略，名为 “旋转提示”，它要求 ChatGPT 将源句翻译成高资源枢轴语言，然后再翻译成目标语言，这显著提高了翻译性能。关于翻译鲁棒性，ChatGPT 在生物医学摘要或 Reddit 评论上的表现不如商业系统，但在口语上表现良好。随着 GPT-4 引擎的推出，ChatGPT 的翻译性能得到了显著提高，即使对于远程语言，也可以与商业翻译产品相媲美。换句话说，ChatGPT 已经成为一个很好的翻译器！

Jan, 2023