发挥 ChatGPT 在翻译中的威力:一项实证研究
本文旨在通过重新审视温度、任务信息和领域信息等方面,提出两种简单但有效的提示:任务特定提示 (TSP) 和领域特定提示 (DSP),以进一步挖掘 ChatGPT 的翻译能力。我们表明:1) ChatGPT 的性能很大程度上取决于温度,较低的温度通常可以取得更好的性能;2) 强调任务信息可以进一步提高 ChatGPT 的性能,尤其是在复杂的机器翻译任务中;3) 引入领域信息可以引出 ChatGPT 的泛化能力,并提高其在特定领域的性能;4) 对于非英文中心的机器翻译任务,ChatGPT 倾向于产生幻觉,我们的提示可以部分解决这个问题,但仍需引起机器翻译 / 自然语言处理社区的重视。我们还探讨了高阶上下文学习策略的影响,发现一个 (负但有趣的) 观察结果:强大的思维链提示会导致逐字逐句的翻译行为,从而带来显著的翻译降解。
Mar, 2023
通过比较 ChatGPT 和主流神经机器翻译(NMT)引擎将中文外交文本翻译成英文,本文评估了大型语言模型在翻译方面的能力。研究采用四个自动化度量和基于错误类型和六个分析指标的人工评估来检验 ChatGPT 和 NMT 引擎的翻译质量。研究结果表明,在不同的提示下,自动化度量对 ChatGPT 产生了类似的结果,而当提供翻译任务的示例或上下文信息时,人工评估者更倾向于给 ChatGPT 较高的评分。自动化度量与人工评估维度之间的两两相关性结果弱且不显著,这表明了两种翻译质量评估方法之间的差异。这些发现为 ChatGPT 作为一种可靠的机器翻译工具以及提示工程对其性能的影响提供了有价值的见解。
Jan, 2024
ChatGPT 是人工智能领域中强大的工具,在聊天机器人、内容生成、语言翻译、个性化推荐和医疗诊断和治疗等方面已成功应用。然而,ChatGPT 存在着一些局限性,例如它倾向于产生有偏见的回应和可能使有害的语言模式得以传承。本文全面概述了 ChatGPT 的应用、优点和局限性,强调了在现实场景中使用这一强大工具时候伦理考虑的重要性。最后,本文提供了有关提示工程技术的见解,从而为关于人工智能及其对视觉和自然语言处理领域的影响的持续讨论做出了贡献。
Mar, 2023
本研究使用 ChatGPT 这一语言模型探讨了如何利用其在软件工程中辅助完成常见任务,研究结果显示 ChatGPT 对许多任务均有不错的表现,但仍存在一些任务不适用。
May, 2023
该报告提供了 ChatGPT 在机器翻译方面的初步评估,包括翻译提示、多语言翻译和翻译健壮性。我们采用了 ChatGPT 建议的提示来触发其翻译能力,并发现候选提示通常表现良好,并显示出轻微的性能差异。在多个基准测试集上进行评估后,我们发现 ChatGPT 在高资源欧洲语言方面表现与商业翻译产品(如 Google Translate)相当,但在低资源或远程语言方面明显落后。对于远程语言,我们探索了一种有趣的策略,名为 “旋转提示”,它要求 ChatGPT 将源句翻译成高资源枢轴语言,然后再翻译成目标语言,这显著提高了翻译性能。关于翻译鲁棒性,ChatGPT 在生物医学摘要或 Reddit 评论上的表现不如商业系统,但在口语上表现良好。随着 GPT-4 引擎的推出,ChatGPT 的翻译性能得到了显著提高,即使对于远程语言,也可以与商业翻译产品相媲美。换句话说,ChatGPT 已经成为一个很好的翻译器!
Jan, 2023
这篇论文探讨了将翻译目的和目标受众整合到 ChatGPT 的提示中对所生成翻译质量的影响。研究强调了翻译过程中的前期准备阶段的重要性,通过借鉴以往的翻译研究、行业实践和 ISO 标准进行分析。研究发现,在像 ChatGPT 这样的大规模语言模型中加入适当的提示可以产生灵活的翻译,而传统的机器翻译尚未实现这一目标。通过使用 OpenAI 的词嵌入 API 进行余弦相似度计算,评估从从实际翻译员的视角主观和定性地进行,结果表明将翻译目的和目标受众整合到提示中确实可以修改所生成的翻译,从而在行业标准上普遍提高翻译质量。该研究还展示了 “良好的翻译” 概念的实际应用,特别是在营销文件和文化习语的背景下。
Aug, 2023
本研究评估了多语言文本处理技术的热门系统 ChatGPT 在 37 种不同的语言中进行的 7 项不同任务的表现,揭示了其在不同 NLP 任务和语言方面的表现与其他模型相比较差,需要进一步的研究来发展更好的模型和了解多语言学习。
Apr, 2023
本研究探讨了 ChatGPT 在话语语篇分析中的能力,特别是话题分割、话语关系识别和话语分析三个任务的能力。结合创新的思维链(COT)方法,发现 ChatGPT 对于话题分割有较好的表现,但在话语关系识别和话语分析等较难的任务中有待提高。
May, 2023
本文比较了 ChatGPT 在自然语言处理领域中,在机器翻译、文本摘要、问答和语言生成等方面的表现,并使用自由质量(SQ)分数与每个类别中的主要算法进行了比较。通过有效的验证策略,安全性和可大规模采用 LLM 的示例总结了该论文的观点和结果。
Mar, 2023
本研究的目的是为了评估 ChatGPT 在关键词生成方面的性能,在 6 个基准数据集上测试了其在不同方面的表现,发现其在关键词生成方面表现突出,但仍存在一些生成不全的关键词的挑战和限制。
Mar, 2023