基于大型语言模型的文档级机器翻译
探索大型语言模型在文档级机器翻译中的适应过程及性能,研究了提示策略及精细调优方法对翻译结果的影响,发现部分专用模型的翻译性能甚至超过 GPT-4,但仍面临着偏离翻译问题的挑战,同时进行了深入分析,包括翻译错误、平行文件的规模关系、领域外泛化和零翻译跨语言转移等,为未来文档级机器翻译方面的研究提供了基础。
Jan, 2024
本文讨论机器翻译使用大型语言模型的一些有趣方向,包括样式化翻译、互动翻译、基于翻译记忆的机器翻译以及一种新的使用大型语言模型的评估范式。我们还讨论了机器翻译中的隐私问题以及一种基本的隐私保护方法来减轻这些风险,为了说明我们提出的方向的潜力,我们提供了几个示例,展示了提出的方向的可行性,强调了未来研究中的机遇和挑战。
May, 2023
本研究探讨了 ChatGPT 在话语语篇分析中的能力,特别是话题分割、话语关系识别和话语分析三个任务的能力。结合创新的思维链(COT)方法,发现 ChatGPT 对于话题分割有较好的表现,但在话语关系识别和话语分析等较难的任务中有待提高。
May, 2023
本文系统地研究了大型语言模型在多语言机器翻译中的优势和挑战,并在 102 种语言上评估了 XGLM、OPT、BLOOMZ 和 ChatGPT 四种常见模型的性能。在进一步分析中,本文发现大型语言模型在多语言机器翻译中具有一些新的工作方式。
Apr, 2023
该论文研究了大型语言模型(LLMs)ChatGPT-3.5 和 GPT-4 在解决入门级编程任务中的表现,并根据表现得出了利用 LLMs 进行教学场景和评估格式的暗示。研究选取了来自免费网站 CodingBat 的 72 个针对初学者的 Python 任务,使用完整任务描述作为 LLMs 的输入,通过 CodingBat 的单元测试评估生成的回复。此外,还分析了文本解释和程序代码的普遍可用性。结果显示得分高,正确响应率为 94.4%至 95.8%,同时文本解释和程序代码的可用性可靠,从而为将 LLMs 纳入编程教育和评估中打开了新的途径。
Aug, 2023
本文通过三种不同的方法,基于大型语言模型(LLMs)对于 ChatGPT 响应的逐轮质量进行预测,并使用动态少量样本来改善基准,并分析了其他两种方法的性能并提出未来研究的改进。研究表明,Llama 2 模型正在缩小 ChatGPT 和开源 LLMs 之间的性能差距,但发现 Llama 2 模型不能像 ChatGPT 那样从少量样本中受益。
Aug, 2023
通过比较 ChatGPT 和主流神经机器翻译(NMT)引擎将中文外交文本翻译成英文,本文评估了大型语言模型在翻译方面的能力。研究采用四个自动化度量和基于错误类型和六个分析指标的人工评估来检验 ChatGPT 和 NMT 引擎的翻译质量。研究结果表明,在不同的提示下,自动化度量对 ChatGPT 产生了类似的结果,而当提供翻译任务的示例或上下文信息时,人工评估者更倾向于给 ChatGPT 较高的评分。自动化度量与人工评估维度之间的两两相关性结果弱且不显著,这表明了两种翻译质量评估方法之间的差异。这些发现为 ChatGPT 作为一种可靠的机器翻译工具以及提示工程对其性能的影响提供了有价值的见解。
Jan, 2024
通过对多个 LLM 模型的研究,本文不仅提供了全面的概述,还明确了现有挑战,并指出了未来的研究方向。该综述提供了关于生成型人工智能的当前状态的全面观点,为进一步的探索、增强和创新提供了启示。
Mar, 2024
通过人工评估,我们发现让 Gpt-3.5 (text-davinci-003) 从整体上翻译文学段落比逐句翻译更好,并指出大语言模型在翻译时仍存在关键性错误。
Apr, 2023
本研究评估了多语言文本处理技术的热门系统 ChatGPT 在 37 种不同的语言中进行的 7 项不同任务的表现,揭示了其在不同 NLP 任务和语言方面的表现与其他模型相比较差,需要进一步的研究来发展更好的模型和了解多语言学习。
Apr, 2023