大型语言模型是否能够很好地玩文本游戏?现状和开放问题
该论文研究了大型语言模型(LLMs)ChatGPT-3.5 和 GPT-4 在解决入门级编程任务中的表现,并根据表现得出了利用 LLMs 进行教学场景和评估格式的暗示。研究选取了来自免费网站 CodingBat 的 72 个针对初学者的 Python 任务,使用完整任务描述作为 LLMs 的输入,通过 CodingBat 的单元测试评估生成的回复。此外,还分析了文本解释和程序代码的普遍可用性。结果显示得分高,正确响应率为 94.4%至 95.8%,同时文本解释和程序代码的可用性可靠,从而为将 LLMs 纳入编程教育和评估中打开了新的途径。
Aug, 2023
本文对 ChatGPT 和 GPT-4 进行了综合调查,分析了其在各领域的潜在应用,发现 ChatGPT/GPT-4 主要应用于自然语言处理,并在教育、历史、数学、医学和物理等领域具有潜力。同时也提出了伦理问题和未来发展方向。
Apr, 2023
通过 12 个预注册的实验,我们发现像 ChatGPT 这样的运用大型语言模型的聊天机器人能够在很大程度上模仿人类语言处理,但是他们在一些方面与人类处理方式存在差异,并且可能通过 Transformer 架构来解释这些差异。
Mar, 2023
本文比较了 ChatGPT 在自然语言处理领域中,在机器翻译、文本摘要、问答和语言生成等方面的表现,并使用自由质量(SQ)分数与每个类别中的主要算法进行了比较。通过有效的验证策略,安全性和可大规模采用 LLM 的示例总结了该论文的观点和结果。
Mar, 2023
本文研究大型语言模型(LLMs)对人工智能研究的影响。通过以 GPT3.5 / ChatGPT3.4 和 ChatGPT 4 为例,我们展示这些模型具有什么样的功能,并且这些模型令人们瞩目的领域覆盖速度证明了这个趋势正在逐渐变成实现通用智能的强劲迹象。这些模型的创新也将随着这些人工智能系统的成熟而扩大,并将展示出在我们社会的多个方面具有重要影响的不可预见的应用。
May, 2023
通过测试 ChatGPT 在语言记忆任务中对人类表现的预测能力,研究发现 ChatGPT 和人类的表现有惊人的一致性,尽管它们的内部机制可能存在显著差异,这一发现强调了生成型人工智能模型在准确预测人类表现方面的潜力。
Mar, 2024
本研究评估了多语言文本处理技术的热门系统 ChatGPT 在 37 种不同的语言中进行的 7 项不同任务的表现,揭示了其在不同 NLP 任务和语言方面的表现与其他模型相比较差,需要进一步的研究来发展更好的模型和了解多语言学习。
Apr, 2023
这篇论文研究了使用大型语言模型 ChatGPT-3.5 在真实人机对话中执行对话行为检测的能力,并与专门的模型进行对比。研究发现,专门的模型和 ChatGPT 都没有达到令人满意的结果,低于人类表现,但 ChatGPT 显示出了潜在的潜力,并经常超过专门的检测模型。最后,论文深入探讨了 ChatGPT 的主要缺点,并提出了增强 LLM 能力的未来研究的指导。
Sep, 2023
该论文探讨了将大型语言模型(如生成式预训练变换器 GPT)整合到人机合作环境中,通过口头人机交流手段促进可变自主性的快速发展的数字景观中,介绍了一种基于 Unity 虚拟现实(VR)环境的 GPT 驱动多机器人测试平台的创新框架。用户研究表明,用户对于与机器人对话的预设期望较高,却很少尝试探索机器人合作伙伴的实际语言和认知能力,但那些进行探索的用户能从更自然的沟通和人类式的双向交流中受益。我们提供了一组对未来研究和类似系统的技术实施的经验教训。
Dec, 2023
本文研究利用 Chat-GPT 建立的大型语言模型在文档级机器翻译中的应用,通过评估话语建模的能力,比较它与商业翻译系统和高级文档级机器翻译方法的性能,发现 Chat-GPT 在人类评估方面表现优异,同时揭示了话语建模的挑战和机遇。
Apr, 2023