利用人工智能梳理历史：GPT 3.5、GPT4 和 GoogleBARD 的预测准确度和事实核查比较评估

May, 2023

利用人工智能梳理历史：GPT 3.5、GPT4 和 GoogleBARD 的预测准确度和事实核查比较评估

Bridging History with AI A Comparative Evaluation of GPT 3.5, GPT4, and GoogleBARD in Predictive Accuracy and Fact Checking

PDF

Davut Emre Tasar, Ceren Ocal Tasar

TL;DR本研究评估了三种大型语言模型 LLMs（GPT 3.5、GPT 4 和 GoogleBARD）在预测和验证历史事件方面的性能，并引入了一个新的度量标准，即 “距离现实（DTR）”，以评估模型的输出与已知历史事实的符合度。结果表明，AI 在历史研究中具有巨大潜力，GPT 4 表现优异。本文强调了进一步研究 AI 在丰富我们对过去的理解和填补历史知识差距中的作用的必要性。

Abstract

The rapid proliferation of information in the digital era underscores the importance of accurate historical representation and interpretation. While artificial intelligence has shown promise in various fields, its potential for →

artificial intelligence historical fact-checking language models historical events distance to reality

发现论文，激发创造

新闻验证者对决：ChatGPT 3.5、ChatGPT 4.0、Bing AI、Bard 在新闻事实核查中的比较表现评估

本文评估了开放 AI 的 ChatGPT 3.5 和 4.0、谷歌的 Bard (LaMDA) 和微软的 Bing AI 等主要大型语言模型在使用黑箱测试区分新闻真伪方面的精通程度。研究发现，这些模型在真伪辨别方面的平均得分为 65.25，其中 OpenAI 的 GPT-4.0 在新的 LLMs 的能力方面表现出优势，得分为 71。然而，与人类事实核查员的表现相比，AI 模型尽管有前途，但在理解新闻信息中固有的细微差别和上下文方面落后。因此，本研究强调了 AI 在事实核查领域的潜力，同时也强调了人类认知能力的重要性和 AI 能力持续发展的必要性。

Jun, 2023

关于 GPT-3 的调查

本文介绍 GPT-3 技术的历史发展、关键特性、机器学习模型和数据集，并讨论了其在各个领域中的应用，如人工智能聊天机器人、软件开发、创意工作、领域知识和商业生产力；同时探讨了 GPT-3 面临的挑战，如训练复杂性、偏见和幻觉 / 错误答案等，并讨论了未来的研究机会。

Dec, 2022

ChatGPT 对抗 Bard、Bing、Claude 2、Aria 和人类专家。科学写作上人工智能聊天机器人的表现如何？(版本 23Q3)

AI chatbots in scholarly writing were analyzed, revealing their proficiency in recombining existing knowledge but their limitations in generating original scientific content; the size of LLMs has plateaued, highlighting the challenges in emulating human originality, though the evolution of LLM-powered software is expected to improve this.

Sep, 2023

聊天机器人在数学和逻辑问题中的应用：ChatGPT-3.5、ChatGPT-4 和 Google Bard 的初步比较和评估

对基于大型语言模型的三个聊天机器人（ChatGPT-3.5、ChatGPT-4 和 Google Bard）进行了比较，重点关注它们解决数学和逻辑问题的能力，并通过一系列测试发现对于简单的算术、代数表达式和基本的逻辑谜题，聊天机器人可能会提供准确的解决方案，但对于更复杂的数学问题或高级逻辑任务，它们的答案可能不可靠。ChatGPT-4 在两组问题中的表现均优于 ChatGPT-3.5，而 Bard 在 Set B 中表现最好。

May, 2023

聊天 GPT 和新学术现实：AI 撰写的研究论文及大型语言模型在学术出版中的伦理道德

本文讨论 OpenAIs ChatGPT，一种用于文本型用户请求（即聊天机器人）的生成式预训练转换器。讨论了 ChatGPT 及类似模型背后的历史和原则，以及其对学术界和学术研究出版的潜在影响。ChatGPT 被认为是自动准备论文和其他类型学术手稿的潜在模型。此外，还讨论了可能出现的潜在伦理问题，并将其置于人工智能、机器学习和自然语言处理的更广泛进展的背景之下。

Mar, 2023

人工通用智能的火花：GPT-4 的早期实验

本文报道了 OpenAI 发展的最新模型 GPT-4，证明其不仅能够掌握语言，而且在数学、编码、视觉、医学、法律和心理等多个领域中都能够解决新颖且困难的任务，表现接近于甚至超过人类的水平，代表了一种新的群体智能的语言模型，并可能被视为人工通用智能（AGI）系统的早期、但尚不完整的版本。同时，本文还探讨了 GPT-4 的局限性，指出其可能需要超越下一个预测的新范式，为实现更深入和全面的 AGI 版本的发展面临的挑战，以及该技术飞跃的社会影响和未来研究方向的反思。

Mar, 2023

Bard 和 ChatGPT 在十种阿拉伯语方言机器翻译中的评估

综述了大型语言模型对阿拉伯语方言的机器翻译效能以及在翻译任务中与人类指令的对齐能力，发现大型语言模型在处理某些阿拉伯语方言时可能面临挑战，尤其是针对缺乏公开数据的阿尔及利亚和毛里塔尼亚方言，但对更普遍的方言表现令人满意，虽然偶尔落后于像 Google 翻译这样的商业系统。总体而言，现有的大型语言模型在包容性方面仍有待改进，仅具有有限的能力来满足不同社区之间的语言和文化复杂性需求。

Aug, 2023

人工智能在档案和历史学者工作流程中的应用：HTS 和 ChatGPT

本文考察了人工智能对档案遗产数字化的影响，尤其是对手稿的自动转录、更正和规范化的影响，强调数字化推动学者重新定义档案和历史领域，并通过数字化和整合到大数据中实现模拟源的便利性。研究侧重于两个人工智能系统，即 Transkribus 和 ChatGPT，这些系统可以有效分析和转录数字化的来源。本文对 ChatGPT 进行了测试，该测试用于规范化存储在 Biscari Archive（Catania）的通信部门的 366 封信件的文本。虽然人工智能存在一些限制导致的不准确性，但更正后的文本符合预期。总的来说，本文得出结论，数字化和人工智能可以通过允许大量数据的分析和应用计算语言学工具，显著增强档案和历史研究。

Jul, 2023

从 ChatGPT、DALL-E 3 到 Sora：生成型人工智能如何改变数字人文研究与服务？

大规模语言模型在数字人文研究中的应用深入探讨，揭示了它们在古籍保护、智能处理和学术创新方面的重要潜力，通过具体案例展示了人工智能在古籍组织、分类和内容生成中的辅助作用，并探索了在艺术创新和文化遗产保护中的应用前景，最后探讨了由人工智能技术引发的数字人文领域中技术、信息和社会相互交融的挑战和机遇。

Apr, 2024

ChatGPT 和 Bard 能否生成对齐的评估题目？针对人类表现的可靠性分析

本文测试了 ChatGPT 和 Bard AI 技术在评估和教学领域的应用。使用 ICC 构建了性能指标来衡量它们的可靠性，结果显示，这两款 LLM 工具在感知和评估写作提示复杂性方面相对人类评分标准具有较低的一致性。

Apr, 2023