比较 GPT-4 和开源语言模型在虚假信息防范中的应用

Jan, 2024

比较 GPT-4 和开源语言模型在虚假信息防范中的应用

Comparing GPT-4 and Open-Source Language Models in Misinformation Mitigation

Tyler Vergho, Jean-Francois Godbout, Reihaneh Rabbany, Kellin Pelrine

TL;DR本研究从大语言模型在辨别虚假信息方面的应用出发，探讨了 GPT-4、Zephyr-7b 等模型的优劣，并指出开源模型逐渐在该任务上赶超其他模型，同时呈现出 GPT-3.5 性能不稳定的现象。研究还验证了结构化输出方法和最新版本的 GPT-4（Turbo），证明它们在性能上没有妥协，从而为未来研究解锁了更复杂的虚假信息缓解管道。

Abstract

Recent large language models (LLMs) have been shown to be effective for misinformation detection. However, the choice of LLMs for experiments varies widely, leading to uncertain conclusions. In particular,

large language models misinformation detection gpt-4 zephyr-7b open-source models

发现论文，激发创造

开源语言模型的反馈能力评估：利用 GPT-4 作为评委帮助学生的能力

通过使用 GPT-4 对多个开源语言模型的反馈进行评估，本研究探讨了大型语言模型在教育领域中生成反馈的质量，并发现一些模型在性能上可以与专有的语言模型竞争，从而为其在教学环境中的负责任使用提供机会。

May, 2024

走向可靠的误解信息缓解：泛化性、不确定性和 GPT-4

本文旨在探究应用通用性、软分类及最新大型语言模型等技术解决误导信息带来的挑战。作者通过比较发现，GPT-4 及其他语言模型相比早期方法有更好的表现，且这些模型应用在软分类框架中，可帮助更好地量化不确定性，而这可能带来意义重大的性能提升。此外，作者还发现 GPT-4 和 RoBERTa-large 在易错性方面存在重大差异，这为深入研究本领域提供了重要线索。总之，本研究为未来进一步解决误导信息带来的实际问题奠定了基础。

May, 2023

大型语言模型用于宣传检测

探测在数字化社会中广告宣传的普及给社会和真相的传播带来了挑战，通过 NLP 在文本中检测广告宣传是具有挑战性的，我们研究了现代大型语言模型（LLMs）如 GPT-3 和 GPT-4 在广告宣传检测中的有效性，并对使用 SemEval-2020 任务 11 数据集进行了实验，该数据集的新闻文章被标记为 14 种广告宣传技术的多标签分类问题，使用了五种不同的 GPT-3 和 GPT-4 变体，其中包括不同模型之间的各种提示工程和微调策略，通过评估 $F1$ 分数，$Precision$ 和 $Recall$ 等指标来评估模型的性能，并将结果与使用 RoBERTa 的当前最先进方法进行比较，我们的研究结果表明 GPT-4 达到了与当前最先进方法相当的结果，此外，本研究分析了 LLMs 在复杂任务如广告宣传检测中的潜力和挑战。

Oct, 2023

探索大型语言模型在识别误导性新闻标题中的潜力

利用大型语言模型（LLMs），本文研究了识别误导性与非误导性新闻标题的效果。研究发现模型性能存在显著差异，ChatGPT-4 在一致标注者就误导性标题达成一致意见的情况下表现出更准确的结果。文章强调了人本评估在开发 LLMs 中的重要性，旨在将技术能力与细腻的人类判断力相结合。研究结果对 AI 伦理问题具有借鉴意义，强调了在技术先进的同时，还需要考虑伦理道德和人类解读的微妙性。

May, 2024

虚假信息检测中的不确定性解决

使用新的方法解决 GPT-4 等大型语言模型在处理模糊或缺乏背景信息的陈述时的不确定性，并通过基于 LIAR-New 数据集的分类标签提出一个可适用于跨领域内容的框架来解析丢失的信息。我们利用这个框架生成有效的用户查询，相比基准方法，我们的方法提高了用户可回答的问题的比例 38 个百分点，宏观 F1 分类性能提高了 10 个百分点以上。因此，该方法可能成为未来对抗虚假信息的有价值组成部分。

Jan, 2024

开源大型语言模型在文本注释任务中胜过众包工作者并接近 ChatGPT

研究比较了开源的大型语言模型（LLMs），ChatGPT 和人工服务（如 MTurk）在文本标注任务中的表现。发现开源 LLMs 在高效性，透明性，可再现性和数据保护方面具有竞争力，虽然 ChatGPT 在大多数任务中表现最好，但开源 LLMs 在特定任务中也有较高的竞争潜力。

Jul, 2023

将大型语言模型凝聚用于将患者匹配到临床试验

探究专有和开源大型语言模型在患者试验匹配任务中的有效性，并证明在有限和合成数据集上进行微调后，开源模型与专有模型性能相当，从而为它们在实际医疗应用中的部署提供了巨大机会。

Dec, 2023

h2oGPT：大规模语言模型的民主化

介绍了一种基于 h2oGPT 平台的开源语言模型，旨在创建开源的比闭源 GPT 更好的大型语言模型，这将促进 AI 的发展并使其更加可靠和透明。

Jun, 2023

数据污染与评估不端行为在闭源语言模型中的重复现象

使用 OpenAI 的 GPT-3.5 进行了首次系统分析，揭示其在数据污染方面的问题，发现模型在发布后一年内泄露了大约 470 万个样本来自 263 个基准，并记录了被评审论文中出现的不公平或缺失的基准比较和可复现性问题。

Feb, 2024

用戶友好且開源的大型 GPT 模型的研究：對語言、多模態和科學 GPT 模型的調查

通过本综述论文，我们对大规模 GPT 模型的可替代开源模型进行了研究，重点关注用户友好和相对小型的模型，以促进更容易部署和访问。通过这个广泛的调查，我们旨在为研究人员、实践者和爱好者提供对大规模 GPT 模型的用户友好和相对小型的开源模型的深入了解，包括它们的当前状态、挑战和未来研究方向，以激发更高效、易于访问和多功能的 GPT 模型的开发，以满足更广泛的科学界需求，推动通用人工智能领域的发展。

Aug, 2023