比较 GPT-4 和开源语言模型在虚假信息防范中的应用
通过使用 GPT-4 对多个开源语言模型的反馈进行评估,本研究探讨了大型语言模型在教育领域中生成反馈的质量,并发现一些模型在性能上可以与专有的语言模型竞争,从而为其在教学环境中的负责任使用提供机会。
May, 2024
本文旨在探究应用通用性、软分类及最新大型语言模型等技术解决误导信息带来的挑战。作者通过比较发现,GPT-4 及其他语言模型相比早期方法有更好的表现,且这些模型应用在软分类框架中,可帮助更好地量化不确定性,而这可能带来意义重大的性能提升。此外,作者还发现 GPT-4 和 RoBERTa-large 在易错性方面存在重大差异,这为深入研究本领域提供了重要线索。总之,本研究为未来进一步解决误导信息带来的实际问题奠定了基础。
May, 2023
探测在数字化社会中广告宣传的普及给社会和真相的传播带来了挑战,通过 NLP 在文本中检测广告宣传是具有挑战性的,我们研究了现代大型语言模型(LLMs)如 GPT-3 和 GPT-4 在广告宣传检测中的有效性,并对使用 SemEval-2020 任务 11 数据集进行了实验,该数据集的新闻文章被标记为 14 种广告宣传技术的多标签分类问题,使用了五种不同的 GPT-3 和 GPT-4 变体,其中包括不同模型之间的各种提示工程和微调策略,通过评估 $F1$ 分数,$Precision$ 和 $Recall$ 等指标来评估模型的性能,并将结果与使用 RoBERTa 的当前最先进方法进行比较,我们的研究结果表明 GPT-4 达到了与当前最先进方法相当的结果,此外,本研究分析了 LLMs 在复杂任务如广告宣传检测中的潜力和挑战。
Oct, 2023
利用大型语言模型(LLMs),本文研究了识别误导性与非误导性新闻标题的效果。研究发现模型性能存在显著差异,ChatGPT-4 在一致标注者就误导性标题达成一致意见的情况下表现出更准确的结果。文章强调了人本评估在开发 LLMs 中的重要性,旨在将技术能力与细腻的人类判断力相结合。研究结果对 AI 伦理问题具有借鉴意义,强调了在技术先进的同时,还需要考虑伦理道德和人类解读的微妙性。
May, 2024
使用新的方法解决 GPT-4 等大型语言模型在处理模糊或缺乏背景信息的陈述时的不确定性,并通过基于 LIAR-New 数据集的分类标签提出一个可适用于跨领域内容的框架来解析丢失的信息。我们利用这个框架生成有效的用户查询,相比基准方法,我们的方法提高了用户可回答的问题的比例 38 个百分点,宏观 F1 分类性能提高了 10 个百分点以上。因此,该方法可能成为未来对抗虚假信息的有价值组成部分。
Jan, 2024
研究比较了开源的大型语言模型(LLMs),ChatGPT 和人工服务(如 MTurk)在文本标注任务中的表现。 发现开源 LLMs 在高效性,透明性,可再现性和数据保护方面具有竞争力,虽然 ChatGPT 在大多数任务中表现最好,但开源 LLMs 在特定任务中也有较高的竞争潜力。
Jul, 2023
探究专有和开源大型语言模型在患者试验匹配任务中的有效性,并证明在有限和合成数据集上进行微调后,开源模型与专有模型性能相当,从而为它们在实际医疗应用中的部署提供了巨大机会。
Dec, 2023
使用 OpenAI 的 GPT-3.5 进行了首次系统分析,揭示其在数据污染方面的问题,发现模型在发布后一年内泄露了大约 470 万个样本来自 263 个基准,并记录了被评审论文中出现的不公平或缺失的基准比较和可复现性问题。
Feb, 2024
通过本综述论文,我们对大规模 GPT 模型的可替代开源模型进行了研究,重点关注用户友好和相对小型的模型,以促进更容易部署和访问。通过这个广泛的调查,我们旨在为研究人员、实践者和爱好者提供对大规模 GPT 模型的用户友好和相对小型的开源模型的深入了解,包括它们的当前状态、挑战和未来研究方向,以激发更高效、易于访问和多功能的 GPT 模型的开发,以满足更广泛的科学界需求,推动通用人工智能领域的发展。
Aug, 2023