探索最新的 LLMs 领先者提取

Jun, 2024

Exploring the Latest LLMs for Leaderboard Extraction

Salomon Kabongo, Jennifer D'Souza, Sören Auer

TL;DR该研究通过评估 Mistral 7B、Llama-2、GPT-4-Turbo 和 GPT-4.o 这四个 LLM 模型对实证 AI 研究文章中的领先者信息的提取效果，探讨了三种上下文输入类型（DocTAET、DocREC 和 DocFULL）对模型的影响，综合评估了这些模型在从研究论文中生成（任务、数据集、指标、得分）四元组方面的性能，揭示了每个模型和上下文类型的优势和局限性，为未来的 AI 研究自动化工作提供了有价值的指导。

Abstract

The rapid advancements in large language models (llms) have opened new avenues for automating complex tasks in AI research. This paper inv

large language models llms automating complex tasks empirical ai research articles contextual inputs

发现论文，激发创造

评估大型语言模型用于公共卫生分类和提取任务

基于对 LLMs 在公共卫生任务中的自动评估，将六个外部注释数据集与七个新的内部注释数据集相结合，评估 LLMs 在处理与健康负担、流行病学危险因素和公共卫生干预相关的文本中的性能，发现 Llama-3-70B-Instruct 是性能最好的模型，在 15 个任务中取得最佳结果。这些初步结果表明，LLMs 可能成为公共卫生专家从各种免费文本来源中提取信息，并支持公共卫生监测、研究和干预的有用工具。

May, 2024

探索大型语言模型在识别误导性新闻标题中的潜力

利用大型语言模型（LLMs），本文研究了识别误导性与非误导性新闻标题的效果。研究发现模型性能存在显著差异，ChatGPT-4 在一致标注者就误导性标题达成一致意见的情况下表现出更准确的结果。文章强调了人本评估在开发 LLMs 中的重要性，旨在将技术能力与细腻的人类判断力相结合。研究结果对 AI 伦理问题具有借鉴意义，强调了在技术先进的同时，还需要考虑伦理道德和人类解读的微妙性。

May, 2024

超越指标：评估 LLM 在文化细微、资源贫乏的真实场景中的有效性

评估了在多语言和代码混合通信环境中使用的七个领先大型语言模型（LLMs）的情感分析性能，发现 GPT-4 和 GPT-4-Turbo 在理解语言输入和处理上下文信息方面表现出色，与人的一致性高且决策过程透明，但在非英语环境中的文化细微差别方面存在不稳定性，结果强调了 LLMs 不断改进以有效应对文化差异、资源有限的真实世界环境的必要性。

Jun, 2024

大型语言模型作为数据预处理器

此研究拓展了大型语言模型（LLMs）的应用，探索了它们在数据预处理中的潜力，包括错误检测、数据插补、模式匹配和实体匹配任务。我们提出了一个基于 LLMs 的框架，用于改进模型的性能和效率。实验结果表明 LLMs 在数据预处理中具有巨大潜力。

Aug, 2023

评估大型语言模型在 GMAT 上的表现：对商业教育未来的影响

该研究介绍了一项评估七种主要大型语言模型（LLMs）在商业教育领域的性能的基准测试，同时研究还证明了大多数 LLMs 在 GMAT 考试中的出色表现，特别是 GPT-4 Turbo 超越了研究生和商学院的平均分数。此研究确定了人工智能在教育领域的潜力，并强调了在发展和应用人工智能时的一些挑战和需求。

Jan, 2024

使用大型语言模型进行系统综述中的数据提取探索：快速可行性研究

该文章介绍了使用 GPT-4（一个大型语言模型）快速可行性研究来（半）自动化系统性综述中的数据提取，在设计和评估 LLM-based 自动化工具方面仍然存在欠缺的问题。

May, 2024

评估大型语言模型在检测虚假新闻中的功效：一项比较分析

研究通过对比分析，评估了不同大型和小型 LLMs 在识别和过滤假新闻内容方面的有效性，并利用 Kaggle 的假新闻数据集样本探讨了当前 LLMs 在假新闻检测方面的能力和局限性，同时讨论了提高 AI 驱动信息完整性对开发人员和决策者的影响。

Jun, 2024

基于 LLM 的排行榜生成中的有效上下文选择：一项实证研究

通过选择适当的上下文，提高大规模语言模型在生成人工智能研究排行榜方面的效率，并解决了介绍的方法在适应新发展方面超过传统自然语言推理方法的问题。实验证明了有效的上下文选择在提高语言模型精确性和减少错觉方面的重要性，并为可靠高效生成人工智能排行榜提供了新途径。

Jun, 2024

基于维基百科风格的调查问卷生成的大型语言模型：在 NLP 概念上的评估

通过对计算机科学 - NLP 领域的 20 个选定主题进行研究和评估，本文证明了 GPT-4 相对于 GPT-3.5 在产生简明调查文章方面的成功，并揭示了 LLM 在特定领域应用中存在的问题和短板。

Aug, 2023

由学徒到研究助理：大型语言模型推动研究

通过文献综述和第一手实验，本文研究了大型语言模型（LLMs）的潜力。尽管 LLMs 具有成本效益和高效性等优点，但也存在着诸如提示调优、偏见和主观性等挑战。该研究通过利用 LLMs 进行定性分析的实验提供了新的见解，强调了成功和限制。此外，本文还讨论了缓解挑战的策略，如优化提示技术和利用人类专业知识。我们的工作旨在将 LLMs 有机地融入人机交互数据工作，并积极促进其负责任的应用，以此回应关于 LLMs 在研究中负责任应用的持续对话。

Apr, 2024