自动调查挑战

Oct, 2023

Auto-survey Challenge

Benedictus Kent Rachmat, Thanh Gia Hieu Khuong

TL;DR我们提出了一种新颖的平台，用于评估大型语言模型（LLMs）自主撰写和评论跨科学、人文、教育和法律等各个学科的调研论文的能力。这个框架中，人工智能系统通过模拟同行评审机制进行操作，类似于传统学术期刊，人类组织者担任编辑监督职责。在这个框架内，我们为 2023 年 AutoML 会议组织了一次竞赛。参赛者的任务是根据指定提示撰写独立的文章，并对其进行评估。评估标准包括清晰度、参考文献适当性、责任性和内容的实质价值。本文介绍了竞赛的设计，包括实施基线提交和评估方法。

Abstract

We present a novel platform for evaluating the capability of Large Language Models (LLMs) to autonomously compose and critique survey papers spanning a vast array of disciplines including sciences, humanities, ed

large language models autonomous composition critique survey papers automl conference

发现论文，激发创造

AutoSurvey：大型语言模型能自动编写调查问卷

该研究介绍了 AutoSurvey，这是一种快速而有组织的方法，用于自动化创建在人工智能等快速发展领域中的综合文献调查。AutoSurvey 通过初始检索和大纲生成、专门的大语言模型进行的分段起草、整合和完善，以及严格的评估和迭代来解决信息数量和复杂性带来的挑战。研究做出了全面的解决方案，提出了可靠的评估方法，并通过实验证实了 AutoSurvey 的有效性。

Jun, 2024

基于大型语言模型的自主代理的调查

通过对基于大语言模型的自主代理的综合调查，本文提出了一个统一框架来概括以往研究，并总结了在社会科学、自然科学和工程领域中应用大语言模型的人工智能代理的各种应用及评估策略。同时，我们还讨论了该领域的挑战和未来方向。

Aug, 2023

基于 LLM 的短文本答案自动评分方法探究

通过评估大型语言模型在自动评分方面的可行性，并强调大型语言模型如何支持教育工作者验证评分程序，研究表明，虽然 “开箱即用” 的大型语言模型提供了宝贵的工具来提供补充视角，但它们对于独立自动评分的准备工作仍然是一个尚未完成的工作，需要人工监督。

Sep, 2023

大语言模型时代的 AutoML：现有挑战、未来机遇和风险

本文探索了自然语言处理和自动化机器学习之间的共生关系，重点关注了 LLMs 能为 AutoML 方法提供的机会，以及 AutoML 对于改进 LLMs 所带来的挑战，目的在于促进两个领域更深入的探索。

Jun, 2023

通过大型语言模型探索自主代理：一项综述

大型语言模型（LLMs）正在改变人工智能，使得自主代理能够在不同领域执行多样化任务。这些代理具备类似人类的文本理解和生成能力，有望在从客户服务到医疗保健等各个领域引发革命。然而，它们面临着诸如多模态、人类价值取向、幻觉和评估等挑战。推动、推理、工具利用和上下文学习等技术正在被探索，以增强它们的功能。像 AgentBench、WebArena 和 ToolLLM 这样的评估平台为在复杂场景中评估这些代理提供了强大的方法。这些进展正在引领更加有韧性和能力的自主代理的发展，预计它们将成为我们数字生活中不可或缺的一部分，协助我们完成从邮件回复到疾病诊断等任务。拥有 LLMs 带头的人工智能的未来充满了希望。

Apr, 2024

RelevAI-Reviewer：一项关于调查论文相关性的人工智能评审基准测试

提出了一种自动系统，将调查论文审查任务概念化为一个分类问题，采用机器学习模型测定与指定主题相关的论文的相关性，并且通过使用 BERT 等高级语言模型，取得了优于传统机器学习方法的初步结果。

Jun, 2024

LLM 开放环境下的对等评审：自动评估方法

通过使用同行评审机制来自动测量大型语言模型的能力并评估其性能，我们提出了一种新颖的无监督评估方法，并通过为每个语言模型分配可学习的能力参数来调整最终排名，以最大化每个语言模型的能力和得分的一致性，并使用 PEN、CIN 和 LIS 三个指标来评估与人工评级的一致性差距，实验证明了该方法的有效性。

Feb, 2024

大型语言模型与法律系统的探索：简要调查

人工智能和大型语言模型的进步正在给法律领域的自然语言处理任务带来深刻的转变。大型语言模型在法律部门展示出越来越多独特的优势和各种挑战。本调查研究了大型语言模型与法律系统之间的协同作用，例如在法律文本理解、案例检索和分析等任务中的应用。此外，该调查还突出了大型语言模型在法律领域面临的关键挑战，包括偏见、可解释性和道德考虑，以及研究人员如何解决这些问题。调查展示了针对不同法律体系量身定制的最新进展，以及用于各种语言的大型语言模型微调的法律数据集。此外，它提出了未来研究和发展的方向。

Apr, 2024

PRE: 基于同行评审的大型语言模型评估器

通过同行评审机制，我们提出了一种能够自动评估大型语言模型的新框架，用于解决评估成本高、泛化能力低以及评估中的偏见等问题。我们在文本摘要任务上进行了广泛实验，结果表明使用单一语言模型评估存在偏见，并证明了我们的同行评审机制的有效性。

Jan, 2024

生成人工智能时代下的大型语言模型评估标准的不足

通过以人、过程和技术为视角，功能性和安全性为支柱，使用我们的统一评估框架，对 23 个最先进的 LLM 基准进行了研究，发现了显著的限制，并强调了在人工智能进步的背景下，标准化方法、监管确定性和伦理指南的迫切需求，以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。

Feb, 2024