DFEE: 交互式数据流执行和评估工具包

AAAIDec, 2022

DFEE: 交互式数据流执行和评估工具包

DFEE: Interactive DataFlow Execution and Evaluation Kit

Han He, Song Feng, Daniele Bonadiman, Yi Zhang, Saab Mansour

TL;DRDFEE 是一个交互式数据流执行和评估工具包，支持语义解析器的执行、可视化和基准测试，提供友好的接口来诊断解析结果，还提出了一个更复杂的基准测试用例和任务成功评估指标来演示如何进行基准测试。

Abstract

dataflow has been emerging as a new paradigm for building task-oriented chatbots due to its expressive semantic representations of the dialogue tasks. Despite the availability of a large dataset SMCalFlow and a s

dataflow chatbots semantic parsers event scheduling benchmark

发现论文，激发创造

多模态大型语言模型的流程图理解的多维度评估

我们提出了综合评估方法 FlowCE，以评估多模态大语言模型（MLLMs）在与流程图相关的任务中的各种能力。

Jun, 2024

FlowVQA：将流程图用于视觉问答中的多模态逻辑映射

FlowVQA 是一个新颖的基准测试，旨在评估多模态语言模型在使用流程图作为视觉上下文进行推理的能力，其组成包括来自三个不同内容来源的 2,272 张经过精心生成和人工验证的流程图像以及 22,413 个多样化的问答对，以测试一系列推理任务，包括信息定位、决策和逻辑推进。在开源和专有的多模态语言模型上进行了彻底的基准评估，使用了各种策略，并对方向性偏差进行了分析。结果强调了这个基准测试作为推进多模态建模领域的重要工具的潜力，为提高模型在视觉和逻辑推理任务中的性能提供了一个专注和具有挑战性的环境。

Jun, 2024

大型语言模型中的跨语言迁移学习动态数据采样器

提出 ChatFlow 模型，通过跨语言迁移实现了大规模中文语言模型的高性能训练，包括大型语料库的收集与资源的利用、对齐跨语言表示以促进知识转移、使用动态数据采样器渐进式地将模型从无监督预训练过渡到有监督微调，实验证明了该方法在加速模型收敛和取得优越性能方面的优势。

May, 2024

ChEF: 一个综合评估框架用于对多模态大型语言模型进行标准化评估

通过构建全面的评估框架（ChEF），对多模态大语言模型（MLLMs）的能力和限制进行标准化和全面的评估，以及提出新的评估方法和模型集成工具包，以促进 MLLM 社区的进一步分析和发展。

Nov, 2023

F-Eval: 使用精细评估方法评估基本能力

我们提出了 F-Eval，这是一个双语评估基准，旨在评估大型语言模型的基本能力，包括表达能力、常识和逻辑。我们进行了 13 个先进 LLM 的评估，结果显示我们的评估方法与其他评估者相比具有更高的相关系数和更大的区别，并讨论了不同模型大小、维度和归一化方法的影响。我们期望 F-Eval 能促进对 LLMs 基本能力的研究。

Jan, 2024

ToolLLM: 促进大型语言模型掌握 16000 + 现实世界 API

通过引入 ToolLLM，一个包括数据构建、模型训练和评估的通用工具使用框架，我们展示了它在增强自然语言模型的规划和推理能力方面的显著影响。我们通过用 ChatGPT 创建一个工具使用指导数据集 ToolBench，并使用深度优先搜索决策树（DFSDT）扩展搜索空间，有效地获取有效的解决方案路径。通过对 LLaMA 进行微调后得到 ToolLLaMA，我们的评估器 ToolEval 显示 ToolLLaMA 在执行复杂指令和推广到未见过的 API 方面表现出卓越的能力，并与 ChatGPT 有着相当的性能。为了使流程更加实用，我们设计了一个神经 API 检索器以为每个指令推荐适当的 API，省去了手动选择 API 的繁琐步骤。

Jul, 2023

FollowEval: 评估大型语言模型指令遵循能力的多维度基准

这篇论文介绍了 FollowEval 基准测试，通过人工专家设计的测试实例来评估大型语言模型在指令跟随能力方面的表现，测试涵盖了字符串处理、常识推理、逻辑推理、空间推理和响应约束等五个关键维度，并发现这些模型在指令跟随能力方面明显落后于人类，指出了这些模型在这方面还有很大的改进空间。

Nov, 2023

FinEval：适用于大型语言模型的中文金融领域知识评估基准

使用 FinEval 基准测试，评估了当前中文和英文大型语言模型在金融领域知识方面的表现，结果显示只有 GPT-4 在不同提示设置下实现了接近 70% 的准确度，表明大型语言模型在金融领域知识方面具有显著的增长潜力。

Aug, 2023

结构化预测的评估度量的统一视角

我们提出一个概念框架，统一了不同结构预测任务（例如事件和关系提取，句法和语义解析）的各种评估指标。通过将这些任务的输出表示为某些数据类型的对象，并通过匹配共同子结构，可能跟随标准化，推导出指标。我们演示了如何用这个框架简洁地表达许多任务的常用指标，并显示可以自然地基于输出结构自下而上地推导出新的指标。我们发布了一个库，使得可以派生出新的指标。最后，我们考虑了任务的特定特性如何推动指标设计决策，并建议根据这些动机可能修改现有的指标。

Oct, 2023

TweetEval: 微博分类的统一基准和比较评估

本文提出了一个新的评估框架（TweetEval），由七个异构 Twitter-specific 分类任务组成，并提供了一组强基准作为起点，并比较了不同的语言建模预训练策略，初步实验表明使用现有的通用语言模型预训练，然后在 Twitter 集上继续训练是很有效的。

Oct, 2020