DFEE: 交互式数据流执行和评估工具包
FlowVQA 是一个新颖的基准测试,旨在评估多模态语言模型在使用流程图作为视觉上下文进行推理的能力,其组成包括来自三个不同内容来源的 2,272 张经过精心生成和人工验证的流程图像以及 22,413 个多样化的问答对,以测试一系列推理任务,包括信息定位、决策和逻辑推进。在开源和专有的多模态语言模型上进行了彻底的基准评估,使用了各种策略,并对方向性偏差进行了分析。结果强调了这个基准测试作为推进多模态建模领域的重要工具的潜力,为提高模型在视觉和逻辑推理任务中的性能提供了一个专注和具有挑战性的环境。
Jun, 2024
提出 ChatFlow 模型,通过跨语言迁移实现了大规模中文语言模型的高性能训练,包括大型语料库的收集与资源的利用、对齐跨语言表示以促进知识转移、使用动态数据采样器渐进式地将模型从无监督预训练过渡到有监督微调,实验证明了该方法在加速模型收敛和取得优越性能方面的优势。
May, 2024
通过构建全面的评估框架(ChEF),对多模态大语言模型(MLLMs)的能力和限制进行标准化和全面的评估,以及提出新的评估方法和模型集成工具包,以促进 MLLM 社区的进一步分析和发展。
Nov, 2023
我们提出了 F-Eval,这是一个双语评估基准,旨在评估大型语言模型的基本能力,包括表达能力、常识和逻辑。我们进行了 13 个先进 LLM 的评估,结果显示我们的评估方法与其他评估者相比具有更高的相关系数和更大的区别,并讨论了不同模型大小、维度和归一化方法的影响。我们期望 F-Eval 能促进对 LLMs 基本能力的研究。
Jan, 2024
通过引入 ToolLLM,一个包括数据构建、模型训练和评估的通用工具使用框架,我们展示了它在增强自然语言模型的规划和推理能力方面的显著影响。我们通过用 ChatGPT 创建一个工具使用指导数据集 ToolBench,并使用深度优先搜索决策树(DFSDT)扩展搜索空间,有效地获取有效的解决方案路径。通过对 LLaMA 进行微调后得到 ToolLLaMA,我们的评估器 ToolEval 显示 ToolLLaMA 在执行复杂指令和推广到未见过的 API 方面表现出卓越的能力,并与 ChatGPT 有着相当的性能。为了使流程更加实用,我们设计了一个神经 API 检索器以为每个指令推荐适当的 API,省去了手动选择 API 的繁琐步骤。
Jul, 2023
这篇论文介绍了 FollowEval 基准测试,通过人工专家设计的测试实例来评估大型语言模型在指令跟随能力方面的表现,测试涵盖了字符串处理、常识推理、逻辑推理、空间推理和响应约束等五个关键维度,并发现这些模型在指令跟随能力方面明显落后于人类,指出了这些模型在这方面还有很大的改进空间。
Nov, 2023
使用 FinEval 基准测试,评估了当前中文和英文大型语言模型在金融领域知识方面的表现,结果显示只有 GPT-4 在不同提示设置下实现了接近 70% 的准确度,表明大型语言模型在金融领域知识方面具有显著的增长潜力。
Aug, 2023
我们提出一个概念框架,统一了不同结构预测任务(例如事件和关系提取,句法和语义解析)的各种评估指标。通过将这些任务的输出表示为某些数据类型的对象,并通过匹配共同子结构,可能跟随标准化,推导出指标。我们演示了如何用这个框架简洁地表达许多任务的常用指标,并显示可以自然地基于输出结构自下而上地推导出新的指标。我们发布了一个库,使得可以派生出新的指标。最后,我们考虑了任务的特定特性如何推动指标设计决策,并建议根据这些动机可能修改现有的指标。
Oct, 2023
本文提出了一个新的评估框架(TweetEval),由七个异构 Twitter-specific 分类任务组成,并提供了一组强基准作为起点,并比较了不同的语言建模预训练策略,初步实验表明使用现有的通用语言模型预训练,然后在 Twitter 集上继续训练是很有效的。
Oct, 2020