LOT：面向叙事的中文长文本理解与生成基准评测

ACLAug, 2021

LOT：面向叙事的中文长文本理解与生成基准评测

LOT: A Story-Centric Benchmark for Evaluating Chinese Long Text Understanding and Generation

Jian Guan, Zhuoer Feng, Yamei Chen, Ruilin He, Xiaoxi Mao...

TL;DR为了评估和公平比较不同模型的长文本处理能力，我们提出了一个名为 LOT 的以故事为中心的基准测试，并发布了一个名为 LongLM 的编码器 - 解码器型中文长文本预训练模型，训练了两个生成任务和 120G 中文小说，LongLM 在 LOT 中表现出在不同理解和生成任务方面优异的性能，胜过同等规模的预训练模型。

Abstract

Standard multi-task benchmarks are essential for developing pretraining models that can generalize to various downstream tasks. Existing benchmarks for natural language processing (nlp) usually focus only on unde

multi-task benchmarks nlp long text modeling chinese models pretraining model

发现论文，激发创造

LongBench: 一个用于长篇上下文理解的双语多任务基准

通过引入 LongBench，对 8 个大型语言模型进行全面评估，我们发现商业模型（GPT-3.5-Turbo-16k）优于其他开源模型，但在更长的语境下仍存在困难；在较长序列上进行的缩放位置嵌入和微调，在长语境理解方面带来了实质性的改进；检索等上下文压缩技术对于长上下文能力较弱的模型带来了改进，但性能仍落后于具有强大长上下文理解能力的模型。

Aug, 2023

CLongEval: 用于评估长文本大语言模型的中文基准

我们提出了一个用于评估长文本上下文下的大型语言模型的全面中文基准测试 ——CLongEval，特点是足够的数据量、广泛的适用性和高质量。通过对 6 个开源长文本上下文大型语言模型和 2 个领先的商业对手进行评估，我们对长文本上下文模型的关键能力进行了深入分析，并提供了数据集、评估脚本和模型输出。

Mar, 2024

推进传统中文语言模型的评估：朝着综合基准套件迈进

评估大型语言模型在语言理解和生成领域中是一项重要任务。我们提出了一套新的基准测试，利用现有的英文数据集，并专门针对评估传统汉语语言模型进行调整，包括问答、摘要、分类和表格理解等任务。评估结果表明，我们的模型在部分评估能力方面达到了与 GPT-3.5 相媲美的性能。为了推进传统汉语语言模型的评估并激发更多研究，我们已经开源了我们的基准测试并开放了模型供试用。

Sep, 2023

XL$^2$Bench：极长上下文理解与长距离依赖的基准测试

我们介绍了一个长文本理解的基准测试 XL2Bench，其中包含三个场景：小说阅读、论文阅读和法律阅读，以及四个难度递增的任务：记忆检索、细节理解、整体理解和开放式生成，涵盖了 27 个子任务，用英文和中文表示，平均长度为 100K + 词（英文）和 200K + 字符（中文）。我们评估了六个领先的大型语言模型在 XL2Bench 上的表现，发现它们的性能明显落后于人类水平。此外，我们观察到在原始数据集和增强数据集上的性能下降，凸显了我们缓解数据污染的方法的有效性。

Apr, 2024

SCALE：高级语言模型评估复杂度的扩展

该研究引入了一个基于瑞士法律系统的多维 NLP 基准测试，包括长文本处理、领域特定知识拥有、多语言理解、多任务等挑战，该基准测试可以用于测试和推广最先进的 LLMs 模型。

Jun, 2023

CT-Eval: 大型语言模型中中国文本到表格性能的基准评估

通过构建一个中文文本到表格的数据集 CT-Eval，并利用该数据集评估开源和闭源的大型语言模型 (包括 GPT-4) 的性能，研究结果显示零翻译大型语言模型仍然与人类判断存在明显的性能差距，但经过微调后，开源的大型语言模型的文本到表格能力可以显著提高，超过了 GPT-4 很大的程度。这表明 CT-Eval 不仅可以帮助研究人员评估和快速了解现有大型语言模型的中文文本到表格能力，还可作为极大提升大型语言模型文本到表格性能的宝贵资源。

May, 2024

大型语言模型在自然语言生成任务中的系统评估

研究论文从自然语言生成任务的角度全面评估了 ChatGPT、ChatGLM、基于 T5 的模型、基于 LLaMA 的模型和基于 Pythia 的模型等众所周知且表现良好的大型语言模型的性能，并提出了一种常见的评估设置，其中包括输入模板和后处理策略，通过与详细分析相结合的自动结果来报告研究结果。

May, 2024

CMMLU: 用于测量中文海量多任务语言理解的工具

本文介绍了一个涵盖自然科学、社会科学、工程学和人文学科等多个领域的全面中文基准 CMMLU，并通过评估 18 种面向性能的多语言和中文 LLMs，在不同的主题和设置下评估它们的性能，结果显示，大多数现有 LLM 在提供上下文示例和思维链提示时仍然难以达到 50% 的平均准确性，而随机基准线为 25%，这凸显出 LLMs 有显着的改进空间。

Jun, 2023

中文细粒度 LLM：预训练中心化大型语言模型

通过引入 CT-LLM，这项研究介绍了一个 2B 规模的大型语言模型（LLM），以优先考虑中文语言的发展。这项研究挑战了在英文语料库上培训 LLMs 并将其适应其他语言的常规模式，为 LLM 培训方法学的拓宽开创了新的可能性。

Apr, 2024

揭示情感的潜力：大型语言模型是否能够预测中国股市价格趋势？

该研究提供了一个严谨和全面的基准以及一个标准化的回测框架，以客观评估各种类型的 LLM 在从中国新闻文本数据中提取情感因子方面的有效性，从而支持大规模语言模型在量化交易策略中的应用。

Jun, 2023