LongBoX：评估基于 Transformer 的长序列临床任务

Nov, 2023

LongBoX：评估基于 Transformer 的长序列临床任务

LongBoX: Evaluating Transformers on Long-Sequence Clinical Tasks

Mihir Parmar, Aakanksha Naik, Himanshu Gupta, Disha Agrawal, Chitta Baral

TL;DR评估长序列处理能力的医学大型语言模型和模型性能，引入长序列数据集 LongBoX，初步实验证明医学和一般领域大型语言模型对长序列的处理存在困难，通过两种长序列处理技术（局部 - 全局注意力、Fusion-in-Decoder）的评估，得出虽然在某些数据集上分数有所提高，但仍有较大改进空间，并希望 LongBoX 有助于开发更有效的长序列技术。

Abstract

Many large language models (LLMs) for medicine have largely been evaluated on short texts, and their ability to handle longer sequences such as a complete electronic health record (EHR) has not been systematically explored. Assessing these models on →

large language models medical long sequences model performance long-sequence techniques

发现论文，激发创造

基于预训练语言模型的长篇临床文本比较研究

本研究提出了两种经过预训练的基于长序列 Transformer 模型的临床语言模型，它们能够有效地处理临床文本中的长期依赖关系，相较于传统短序列的模型，在十项基准测试任务中均取得了最先进的成果；该研究还提供了源代码和预训练的模型。

Jan, 2023

Longformer：长文档转换器

Longformer 是一种基于 Transformers 的模型，采用能够线性缩放序列长度的自注意力机制，使得处理数千个记号以上的文档变得容易；与先前的一些工作不同的是，Longformer 同时进行了预训练和下游任务的微调，并在 WikiHop 和 TriviaQA 等任务上取得了新的最优结果。此外，Longformer 还引入了 Longformer-Encoder-Decoder（LED）以支持长文档的生成序列对序列任务。

Apr, 2020

LongHealth：具有长医疗文件的问答基准

LLMs 在处理医疗保健领域的大量患者记录方面具有潜在的优势，但现有的基准测试不能充分评估 LLMs 在处理真实世界中的冗长临床数据方面的能力。通过提供包含 20 个详细虚构病例的 LongHealth 基准测试，每个案例包含 5090 至 6754 个单词，我们评估了九个开源 LLMs，并将 OpenAI 的专有成本效益高的 GPT-3.5 Turbo 作为比较。结果显示，Mixtral-8x7B-Instruct-v0.1 在从单个和多个患者文档中检索信息的任务上表现最好，但所有模型在需要识别缺失信息的任务中遇到了很大困难，强调了临床数据解释中需要改进的关键领域。然而，当前 LLMs 的准确性水平对于可靠的临床使用是不足的，尤其是在需要识别缺失信息的情景中。LongHealth 基准测试提供了在医疗保健环境中更真实的 LLMs 评估，并强调了进一步改进模型以实现安全有效的临床应用的需要。我们公开提供基准测试和评估代码。

Jan, 2024

临床长序列变压器：Clinical-Longformer 和 Clinical-BigBird

该研究介绍了一种基于 Transformer 的语言模型，通过使用稀疏的注意机制来扩展最大输入序列长度，从而取得了在多项基准任务中超越 ClinicalBERT 和其他短序列变压器的显著成果。

Jan, 2022

拓展与解释：解读超长语言模型

介绍了一种基于掩码采样过程（MSP）的方法，以解决长文本医疗领域的诊断预测问题。该方法可以识别出较多的临床信息文本块，并且比之前最先进的方法运行速度更快，可用于任何文本分类器。

Sep, 2022

探索长程临床笔记语言建模的最佳间隔

本研究探讨了利用 Longformer 进行长文本的适应性训练从而更好地处理医学领域中的电子病历，实现了 10% 的 F1 值提升。研究表明提高模型对较长临床笔记的处理能力有助于提升其性能，但为达到不同的目标变量的最佳性能，需要不同的截断间隔。

Oct, 2022

mLongT5：针对更长序列的多语言高效文本转换器

本文介绍了我们关于开发一种适用于处理长输入的多语言高效文本到文本转换器的工作，称为 mLongT5 (即在 LongT5 架构上构建并利用用于预训练 mT5 和 UL2 预训练任务的多语言数据集)，我们评估了该模型在各种多语言摘要和问答任务上的表现，并与现有的多语言模型（如 mBART 或 M-BERT）进行了比较，表明 mLongT5 相对于这些模型具有更强的性能。

May, 2023

生物医学和临床预训练模型对法语长文档的适应性：一项比较研究

比较了三种适用于长序列模型的适应策略，研究结果表明，用法文生物医学文本进一步预训练英文临床模型，优于将法文生物医学 BERT 转换为 Longformer 架构或从头预训练法文生物医学 Longformer，而对于命名实体识别任务，BERT 模型仍然是最高效的。

Feb, 2024

LongBench: 一个用于长篇上下文理解的双语多任务基准

通过引入 LongBench，对 8 个大型语言模型进行全面评估，我们发现商业模型（GPT-3.5-Turbo-16k）优于其他开源模型，但在更长的语境下仍存在困难；在较长序列上进行的缩放位置嵌入和微调，在长语境理解方面带来了实质性的改进；检索等上下文压缩技术对于长上下文能力较弱的模型带来了改进，但性能仍落后于具有强大长上下文理解能力的模型。

Aug, 2023

基于基准生物医学文本处理任务的大规模语言模型全面评估

最近，大型语言模型 (LLM) 在解决各种任务方面展现了令人印象深刻的能力。然而，尽管在各种任务中取得了成功，但以前的研究尚未调查它们在生物医学领域的能力。为此，本文旨在评估 LLMs 在基准生物医学任务中的性能。为此，我们对 26 个数据集中 6 个不同生物医学任务的 4 种流行 LLMs 进行了全面评估。据我们所知，这是第一次在生物医学领域对各种 LLMs 进行广泛评估和比较。有趣的是，基于我们的评估结果我们发现，在具有较小训练集的生物医学数据集中，零次矫正的 LLMs 甚至在效果上超过了当前最先进的生物医学模型。这表明，在大型文本语料库上进行预训练使 LLMs 在生物医学领域具有了相当专业的能力。我们还发现，在所有任务中没有单个 LLM 能够胜过其他 LLMs，不同 LLMs 的性能可能会因任务而异。尽管与在大型训练集上进行精细调整的生物医学模型相比，它们的性能仍然相当差，但我们的研究结果表明，LLMs 在缺乏大规模注释数据的各种生物医学任务中具有潜在的价值工具。

Oct, 2023