RuMedBench: 俄语医学语言理解基准

Jan, 2022

RuMedBench: A Russian Medical Language Understanding Benchmark

Pavel Blinov, Arina Reshetnikova, Aleksandr Nesterov, Galina Zubkova, Vladimir Kokh

TL;DR该论文描述了一个开放的俄罗斯医学语言理解基准，包括分类、问答、自然语言推理、命名实体识别等多种任务类型，以及新的文本集合，提供统一格式标注、数据分割和评估指标，还实现了多个基准模型，从简单模型到具有变形金刚架构的神经网络模型，预计高级模型表现更好，但即使是简单模型在某些任务上也可以得到不错的结果。

Abstract

The paper describes the open russian medical language understanding benchmark covering several task types (classification, →

russian medical language understanding benchmark classification question answering natural language inference

发现论文，激发创造

DrBenchmark：法国生物医学领域的大型语言理解评估基准

首次公开提供的法语生物医学语言理解基准 DrBenchmark，评估 8 种最新的预训练掩码语言模型 (MLMs) 的通用和生物医学特定数据上的性能，以及英语特定的 MLMs 来评估它们的跨语言能力。

Feb, 2024

MedBench：一个用于评估医学大型语言模型的大规模中文基准

为了解决医学大语言模型的评估工作耗时且需要大量人力的问题，我们引入了 MedBench，这是一个综合性的基准测试，包括来自医学各领域的 40,041 个问题。通过对医学语言学习模型的知识掌握和推理能力进行评估，MedBench 建立了一个可靠的标准，揭示了医学大语言模型的能力和限制，以帮助医学研究社区。

Dec, 2023

RussianSuperGLUE: 俄语语言理解评测基准

本文介绍了一种先进的俄语语言理解评估基准 ——RussianGLUE，并提供了包括基线、人类评估、开源框架和总排行榜等丰富内容。我们还比较了多语言模型在适应性诊断测试集上的表现，并提出了进一步扩展或评估最先进模型的第一步。

Oct, 2020

KLEJ: 波兰语言理解的全面基准

本研究基于 Transformer 模型提出了一个基于多任务的波兰语言解析的测试基准，并介绍了针对该语言的 Transformer 模型 HerBERT，该模型在 9 个任务中表现最好，其中包括命名实体识别和情感分析等多个领域。

May, 2020

RuBioRoBERTa：用于俄语生物医学文本挖掘的预训练生物医学语言模型

本文介绍了基于 BERT 模型的俄语生物医学文本挖掘模型（RuBioBERT，RuBioRoBERTa）。这些模型在俄语医学领域的文本语料库上进行预训练，并在俄罗斯医学语言理解基准（RuMedBench）上展现了最新的成果，包括文本分类、问答、自然语言推断和命名实体识别。

Apr, 2022

NVIDIA NeMo WMT21 英德及英俄新闻和生物医学任务神经机器翻译系统

本文介绍了 NVIDIA NeMo 神经机器翻译系统在 WMT21 新闻和生物医学共享翻译任务的受限数据跟踪中的运用，其中新闻任务的提交在 Transform 器基础的序列到序列模型上，采用了多项技术手段并且获得了比去年任务最佳提交更好的表现，生物医学任务的提交则采取了医学相关文本来源和生物医学数据的训练集，而两个系统都在测试集上超越了去年任务的最佳提交。

Nov, 2021

MedExpQA: 多语言大型语言模型在医疗问题回答方面的基准评估

该论文介绍了 MedExpQA，一个基于医学考试的多语言基准，用于评估大型语言模型在医学问答中的表现，并指出目前大型语言模型的性能还有很大的改进空间，特别是对于英语以外的语言。同时，该研究还强调了获取和整合可用的医学知识对于医学问答的后续评估结果具有困难，并呼吁进一步开发其他语言的基准。

Apr, 2024

RJUA-MedDQA: 医学文件问题回答和临床推理的多模态基准测试

最近对大型语言模型 (LLMs) 和大型多模态模型 (LMMs) 的进展表明其在各种医疗应用中具有潜力，如智能医学诊断。本研究引入了综合医学专业领域的 RJUA-MedDQA 基准测试，用于全面解释各种医学报告的复杂性和专门的深入推理能力。我们设计了数据生成流程，并提出了高效的结构恢复注释 (ESRA) 方法，可显著提高注释效率并提供 26.8% 的准确率改进。通过使用 ESRA 方法生成的图像 - 文本，在 5 个能够解决中文医学问答任务的 LMMs 上进行了全面评估和少样本评估。我们对一组强大的 LLMs 进行了比较实验，发现现有的 LLMs 性能仍受限制，但与 LMMs 相比，LMMs 在低质量和多样化结构的图像上更加稳健。跨上下文和图像内容的推理具有重大挑战。希望此基准测试有助于推动多模态医学文档理解领域的研究并促进其在医疗健康领域的应用。

Feb, 2024

SCALE：高级语言模型评估复杂度的扩展

该研究引入了一个基于瑞士法律系统的多维 NLP 基准测试，包括长文本处理、领域特定知识拥有、多语言理解、多任务等挑战，该基准测试可以用于测试和推广最先进的 LLMs 模型。

Jun, 2023

RuSentEval：语言源，编码器力量！

本研究介绍了 RuSentEval 数据集，包含 14 项探测任务并应用多种探测方法探究 5 个多语言 Transformer 模型在俄语和英语上的语言属性分布，结果表明一些属性尽管在语言差异较大的情况下学习方式相似。

Feb, 2021