HeRo: RoBERTa 和 Longformer 希伯来语语言模型

Apr, 2023

HeRo: RoBERTa 和 Longformer 希伯来语语言模型

HeRo: RoBERTa and Longformer Hebrew Language Models

Vitaly Shalumov, Harel Haskey

TL;DR本文提供了 HeDC4 数据集、HeRo 和 LongHeRo 两种语言模型和用于情感分析、实体识别、问答和文档分类等任务的表现，它们在希伯来语 NLP 领域填补了现有资源之间的不足，并在所涉领域中取得了最先进的性能表现。

Abstract

In this paper, we fill in an existing gap in resources available to the hebrew nlp community by providing it with the largest so far pre-train dataset HeDC4, a state-of-the-art pre-trained →

hebrew nlp pre-train dataset language model sentiment analysis document classification

发现论文，激发创造

利用 BERT 语言模型进行阿拉伯语长文档分类

本文针对大量阿拉伯文文档分类问题，提出了两种简单而有效的机器学习模型，并对比了 RoBERT 和 Longformer 两个模型在不同数据集上的结果，结果显示我们的模型表现更优秀。

May, 2023

基于预训练语言模型的长篇临床文本比较研究

本研究提出了两种经过预训练的基于长序列 Transformer 模型的临床语言模型，它们能够有效地处理临床文本中的长期依赖关系，相较于传统短序列的模型，在十项基准测试任务中均取得了最先进的成果；该研究还提供了源代码和预训练的模型。

Jan, 2023

Longformer：长文档转换器

Longformer 是一种基于 Transformers 的模型，采用能够线性缩放序列长度的自注意力机制，使得处理数千个记号以上的文档变得容易；与先前的一些工作不同的是，Longformer 同时进行了预训练和下游任务的微调，并在 WikiHop 和 TriviaQA 等任务上取得了新的最优结果。此外，Longformer 还引入了 Longformer-Encoder-Decoder（LED）以支持长文档的生成序列对序列任务。

Apr, 2020

HeBERT＆HebEMO：一种希伯来 BERT 模型和用于情感极性分析的工具

该研究介绍了 HeBERT 和 HebEMO，HeBERT 是基于 BERT 构架的适用于现代希伯来语文本的转换器模型，通过分析多个 BERT 规范，该模型在语言任务上的性能表现优于现有的希伯来语文本处理模型；HebEMO 是一个使用 HeBERT 识别极性并从希伯来 UGS 中提取情绪的工具，在 COVID-19 相关的 UGS 数据集上训练，取得了情绪分类的很高 F1-score，表现优于英语情绪检测模型。

Feb, 2021

AlephBERT：一个适用于希伯来自然语言处理应用的大型预训练语言模型

本文介绍了 AlephBERT，一个用于现代希伯来语的大型预训练语言模型，使用该模型在多个希伯来语任务和基准测试中提供了新的最先进结果，包括分词、词性标注、完整的形态标注、命名实体识别和情感分析，并公开了模型。

Apr, 2021

RobBERT: 一种基于 RoBERTa 的荷兰语言模型

本研究使用 RobBERT 作为荷兰语预训练模型，对各种任务的执行效果进行了测量，包括用于微调的数据集规模的重要性以及模型的公平性。研究发现，RobBERT 在各种任务上都可以提供良好的性能，并且在处理较小的数据集时明显优于其他模型，这表明它是适用于多种荷兰语任务的功能强大的预训练模型。

Jan, 2020

GottBERT: 纯德语语言模型

该研究介绍了 GottBERT，它是德语单语言 RoBERTa 模型的首次发布，并成功在命名实体识别任务和文本分类任务上超越了其他测试的德语和多语种模型，以期支持德语自然语言处理领域。

Dec, 2020

面向历史德语的鲁棒命名实体识别

应用预训练的基于字符的语言模型，成功提升了历史德语低资源命名实体识别准确性，并相较于经典 CRF-based 方法和 Bi-LSTMs，提高了高达 6% 的 F1 得分表现。

Jun, 2019

hmBERT: 历史多语言语言模型用于命名实体识别

本篇研究讨论了针对历史文本进行命名实体识别的挑战，并提出使用大型历史语言模型 hmBERT 预训练来解决标注数据不充足的问题，并使用 HIPE-2022 共享任务来评估模型性能。

May, 2022

LongBoX：评估基于 Transformer 的长序列临床任务

评估长序列处理能力的医学大型语言模型和模型性能，引入长序列数据集 LongBoX，初步实验证明医学和一般领域大型语言模型对长序列的处理存在困难，通过两种长序列处理技术（局部 - 全局注意力、Fusion-in-Decoder）的评估，得出虽然在某些数据集上分数有所提高，但仍有较大改进空间，并希望 LongBoX 有助于开发更有效的长序列技术。

Nov, 2023