使用 BERT 进行变音符号恢复并分析其在捷克语中的应用

May, 2021

使用 BERT 进行变音符号恢复并分析其在捷克语中的应用

Diacritics Restoration using BERT with Analysis on Czech language

Jakub Náplava, Milan Straka, Jana Straková

TL;DR本文提出了一种基于上下文化嵌入（BERT）的新型变音符号恢复体系结构，并在 12 种带有变音符号的语言上进行了评估。此外，我们对捷克语进行了详细的错误分析，最终我们对真实错误进行了分类。

Abstract

We propose a new architecture for diacritics restoration based on contextualized embeddings, namely bert, and we evaluate it on 12 languag

diacritics restoration contextualized embeddings bert multilingual error analysis

发现论文，激发创造

使用 ByT5 转换器模型纠正变音符号和错别字

本研究使用新开发的通用 ByT5 字节级 seq2seq transformer 模型，同时解决语言中的变音符号恢复和拼写错误的问题，在 13 种语言中展现强大的表现，相较于传统的拼写检查或基于词典的方法表现更佳。

Jan, 2022

Czert-- 用于语言表达的类波津 (BERT) 捷克模型

本文介绍了首个基于 BERT 和 ALBERT 架构的捷克语单语言表示模型的训练过程，使用超过 340,000 个句子进行预训练，并在 9 个数据集上超越了多语言模型的表现，同时在九个数据集上取得了新的最优结果。

Mar, 2021

语音数据集的自动重音恢复

使用预训练的 Whisper ASR 模型和基于 transformer 的音标恢复模型，从口语数据中生成粗略音标化的转录文本，作为额外输入，提高了自动音标恢复的性能。通过在同一领域和两个领域外测试集上进行实验证明，该模型相较于仅使用文本的等效模型，至少可以降低 5% 的音标错误率。这些结果凸显了当前基于文本的音标恢复模型在口语数据集上的不足，并为基于口语的音标恢复提供了新的基准。

Nov, 2023

BERT 模型自动标点恢复

本研究利用 BERT 模型自动还原英语和匈牙利语的标点符号，并通过 Ted Talks 和 Szeged Treebank 数据集的实验验证，得出在英语和匈牙利语上分别达到了 79.8 和 82.2 的宏平均 $F_1$- 分数。

Jan, 2021

用于轻量化变音符恢复的扩张卷积神经网络

本研究提出了一种基于一维膨胀卷积的字符级别方法，用于重建拉丁字母为基础、英语为主导的互联网语言环境中的发音符号。该方法比基于递归神经网络或语言建模的方法表现更佳，且适用于 Web 浏览器，尤其适用于匈牙利语等语言的应用。

Jan, 2022

捷克形态句法分析的开源网络服务与形态字典增强的深度学习

我们提供了一个开源网络服务，该服务用于捷克形态句法分析。该系统将深度学习模型与高精度形态词典的重评分相结合，在推理时能够显示超过两个竞争基准：深度学习模型确保了对于未在词汇表中的词汇的泛化和更好的消歧能力，从而优于现有的形态分析器 MorphoDiTa；同时，深度学习模型通过推理时利用手动精心编辑的形态词典来获益。相较于 MorphoDiTa，我们在词干化方面的误差减少了 50％，在词性标记方面的误差减少了 58％，同时还提供了依赖性分析。该模型是在目前最大的捷克形态句法语料库 PDT-C 1.0 上进行训练的，训练后的模型可以在此 https URL 上获取。我们将该工具提供为一个网络服务部署在此 https URL 上。源代码可以在 GitHub（此 https URL）上找到，配有用于简单使用的 Python 客户端。模型的文档可以在此 https URL 找到。

Jun, 2024

HistBERT：用于历时词汇语义分析的预训练语言模型

研究历史语料库数据对语言模型 BERT 训练的影响，从而提出一种预先训练的基于 HistBERT 的语言模型，并比较它与原始 BERT 在单词相似度和语义转化分析方面的表现，该工作强调，上下文语言嵌入在历史语言分析中的效果取决于输入文本的时态特征，并应谨慎应用此方法来研究历史语义变化。

Feb, 2022

拉丁 BERT: 古典语言学的上下文语言模型

我们介绍了 Latin BERT，它是一种针对拉丁语言的上下文语言模型。在多个案例研究中，我们展示了该模型在自然语言处理和传统学术研究中的多种应用，比如在所有三个拉丁语通用语义数据集上都取得了最新的最佳词性标注成果，并通过查询上下文最近邻实现了语义上信息化的搜索。

Sep, 2020

低资源场景下的语法错误修正

本文介绍了一个 Czech 语法纠错的新数据集 AKCES-GEC。我们证明使用合成平行语料库结合 Transformer 神经机器翻译模型可在 Czech，German 和 Russian 等多种语言的数据集上达到新的最高水平。AKCES-GEC 数据集已发表在 CC BY-NC-SA 4.0 许可下，GEC 模型源代码也可访问。

Oct, 2019

利用大规模多样化语料库的捷克文语法错误纠正

本文介绍了一个众多且多元的捷克语语料库，标注有语法错误纠正 (GEC) ，目的是为语法错误纠正领域贡献其他语言的稀缺数据资源。该语法错误纠正捷克语语料库 (GECCC) 提供了四个领域的各种文本，覆盖了从非英语母语写的高错误密度论文到期望错误较少的网站文本的错误分布。我们比较了几个捷克 GEC 系统，包括几个基于转换的系统，并为未来的研究设定了一个强有力的基准线。最后，我们把 GEC 公共的评价指标用人工判断与我们的数据相比较。我们在此 http URL 下公开了新的 Czech GEC 语料库，并遵守了 CC BY-SA 4.0 的许可协议。

Jan, 2022