使用 BERT 进行变音符号恢复并分析其在捷克语中的应用
本研究使用新开发的通用 ByT5 字节级 seq2seq transformer 模型,同时解决语言中的变音符号恢复和拼写错误的问题,在 13 种语言中展现强大的表现,相较于传统的拼写检查或基于词典的方法表现更佳。
Jan, 2022
本文介绍了首个基于 BERT 和 ALBERT 架构的捷克语单语言表示模型的训练过程,使用超过 340,000 个句子进行预训练,并在 9 个数据集上超越了多语言模型的表现,同时在九个数据集上取得了新的最优结果。
Mar, 2021
使用预训练的 Whisper ASR 模型和基于 transformer 的音标恢复模型,从口语数据中生成粗略音标化的转录文本,作为额外输入,提高了自动音标恢复的性能。通过在同一领域和两个领域外测试集上进行实验证明,该模型相较于仅使用文本的等效模型,至少可以降低 5% 的音标错误率。这些结果凸显了当前基于文本的音标恢复模型在口语数据集上的不足,并为基于口语的音标恢复提供了新的基准。
Nov, 2023
本研究利用 BERT 模型自动还原英语和匈牙利语的标点符号,并通过 Ted Talks 和 Szeged Treebank 数据集的实验验证,得出在英语和匈牙利语上分别达到了 79.8 和 82.2 的宏平均 $F_1$- 分数。
Jan, 2021
本研究提出了一种基于一维膨胀卷积的字符级别方法,用于重建拉丁字母为基础、英语为主导的互联网语言环境中的发音符号。该方法比基于递归神经网络或语言建模的方法表现更佳,且适用于 Web 浏览器,尤其适用于匈牙利语等语言的应用。
Jan, 2022
我们提供了一个开源网络服务,该服务用于捷克形态句法分析。该系统将深度学习模型与高精度形态词典的重评分相结合,在推理时能够显示超过两个竞争基准:深度学习模型确保了对于未在词汇表中的词汇的泛化和更好的消歧能力,从而优于现有的形态分析器 MorphoDiTa;同时,深度学习模型通过推理时利用手动精心编辑的形态词典来获益。相较于 MorphoDiTa,我们在词干化方面的误差减少了 50%,在词性标记方面的误差减少了 58%,同时还提供了依赖性分析。该模型是在目前最大的捷克形态句法语料库 PDT-C 1.0 上进行训练的,训练后的模型可以在此 https URL 上获取。我们将该工具提供为一个网络服务部署在此 https URL 上。源代码可以在 GitHub(此 https URL)上找到,配有用于简单使用的 Python 客户端。模型的文档可以在此 https URL 找到。
Jun, 2024
研究历史语料库数据对语言模型 BERT 训练的影响,从而提出一种预先训练的基于 HistBERT 的语言模型,并比较它与原始 BERT 在单词相似度和语义转化分析方面的表现,该工作强调,上下文语言嵌入在历史语言分析中的效果取决于输入文本的时态特征,并应谨慎应用此方法来研究历史语义变化。
Feb, 2022
我们介绍了 Latin BERT,它是一种针对拉丁语言的上下文语言模型。在多个案例研究中,我们展示了该模型在自然语言处理和传统学术研究中的多种应用,比如在所有三个拉丁语通用语义数据集上都取得了最新的最佳词性标注成果,并通过查询上下文最近邻实现了语义上信息化的搜索。
Sep, 2020
本文介绍了一个 Czech 语法纠错的新数据集 AKCES-GEC。我们证明使用合成平行语料库结合 Transformer 神经机器翻译模型可在 Czech,German 和 Russian 等多种语言的数据集上达到新的最高水平。AKCES-GEC 数据集已发表在 CC BY-NC-SA 4.0 许可下,GEC 模型源代码也可访问。
Oct, 2019
本文介绍了一个众多且多元的捷克语语料库,标注有语法错误纠正 (GEC) ,目的是为语法错误纠正领域贡献其他语言的稀缺数据资源。该语法错误纠正捷克语语料库 (GECCC) 提供了四个领域的各种文本,覆盖了从非英语母语写的高错误密度论文到期望错误较少的网站文本的错误分布。我们比较了几个捷克 GEC 系统,包括几个基于转换的系统,并为未来的研究设定了一个强有力的基准线。最后,我们把 GEC 公共的评价指标用人工判断与我们的数据相比较。我们在此 http URL 下公开了新的 Czech GEC 语料库,并遵守了 CC BY-SA 4.0 的许可协议。
Jan, 2022