多语言方言检测的两阶段管道
本报告展示了 2023 年 VarDial 评估活动的共享任务结果。该活动是第十届自然语言处理(NLP)工作坊的一部分,涉及低资源语言的槽和意向检测,相似语言鉴别等任务。
May, 2023
本文介绍了一种无监督的语言模型适应方法,可以用来增强语言识别方法的性能。该方法应用于现有版本的 HeLI 语言识别方法,并在德语方言识别和 Indo-Aryan 语言识别共享任务中得到了高于先前 HeLI 方法和其他参与共享任务的系统的 F1 分数的结果。结果表明,应该在所有语言识别任务中考虑无监督的语言模型适应方法,特别是在可能遇到领域外数据的情况下。
Mar, 2019
该研究报告通过使用不同类型的语言模型并利用数据增强技术,提出了一种结合方法,旨在改善南斯拉夫南方微方言上大规模语言模型(LLMs)的通识推理能力评估,通过实验证明数据增强技术能够显著提升开源型模型类别在三个南斯拉夫方言(Chakavian、Cherkano 和 Torlak)的测试数据集上的性能,突出了数据增强的实际效用和 LLMs 在处理非标准方言方面的潜力以推进低资源和方言环境下的自然语言理解。
Apr, 2024
该研究提出了对 “Nuanced Arabic Dialect Identification (NADI) Shared Task 2023” 的方法,着重介绍了处理与国家级方言识别相关的子任务 1 的方法。该研究利用使用涵盖 18 种方言的 Twitter 数据集(TWT-2023)进行多类别分类问题的研究,采用基于 transformer 的预训练模型进行国家级方言识别,并利用集成方法提高了系统的性能,在测试数据集中取得了 76.65 的 F1 得分(排名第 11 位)。
Nov, 2023
本文介绍了团队 HWR 在 VarDial 2021 举办的 Dravidian Language Identification (DLI) 共享任务期间提交的内容,包括使用自适应语言模型的朴素贝叶斯分类器和基于 Transformer 的模型进行的实验,以及在语言识别相关任务中深度学习方法的表现不如其他文本分类任务这一研究发现。
Mar, 2021
本文介绍了 Mawdoo3 AI 团队开发的预训练 BERT 模型的表现,以及该模型在 Nuanced Arabic Dialect Identification(NADI)共享任务的子任务 1 中获胜的过程和方法,并公开了 Multi-dialect-Arabic-BERT 模型的预训练语言模型组件,供其他研究人员使用。
Jul, 2020
该研究针对阿拉伯方言识别的国家级方言识别这一子任务,对表面预处理、形态预处理、FastText 向量模型和 TF-IDF 特征的加权拼接等多个关键因素进行深入分析,使用线性支持向量分类(LSVC)模型进行分类,并取得了显著成果,F1 得分为 62.51%,接近于该子任务所提交其他系统的平均 F1 得分 72.91%。
Dec, 2023
通过使用 aligned data augmentation 技术增强语言多样性和 deep prefix tuning 方法进行方言适应,Tallinn University of Technology(TalTech)在 ASRU MADASR 2023 Challenge 的两个轨道中都取得了显著的改进,并实现了参与团队中最低的词错误率。
Oct, 2023
本文介绍了 DSL True Labels (DSL-TL),这是第一个人工标注的多语言类别识别数据集,并介绍了使用此数据集训练出的多个模型以区分语言类别的结果,这为开发更强大和更公平的语言类别识别系统提供了可靠的基准,并免费提供给研究社区。
Mar, 2023