多语言方言检测的两阶段管道

Mar, 2023

Two-stage Pipeline for Multilingual Dialect Detection

Ankit Vaidya, Aditya Kane

TL;DR在 VarDial 2023 共享任务中，我们提出了一种基于两阶段系统的方法，能够对两种或三种语言的方言进行分类， Track-1 获得了 58.54% 的得分和 Track-2 获得了 85.61% 的得分，优于该领域其他参与者的系统和以往研究成果。

Abstract

dialect identification is a crucial task for localizing various Large language models. This paper outlines our approach to the vardial 2023

dialect identification language models vardial 2023 two-stage system classification

发现论文，激发创造

VarDial 2023 评估运动的发现

本报告展示了 2023 年 VarDial 评估活动的共享任务结果。该活动是第十届自然语言处理（NLP）工作坊的一部分，涉及低资源语言的槽和意向检测，相似语言鉴别等任务。

May, 2023

适应语言模型的文本语言和方言识别

本文介绍了一种无监督的语言模型适应方法，可以用来增强语言识别方法的性能。该方法应用于现有版本的 HeLI 语言识别方法，并在德语方言识别和 Indo-Aryan 语言识别共享任务中得到了高于先前 HeLI 方法和其他参与共享任务的系统的 F1 分数的结果。结果表明，应该在所有语言识别任务中考虑无监督的语言模型适应方法，特别是在可能遇到领域外数据的情况下。

Mar, 2019

基于数据增强的方言调适对 LLMs

该研究报告通过使用不同类型的语言模型并利用数据增强技术，提出了一种结合方法，旨在改善南斯拉夫南方微方言上大规模语言模型（LLMs）的通识推理能力评估，通过实验证明数据增强技术能够显著提升开源型模型类别在三个南斯拉夫方言（Chakavian、Cherkano 和 Torlak）的测试数据集上的性能，突出了数据增强的实际效用和 LLMs 在处理非标准方言方面的潜力以推进低资源和方言环境下的自然语言理解。

Apr, 2024

2023 年 NADI 共享任务中的 Mavericks：使用基于 Transformer 的方法解开方言辨识中的区域细微差别

该研究提出了对 “Nuanced Arabic Dialect Identification (NADI) Shared Task 2023” 的方法，着重介绍了处理与国家级方言识别相关的子任务 1 的方法。该研究利用使用涵盖 18 种方言的 Twitter 数据集（TWT-2023）进行多类别分类问题的研究，采用基于 transformer 的预训练模型进行国家级方言识别，并利用集成方法提高了系统的性能，在测试数据集中取得了 76.65 的 F1 得分（排名第 11 位）。

Nov, 2023

比较达罗毗荼语言识别方法

本文介绍了团队 HWR 在 VarDial 2021 举办的 Dravidian Language Identification (DLI) 共享任务期间提交的内容，包括使用自适应语言模型的朴素贝叶斯分类器和基于 Transformer 的模型进行的实验，以及在语言识别相关任务中深度学习方法的表现不如其他文本分类任务这一研究发现。

Mar, 2021

为国家级方言识别创建的多方言阿拉伯 BERT

本文介绍了 Mawdoo3 AI 团队开发的预训练 BERT 模型的表现，以及该模型在 Nuanced Arabic Dialect Identification（NADI）共享任务的子任务 1 中获胜的过程和方法，并公开了 Multi-dialect-Arabic-BERT 模型的预训练语言模型组件，供其他研究人员使用。

Jul, 2020

UnibucKernel Reloaded：两年连续获得阿拉伯方言辨别竞赛第一名

使用浅层而简单的多核学习方法，有效地提高了阿拉伯方言识别的精度。

May, 2018

USTHB 参加 NADI 2023 共享任务：探索阿拉伯方言识别的预处理和特征工程策略

该研究针对阿拉伯方言识别的国家级方言识别这一子任务，对表面预处理、形态预处理、FastText 向量模型和 TF-IDF 特征的加权拼接等多个关键因素进行深入分析，使用线性支持向量分类（LSVC）模型进行分类，并取得了显著成果，F1 得分为 62.51%，接近于该子任务所提交其他系统的平均 F1 得分 72.91%。

Dec, 2023

低资源自动语音识别的方言适应和数据增强：MADASR 2023 挑战中的 TalTech 系统

通过使用 aligned data augmentation 技术增强语言多样性和 deep prefix tuning 方法进行方言适应，Tallinn University of Technology（TalTech）在 ASRU MADASR 2023 Challenge 的两个轨道中都取得了显著的改进，并实现了参与团队中最低的词错误率。

Oct, 2023

使用真实标签进行语言种类识别

本文介绍了 DSL True Labels (DSL-TL)，这是第一个人工标注的多语言类别识别数据集，并介绍了使用此数据集训练出的多个模型以区分语言类别的结果，这为开发更强大和更公平的语言类别识别系统提供了可靠的基准，并免费提供给研究社区。

Mar, 2023