通过可解释的方言分类器提取方言的词汇特征

Feb, 2024

通过可解释的方言分类器提取方言的词汇特征

Extracting Lexical Features from Dialects via Interpretable Dialect Classifiers

Roy Xie, Orevaoghene Ahia, Yulia Tsvetkov, Antonios Anastasopoulos

TL;DR通过使用可解释的方言分类器，无论是否有人类专家，我们提供了一种提取方言区别词汇特征的新方法，并在普通话、意大利语和低萨克森语上进行实验，实验证明我们的方法成功地识别了导致方言变异的关键语言特定词汇特征。

Abstract

Identifying linguistic differences between dialects of a language often requires expert knowledge and meticulous human analysis. This is largely due to the complexity and nuance involved in studying various

linguistic differences dialects lexical features dialect classifiers dialectal variations

发现论文，激发创造

学习识别方言特征

本文介绍了方言特征检测的任务，并提出了两种基于预训练转换器的多任务学习方法。评估结果表明，模型能够以很高的准确性识别许多特征，并且几个最小配对的样本可与成千上万个标注样本产生同样的效果。此外，方言特征检测具有方言密度和方言分类器的下游适用性。

Oct, 2020

词汇特征更易受攻击，句法特征具有更强的预测能力

本文研究语言特征的易受攻击性，分析了特征值变化和预测功效变化等两个层面，结果表明词汇特征比句法特征更容易受到攻击，然而句法特征的微小变化却比词汇特征更能影响后续的分类表现。三个数据集的验证证实了这些结果。

Sep, 2019

理解人口多样化的空间社交媒体话语中的词汇和情感本体

通过分析不同社会人群的评论数据，本研究旨在了解空间在线社交媒体评论数据中的语言和社会人口特征，包括英语语言风格、情感表达和词汇多样性。研究发现，这些特征在有效区分不同群体方面具有显著效果，其中使用 n-gram 词汇特征和基于 Transformer 模型的分类器表现最佳，准确率超过 95%，宏观 F1 分数超过 0.96。该研究的发现为进一步研究社交媒体平台上文本内容的人口模式提供了有价值的指导。

Nov, 2023

通过多任务学习解开方言与社会偏见以提高公平性

方言、自然语言处理方法、偏见语言、公平性和多任务学习的关键字；使用多任务学习可以提高公平性，并更可靠地检测偏见语言的特性。

Jun, 2024

从文本中推断语言类型学特征：推理《世界语言结构地图》的稀疏特征

本文提出一种利用多语种文本预测 World Atlas of Language Structures（WALS）特征的方法，使用基于字节嵌入和卷积层构建的循环神经网络预测器，通过在 556 种语言上的测试表明一些各种语言类型的特征是可靠预测的

Apr, 2020

SenteCon：利用词库学习人类可解释的语言表示

本研究提出了 SenteCon 方法，该方法将文本编码为可解释性类别，从而在保持特征性能的同时提高深度语言表示的可解释性。实验证明，SenteCon 编码语言提供高水平的可解释性，并在下游任务的预测性能方面优于现有的可解释性语言表示。

May, 2023

句法方言分类的时空稳定性

本文分析了基于句法表示的方言分类器在空间和时间上的稳定程度，并构建了一个测试集，评估了 12 种英语方言在 3 年内随时间变化的分类准确性和语法变化速率。通过在语用建构语法范式（CxG）中制定的句法表示，可以识别在时间和空间上发生语法变化的地区。本文的主要贡献在于表明严格评估方言分类模型可用于发现空间上的变异和时间上的变化。

Sep, 2022

量化方言差异及其与语言之间的关联

本文通过全面评估最有影响力的最新大型语言模型（LLMs）在机器翻译和自动语音识别两个高使用频率应用领域上的功能，对多个高和低资源语言的地区方言进行了功能评估，并分析了地方方言差距与经济、社会和语言因素的相关性，从而为方言 NLP 领域的发展奠定基础，并通过有意识的数据收集，揭示明显的差异并寻找可能的解决途径。

Oct, 2023

基于语料库的对照集用于检测低资源英语种类中的形态句法特征

本文探讨了自然语言变体的研究，通过识别语言特征（例如零 be 动词结构）在语料库中的分布情况，分析这些特征在不同语境中的变化，提出了一种基于人工编辑的自动检测方法，并在印度英语和非裔美国英语方面的实验中展示了该方法的有效性。

Sep, 2022

某一语言方言的自然语言处理：一项调查

该论文调查了自然语言处理中方言的重要性，描述了不同方言数据集和方法，对方言的研究超过了仅仅方言分类的工作，对构建具有公平性的语言技术有重要意义。

Jan, 2024