通过可解释的方言分类器提取方言的词汇特征
本文介绍了方言特征检测的任务,并提出了两种基于预训练转换器的多任务学习方法。评估结果表明,模型能够以很高的准确性识别许多特征,并且几个最小配对的样本可与成千上万个标注样本产生同样的效果。此外,方言特征检测具有方言密度和方言分类器的下游适用性。
Oct, 2020
本文研究语言特征的易受攻击性,分析了特征值变化和预测功效变化等两个层面,结果表明词汇特征比句法特征更容易受到攻击,然而句法特征的微小变化却比词汇特征更能影响后续的分类表现。三个数据集的验证证实了这些结果。
Sep, 2019
通过分析不同社会人群的评论数据,本研究旨在了解空间在线社交媒体评论数据中的语言和社会人口特征,包括英语语言风格、情感表达和词汇多样性。研究发现,这些特征在有效区分不同群体方面具有显著效果,其中使用 n-gram 词汇特征和基于 Transformer 模型的分类器表现最佳,准确率超过 95%,宏观 F1 分数超过 0.96。该研究的发现为进一步研究社交媒体平台上文本内容的人口模式提供了有价值的指导。
Nov, 2023
本文提出一种利用多语种文本预测 World Atlas of Language Structures(WALS)特征的方法,使用基于字节嵌入和卷积层构建的循环神经网络预测器,通过在 556 种语言上的测试表明一些各种语言类型的特征是可靠预测的
Apr, 2020
本研究提出了 SenteCon 方法,该方法将文本编码为可解释性类别,从而在保持特征性能的同时提高深度语言表示的可解释性。实验证明,SenteCon 编码语言提供高水平的可解释性,并在下游任务的预测性能方面优于现有的可解释性语言表示。
May, 2023
本文分析了基于句法表示的方言分类器在空间和时间上的稳定程度,并构建了一个测试集,评估了 12 种英语方言在 3 年内随时间变化的分类准确性和语法变化速率。通过在语用建构语法范式(CxG)中制定的句法表示,可以识别在时间和空间上发生语法变化的地区。本文的主要贡献在于表明严格评估方言分类模型可用于发现空间上的变异和时间上的变化。
Sep, 2022
本文通过全面评估最有影响力的最新大型语言模型(LLMs)在机器翻译和自动语音识别两个高使用频率应用领域上的功能,对多个高和低资源语言的地区方言进行了功能评估,并分析了地方方言差距与经济、社会和语言因素的相关性,从而为方言 NLP 领域的发展奠定基础,并通过有意识的数据收集,揭示明显的差异并寻找可能的解决途径。
Oct, 2023
本文探讨了自然语言变体的研究,通过识别语言特征(例如零 be 动词结构)在语料库中的分布情况,分析这些特征在不同语境中的变化,提出了一种基于人工编辑的自动检测方法,并在印度英语和非裔美国英语方面的实验中展示了该方法的有效性。
Sep, 2022