关键词native language identification
搜索结果 - 8
- 大型语言模型进行母语识别
使用 LLMs(如 GPT-4)进行原生语言识别(NLI)的实验结果表明,GPT 模型在 NLI 分类上表现出色,在零样本设置下取得了 91.7%的性能记录。与以往的完全监督设置不同,LLMs 可以在无需限制于已知类别的情况下执行 NLI, - 使用 Big Bird 嵌入进行母语识别
本研究探讨了输入大小作为限制因素,并展示了使用 Big Bird 嵌入方法训练的分类器在 Reddit-L2 数据集上明显优于语言特征工程模型的性能,此方法的有效性和计算效率使其成为未来 NLI 研究的有希望的途径。
- 土耳其母语识别
本文首次将母语辨识(NLI)应用于土耳其语。我们使用土耳其学习者语料库,结合三种句法特征(CFG 生成规则、词性 n-gram 和功能词)来证明它们在该任务中的有效性。
- 使用 Transformer Adapter 扩展原声语言识别能力
本文介绍了一种基于 Transformer 解码器(GPT-2)的深度生成方法,以解决母语识别(NLI)的实际问题与限制,引入了 Transformer 适配器以提高内存限制和训练 / 推理速度,以扩展 NLI 应用于生产。
- 利用可解释机器学习揭示跨语言间的事实
本研究采用可解释的机器学习算法,分析了母语辨别任务的内部机制,以获得其分类决策的解释,并通过三个数据集研究了词汇、形态、句法和统计等语言特征在母语辨别和非母语辨别任务中的有效性。
- EMNLP避免以下主题:降低文本分类中的潜在混杂因素影响
本文提出了一种使用对抗性训练的方法,通过同时预测文本的标签和混淆因素,逐步地学习对话题无关的文本表示,以提高神经网络模型在母语识别任务中的泛化性能。
- 字符串核函数在母语识别中是否经得起时间考验?
一篇介绍用于 2017 年原生语种识别共享任务的机器学习方法的论文,该方法组合了几个内核(包括从文章或演讲转录中提取的字符 p-grams 和音频记录的低维表示),并使用核判别分析(KDA)来分类。使用该方法,研究团队在不同的竞赛分类中获得 - 使用堆叠泛化进行母语识别
我们用三种基于 Ensemble 的模型进行了一系列实验,测试了每种模型的多个配置和算法,并达到当前不同语言三个数据集中 NLI 的最高水平,同时我们还使用了统计显著性检验来比较 NLI 系统,展示我们的结果明显优于以往最佳水平,并提供了一