native language identification | BriefGPT

关键词native language identification

搜索结果 - 8

大型语言模型进行母语识别
使用 LLMs（如 GPT-4）进行原生语言识别（NLI）的实验结果表明，GPT 模型在 NLI 分类上表现出色，在零样本设置下取得了 91.7％的性能记录。与以往的完全监督设置不同，LLMs 可以在无需限制于已知类别的情况下执行 NLI，
PDF7 months ago
使用 Big Bird 嵌入进行母语识别
本研究探讨了输入大小作为限制因素，并展示了使用 Big Bird 嵌入方法训练的分类器在 Reddit-L2 数据集上明显优于语言特征工程模型的性能，此方法的有效性和计算效率使其成为未来 NLI 研究的有希望的途径。
PDF10 months ago
土耳其母语识别
本文首次将母语辨识（NLI）应用于土耳其语。我们使用土耳其学习者语料库，结合三种句法特征（CFG 生成规则、词性 n-gram 和功能词）来证明它们在该任务中的有效性。
PDFa year ago
使用 Transformer Adapter 扩展原声语言识别能力
本文介绍了一种基于 Transformer 解码器（GPT-2）的深度生成方法，以解决母语识别（NLI）的实际问题与限制，引入了 Transformer 适配器以提高内存限制和训练 / 推理速度，以扩展 NLI 应用于生产。
PDF2 years ago
利用可解释机器学习揭示跨语言间的事实
本研究采用可解释的机器学习算法，分析了母语辨别任务的内部机制，以获得其分类决策的解释，并通过三个数据集研究了词汇、形态、句法和统计等语言特征在母语辨别和非母语辨别任务中的有效性。
PDF2 years ago
EMNLP避免以下主题：降低文本分类中的潜在混杂因素影响
本文提出了一种使用对抗性训练的方法，通过同时预测文本的标签和混淆因素，逐步地学习对话题无关的文本表示，以提高神经网络模型在母语识别任务中的泛化性能。
PDF5 years ago
字符串核函数在母语识别中是否经得起时间考验？
一篇介绍用于 2017 年原生语种识别共享任务的机器学习方法的论文，该方法组合了几个内核（包括从文章或演讲转录中提取的字符 p-grams 和音频记录的低维表示），并使用核判别分析（KDA）来分类。使用该方法，研究团队在不同的竞赛分类中获得
PDF7 years ago
使用堆叠泛化进行母语识别
我们用三种基于 Ensemble 的模型进行了一系列实验，测试了每种模型的多个配置和算法，并达到当前不同语言三个数据集中 NLI 的最高水平，同时我们还使用了统计显著性检验来比较 NLI 系统，展示我们的结果明显优于以往最佳水平，并提供了一
PDF7 years ago