AUTOLEX:一个自动语言探索框架
本研究介绍了一个自动框架,旨在通过自动发现和可视化语法的不同方面来促进语言教学,其中从自然语料库中提取描述单词排序、一致性、语法标记或词形成及词汇学习的描述,并显示例证。作者在印度语言 Kannada 和 Marathi 上应用此方法,以评估其实用性,并邀请北美的语言教育家对这些语言进行手动评估。教师们认为这些材料有趣,可以用作自己的课程准备或学习者评估的参考资料。
Jun, 2022
本文以 Universal Dependencies 项目为例,通过开发一种自动化框架实现从原始文本中提取语法规范,并聚焦于提取描述协议的规则。我们使用跨语言转移的方法,即使在语言专家的注释不可获得的情况下,也能提取出几乎等同于大量黄金标准注释数据所创建的语法规范。
Oct, 2020
本文探讨如何在没有专门的句法指导的语料库中从语料学习句法的可行性,以语料库的观察结构为基础,通过定义和隔离语法和意义 / 语用学信息,我们描绘了自主语法的形式特征,并展示了通过简单的优化过程搜索基于语法的词汇类别,而无需对模型形式做任何先验假设的可能性。
May, 2020
本研究介绍了一种新的全自动、无监督的从大型文本语料库中提取依赖语法和相关语法到语义关系映射的方法,若成功,该方法将使得直接从大型未注释语料库中挖掘出用于自然语言理解和生成的所有信息成为可能。
Jan, 2014
本文提出并应用一种 GUI 辅助框架,使我们能够轻松地探寻普遍依赖数据中所有形态句法特征所出现的大量语言。我们发现,反映了过去几年自然语言处理的西方中心趋势,mBERT 模型中揭示的大多数规律对于西欧语言而言是典型的。因此,我们提出了一个工具包,以系统化解决多语种模型中存在的缺陷,为 104 种语言和 80 种形态句法特征提供可重复的实验设置。
Oct, 2022
本研究介绍了一种基于大型语料库信息和词汇速写的新工具,用于自动生成详尽精确的单语词典中的单词释义,并重点计算名词释义的质量评估。该方法在某种程度上与语言无关,但本文介绍的验证则仅限于捷克语和英语,研究结果表明,该方法约 90% 的释义包含有助于理解单词含义的数据,但在许多情况下,需要进行后期编辑以去除冗余信息。
Feb, 2023
该论文介绍了基于新兴概念的词典的开发,聚焦于非技术创新。它引入了一种结合了人类专业知识、统计分析和机器学习技术的四步方法,建立了一个可以普遍适用于多个领域的模型。该方法证明了其稳健性和相关性,突出了其对各种环境的适应性和对词汇研究的贡献。所开发的方法有望在概念领域中得到应用。
Jun, 2024
本文提出了第一个适用于土耳其语的自动词汇简化系统,该系统利用预训练模型 BERT 和形态学特征来生成语法正确和语义恰当的单词级简化,以解决土耳其语作为低资源语言难以逼近的文本简化任务。
Jan, 2022