COMBO:先进的形态句法分析
该研究介绍了基于 COMBO 的 EUD 分析方法及其实现,其在 IWPT 2021 EUD 共享任务中获得了第四名,平均 ELAS 为 83.79%。
Jul, 2021
研究了模型组合在集成学习中的应用,设计并实现了一种易于使用的 Python 工具包 combo,可用于聚合数据和模型以进行分类、聚类和异常检测,并能够统一和一致地结合来自流行机器学习库(如 scikit-learn、XGBoost 和 LightGBM)的原始和预训练模型。
Sep, 2019
该研究提出了两个快速神经组合模型,用于句法分析,分别是二元模型和多分支模型,它们的理论复杂度是次二次的,实际复杂度较低,其中二元模型在 Penn Treebank 上取得了 92.54 的 F1 分数,并以 1327.2 个句子 / 秒的速度进行解析。同时,该模型结合 XLNet,准确率接近英文句法分析的最新水平,并能够观察到 Penn Treebank、Chinese Treebank 和 Keyaki Treebank(日本)在训练和推理过程中的句法倾向和头向性。
Jun, 2021
本文研究利用不同数据驱动系统之间的建模差异探讨如何应用投票策略和二级分类器来结合不同系统的输出,以提高词性标注任务的准确性,实验表明各种结合策略的标注器均优于它们的最佳组件,其中最佳组合标注器的错误率比最佳单个标注器低了 19.1%。
Jul, 1998
我们提供了一个开源网络服务,该服务用于捷克形态句法分析。该系统将深度学习模型与高精度形态词典的重评分相结合,在推理时能够显示超过两个竞争基准:深度学习模型确保了对于未在词汇表中的词汇的泛化和更好的消歧能力,从而优于现有的形态分析器 MorphoDiTa;同时,深度学习模型通过推理时利用手动精心编辑的形态词典来获益。相较于 MorphoDiTa,我们在词干化方面的误差减少了 50%,在词性标记方面的误差减少了 58%,同时还提供了依赖性分析。该模型是在目前最大的捷克形态句法语料库 PDT-C 1.0 上进行训练的,训练后的模型可以在此 https URL 上获取。我们将该工具提供为一个网络服务部署在此 https URL 上。源代码可以在 GitHub(此 https URL)上找到,配有用于简单使用的 Python 客户端。模型的文档可以在此 https URL 找到。
Jun, 2024
本文介绍了一个简单的神经模型,用于词形还原和形态标记,可以达到 20 种语言的最新结果,并表明联合形态标记和词形还原特别有助于低资源词形还原和形态复杂性较高的语言。
Apr, 2019
本文提出了一种基于神经网络序列标注器的词形标注方法,将词性标注中的词形标记视为复合标签并显式地建模其内部结构,同时在 49 种语言上表现出良好的效果。
Oct, 2018
本研究使用最快的基于模式的 NLP 方法,以提高其精度,从而为日语提供简单而准确的形态分析器,该方法可以每秒处理超过 1,000,000 个句子在现代 CPU 上,而与学习为基础的基线相比呈现出相当的准确性。
May, 2023
研究探讨了 NLP 工具在不同语言的应用情况以及针对语言结构差异进行的分析,指出哪些变量最影响语言建模的效果,通过计算词序和形态相似性指数等方法进行实证研究,最后通过多分类文本分类实验验证了研究结论。
Apr, 2020
本文研究了自动论文评分中预测整体得分的多种方法,包括预训练的神经网络模型、连贯性模型和混合模型。提出了一种新颖的方法,利用基于 prompt-learning NSP 的论文连贯性特征提取和表示,通过采用句法特征密集嵌入增强 BERT-based 模型的性能,并结合连贯性、句法信息和语义嵌入进行实验,证明了优越性能。进一步分析对未来的研究也有用处。
Nov, 2022