学习动态特征选择进行快速序列预测
通过将特征划分为有序的模板序列,使算法能够在保持准确性的前提下,减少计算量和加速训练,在多个 NLP 组件中能够得到应用,特别是在左到右的分词标注中表现出较好的效果。
Oct, 2014
本文提出了一种新的主动特征获取方法,使用 Lazy Model 和 Fisher scores 确定特征子集以在测试期间最大程度地提高预测性能同时最小化成本(即特征获取成本达到可接受的精度或预算限制),并在合成和实际数据集上进行了实验来证明其准确性和速度优势。
Jun, 2023
本文提出了使用基于转移的神经网络联合进行词性标注和依存分析的方法,实现了标签冲突、移位 / 归约冲突和标记冲突的解决。实验表明,我们的方法在各种自然语言的联合词性标注和依存分析方面明显优于之前的方法。
Apr, 2017
提供了一个新的框架,通过强化学习问题对活动特征获取问题进行建模,并引入了一种更系统完善的特征子集编码机制,该方法使用无序 LSTM-based 的集合编码机制来进行学习,从而在包含有缺失条目的情况下得到了很好的应用,并在活动特征获取方面性能均优于其他基线系统。
Sep, 2017
本文提出一种新的混合模型,使用事先训练好的基于自然语言处理(NLP)的 BERT 模型和基于 Jaccard 相似度的统计模型并行,用于匹配不同数据集中的特征,从而减少搜索相关性或手动匹配每个数据集中的特征所需的时间。
Mar, 2023
基于部分结果和功能策略,引入了一种算法来估计整个训练数据库中学习曲线的演变,迭代逼近所需时间的值,独立于学习技术的使用,并且在经过预测级别后,被证明在工作假设方面是正确的,使用户能够根据最终可达到的准确性设定收敛阈值的概念扩展,即使存在扭曲观测也似乎是有效的。我们的目标是评估培训工作量,支持决策制定,以减少在学习过程中对人力和计算资源的需求。该提案在至少三个操作过程中是有意义的,第一个是预测准确性的提升,以衡量达到一定性能水平所需的工作量,第二个是在训练时间内比较系统的效率,以仅完成最适合我们要求的系统的任务,同时准确性的预测也是定制系统的有价值信息,因为我们可以预先估计设置对性能和开发成本的影响。通过生成词性标注器作为示例应用程序,实验结果与我们的预期一致。
Feb, 2024
本文提出一种新的基于概率框架、结合形式语义和机器学习的方法,通过将谓词与其所指实体分开,利用贝叶斯推断来对逻辑形式进行推理,在使用受限玻尔兹曼机和前馈神经网络的组合实现这一框架之后,最终证明了该方法的可行性。
Jun, 2016
本文提出了用于中文分词和词性标注任务的特征丰富的神经模型,使用卷积和池化层模拟传统离散特征模型的特征模板,并结合循环层使用长距离依赖信息。实验结果表明,该模型的效果显著。
Nov, 2016
论文提出了一个基于最近邻学习和结构化推理的简单的少样本命名实体识别系统,使用一个有监督的 NER 模型在源领域上进行训练,作为特征提取器,提出了一种捕获实体标签之间标签依赖性的廉价但有效的方法,并将结构化解码与最近邻学习相结合,达到了先进的表现。该方法使得 F1 分数相对于以前基于元学习的系统提高了 6%至 16%的绝对值。
Oct, 2020
本研究探讨了基于序列标注的基础 NLP 任务,包括中文和英文的分词、词性标注以及命名实体识别,强调了将人工特征和神经网络特征结合可以提高最终模型的准确性。
Aug, 2017