基于图形半监督学习的形态句法词典生成
本研究介绍了一种新的全自动、无监督的从大型文本语料库中提取依赖语法和相关语法到语义关系映射的方法,若成功,该方法将使得直接从大型未注释语料库中挖掘出用于自然语言理解和生成的所有信息成为可能。
Jan, 2014
本研究提出基于参考图构建的多重参考图模型 (MRefG),通过将未标注的数据与已标注的数据建立语义或词汇上的关联来识别高质量的未标注样本。在两个公共数据集上的实验表明,我们的方法比当前最先进的基线方法有了显著的改进。
Oct, 2020
本文提出了一个基于在线语料库的算法来半自动生成语义词典,该算法能够从少量样例中提取类别的候选条目,比以前的工作找到更多正确的术语,并生成的条目具有比手工编码更广泛的覆盖范围和更多不包含在 Wordnet 中的术语,可视作现有广覆盖资源的增强器。
Aug, 2000
提出了一种利用标签中的语义信息提高数据利用率的新方法,通过构建一种标志为自然语言描述的语义图来训练辅助图神经网络,以提取高层语义关系并指导主模型的训练,在图像、视频和音频模态下,应用该方法在迁移学习和半监督学习场景中展示了显著提高性能的多样性,并且深入分析还表明该方法加速了训练过程。
Nov, 2023
本文提出了一种名为 “Lexicon-Syntax 增强多语言 BERT” 的新框架,该框架结合了词汇和句法知识,并通过多种技术增强其学习能力,在零样本跨语言传递的任务中取得了优异的成绩。
Apr, 2024
本文提出了使用句法图来表示三种句法信息(单词顺序,依赖关系和从属关系)的方法,并使用图到序列模型对句法图进行编码和解码逻辑形式。基准数据集上的实验结果表明,该模型与 Jobs640、ATIS 和 Geo880 的最新研究成果相当。对抗示例上的实验结果表明,通过编码更多的句法信息,该模型的鲁棒性也得到了提高。
Aug, 2018
本研究展示了如何通过部分语音序列对一个新语言的基本语序事实进行预测,并且通过大量的合成语言训练数据,将这个通常被认为是无监督学习的问题转化成了有监督学习,从而成功地识别了一个语言的 POS 序列的表面特征(手工特征或神经特征)与其更深层次的结构(潜在树)相关性。该系统在该任务上表现出色,比语法归纳基线高出一个很大的优势。
Oct, 2017
本文通过 Max-Margin Markov Graph Models (M3GM) 取得了 WordNet 数据集上新的最优成果,并且找到了一些构成良好词汇语义本体的多重关系模式。
Aug, 2018