利用单词的汉字进行词汇义原预测
该研究探索如何通过使用维基百科网站上的词语描述自动预测词汇语义单位(sememes),提出一种标签分布式序列到序列模型(LD-seq2seq)和一种新型软损失函数来解决这个弱序多标签任务,实验表明,相比于基线和人类标注者,该方法在测试集上取得了更好的表现。
Aug, 2018
通过 BabelNet,我们提出了建立一个统一的多语言语义元基础知识库的方法,将超过 15000 个单词的语义元手动标注,然后提出了两个模型来自动预测语义元素,最终通过定量和定性分析探索了任务中的重要因素和难题。
Dec, 2019
本研究旨在通过多模态信息融合模型,自动预测 BabelNet Synsets 的 Sememes,以此建立基于 BabelNet 的多语种语义知识库。实验结果表明,该模型相较于此前方法有着更佳的预测性能。
Mar, 2022
该研究提出了一种用 Sememe 来驱动语言模型的方法,使得语言模型能够通过对最小语义单元的学习(Semantics)来改善预测表现、提高解释性和鲁棒性。
Oct, 2018
本文提出了一种新的方法,利用单词结构并将词汇语义融入预训练模型的字符表示中,以加强单词信息的表达,通过词 - 字符对齐注意机制和集成方法来提高不同中文自然语言处理任务的性能,并进一步证明了模型各组件的有效性。
Jul, 2022
本文提出了一种基于现有词典完全自动地构建英文和法语语义知识库 (SKBs) 的简单方法,并进行了综合评估。实验结果表明,自动构建的英语 SKB 甚至优于需要数十年手动构建的 HowNet,在多个后续任务中,英语和法语 SKBs 都能带来明显的性能提升。
May, 2021
在语音识别领域,通过引入基于义原的语义知识信息(SememeASR),从知识驱动的角度改进了纯数据驱动方法的问题解决,提高了语音识别的有效性,并增强了模型对长尾数据的识别和领域泛化能力。
Sep, 2023
本文介绍了一个用于生成中文词汇释义的语料库(CDM),并且通过引入 Adaptive-Attention 模型和 Self- and Adaptive-Attention 模型等新模型,成功提升了中文释义生成的精度和效果。实验结果表明,该模型比现有的最先进模型的 BLEU 指标要高出 6.0 个百分点。
May, 2019
本文提出 SememeWSD Synonym(SWSDS)模型,通过使用 OpenHowNet 中的同义词集和词义消歧(WSD)来为多义词的每个意义指定不同的向量,验证结果表明与 Gensim 的 wmdistance 方法相比,SWSDS 模型提高了语义相似性的准确性。
Jun, 2022