本文系统研究了几种静态词向量嵌入中单词频率与语义相似性之间的关联,并发现高频单词之间的相似性更高。同时,本文还探究了单词频率对基于嵌入的性别偏见测量的影响,并证明通过操纵单词频率可使偏见发生倒转。
Nov, 2022
使用长度和词频作为语料中单词重要性的衡量,通过 word2vec 神经网络提取语法和语义特征,将单词映射到二维平面并自动排名。
Aug, 2015
提出了一种新模型,通过给类似语境中出现的单词重新分配其权重,模拟了在相似语境中单词之间的语义共享,并将其纳入单词袋文档表示法中,从而在无监督设置下在难度逐渐增加的数据集上获得了最好的微观和宏观 F1 分数,针对的研究主题是单词嵌入和语义含义。
Jun, 2019
本研究提出一种基于自然语言推理和释义识别的模型训练方法,通过解释预测模型的预测结果,得到每个输入标记的重要性分数,并可以分析其语法特征,可用于识别训练中没有明确标记的句子中的重要单词。
May, 2023
该研究提出了一种基于语言影响力的新方法来量化文献对后续出版物内容的影响程度,并通过测量高维度的 Hawkes 过程来预测未来引用次数。
Oct, 2022
该研究是关于使用基于计数的模型来提取文本的语义表征,使用 Hellinger 距离用于处理大型语料库中的单词共现统计数据,并获得了很好的性能表现。
Dec, 2014
本文提出了一种基于分布式相似性的概率词汇联想模型,用于估算先前未见过的词组的概率,并在语音识别中获得了显着的错误率降低和复杂性改进。
May, 1994
该研究提出了两种新的内部评估方法,旨在全面评估语言模型的性能。他们发现,传统的评价方法偏向于高频词汇,而不能全面地评价模型的性能。
Oct, 2020
研究了基于单词嵌入和 tf-idf 相似性的方法,用于匹配短文本片段,并得出使用两种方法的混合方法可以更好地模拟非常短的文本片段中的语义内容。
Dec, 2015
本文提出了一种基于向量空间模型的自动化文本匿名化方法,可用于保护作者的身份,并且实现了差分隐私,防止被重新辨认。实验结果表明此方法对于文本分类任务的准确性影响较小,但对于作者识别技术的准确性影响很大。
May, 2018