本文提出一种基于词频感知的令牌级对比学习方法,旨在从表示学习角度解决现代神经机器翻译系统中低频词预测的挑战。经实验证明,所提出的方法不仅可以显著提高翻译质量,还可以增加词汇多样性并优化词表示空间。与相关的自适应训练策略相比,该方法在不牺牲精度的前提下提高了低频词汇量的召回率稳健性。
Dec, 2021
本文系统研究了几种静态词向量嵌入中单词频率与语义相似性之间的关联,并发现高频单词之间的相似性更高。同时,本文还探究了单词频率对基于嵌入的性别偏见测量的影响,并证明通过操纵单词频率可使偏见发生倒转。
Nov, 2022
通过使用循环神经网络 (RNNs) 改进了模型训练的效率和性能,我们提出了基于 RNNs 的新的区分性的声学词嵌入 (AWE) 和声学基础词嵌入 (AGWE) 的方法;我们将这些发展扩展到几种低资源语言,并且在有限标记数据的情况下展示了多语言训练的性能提升;我们将这些嵌入模型应用于基于示例的语音搜索和自动语音识别等下游任务;最后,我们展示了我们的嵌入方法与最近的自监督语音模型的比较和补充。
Aug, 2023
本文提出一种从少量辅助数据中即时预测稀有词嵌入的方法,并在阅读理解、文本蕴含和语言建模等任务中,与仅在任务端训练的嵌入相比,展现了更好的结果。
Jun, 2017
该研究构建了一种基于语义词嵌入和频率信息的方法,用于捕捉短文本间的语义相似性并设计了基于权重模型和一种基于中位数损失函数的学习过程,实现得到低维度的文本表示,实验证明该方法在维基百科和 Twitter 数据上表现优异且具有较好的泛化性能。
Jul, 2016
本研究基于递归神经网络 (RNN) 提出了新的区分性嵌入模型,探讨了不同的训练损失,通过单词区分任务的评估发现,相比以往的模型,分类器和 Siamese RNNs 都有所改进,其中 Siamese RNNs 的表现更为优异,同时也对嵌入模型和网络结构等变量进行了分析。
Nov, 2016
本文提出了一种利用词典等词汇资源,采用图嵌入和跨语言向量空间转换技术,为未见过的单词诱导嵌入的方法,对多个基准测试进行了优化,表现出一致的性能提升。
Nov, 2018
本文研究了使用基于词嵌入的偏差度量方法在衡量女性和男性性别偏差时词频对结果的影响,并发现 Skip-gram with negative sampling 和 GloVe 往往会在高频词中检测到男性偏见,而 GloVe 往往会在低频词中检测到女性偏见,并进一步通过与基于点互信息的替代度量方法进行比较,证明了频率对度量结果的影响来自度量本身而非词汇相关性,这种影响是虚假和有问题的,因为偏见度量应该专门依赖于词共现而不是个体词频,尽管基于点互信息的度量略微偏向男性,但它并不表现出清晰的频率依赖关系。
Jan, 2023
本文提出两种具有不同目标函数的学习模型,用于基于查询 - 文档相关性信息学习单词表示,实验结果表明相对于 Word2vec 等基于词语相似度的模型,基于相关性的单词嵌入模型在查询扩展和查询分类等信息检索任务上具有显著优越性。
May, 2017
本研究用多视角学习、双向 LSTM 嵌入模型和多视角对比损失函数等方法学习神经音频单词嵌入,实现在语音检索和识别任务中避免模棱两可的子词表示,改善词汇区分效果,并在交叉视图词区分和词相似度等其他任务中展示了应用前景。