可聚合的上下文化词向量用于有效短语挖掘
我们提出了一种基于标准神经网络架构的简单,高效的令牌嵌入模型,并通过大量未注释的文本学习了令牌嵌入,评估它们作为基于少量注释的数据训练的词性标注器和依存分析器的特征,发现词嵌入在各种上下文窗口和训练集大小下都能一致优于基准预测模型。
Jun, 2017
本文提出了一种利用加权词向量嵌入学习无标注句子表示的无监督方法,通过TF-IDF变换提供的Shannon词熵拟合词向量的权重,选择不同的超参得出短期训练、在线推理的句子表示,经过与STS系统的对比表明,该方法在语义文本相似度模型中的表现已达到最优。
Oct, 2017
使用神经机器翻译将大型平行语料库的非英语部分翻译为英语,生成超过五千万个英语句子的同义句数据集PARANMT-50M,该数据集可用于同义句生成,提供丰富的语义知识以改善下游自然语言理解任务。我们使用PARANMT-50M训练了同义句嵌入,能在所有SemEval基于语义相似度的比赛中胜过所有监督系统,并展示了它在同义句生成中的应用。
Nov, 2017
本文提出了UCPhrase,一种新型的无监督上下文感知高质量短语标记器,它利用基于上下文一致性的词序列自动提取高质量短语,并通过基于变换器的神经网络和标签共同训练轻量级跨度预测模型识别表面名称或频率不同的高质量短语。该方法在语料库级别短语排名、文档级别关键词提取和句子级短语标记等任务方面,表现优于现有技术。
May, 2021
本文提出了一种对BERT进行微调的方法(Phrase-BERT),使其能够生成更强大的短语嵌入,Phrase-BERT利用一个由短语描述形式多样的同义词集以及从Books3语料库中挖掘的大规模情境短语数据集生成模型,并在各种短语级相似性任务中优于基线。 此外,该文还将Phrase-BERT嵌入式与简单的自编码器相结合,构建了一种利用向量空间中最近邻搜索将主题解释为词和短语混合的短语主题模型。 众包评估表明,该短语主题模型比基线的单词和短语级主题模型产生更一致和有意义的主题,进一步验证了Phrase-BERT的效用。
Sep, 2021
通过研究密集短语检索系统,探讨短语检索是否可以作为粗粒度检索(如段落和文档)的基础,并提出了短语过滤和矢量量化等方法,可以将检索索引的大小减小至原来的 4-10 倍,从而使得密集短语检索成为多粒度检索的实用解决方案。
Sep, 2021
提出了一种为训练和评估短语嵌入而创建的数据集 PiC,该数据集包含 ~28K 的名词短语及其上下文维基页面,该数据集有助于提高排序模型的准确性并且将跨度选择 (SS) 模型的性能推向近乎人类的精度水平,同时该文还发现该方法更好地捕捉了单词短语的共同含义。
Jul, 2022
本文提出了一种全无监督的文本编码方法,通过训练小型基于字符的模型重构预训练的嵌入矩阵,该方法不仅能够在技术领域匹配句子编码器的质量,而且比后者体积小5倍且速度高达10倍,解决了大规模技术领域下词汇量增加的问题。
May, 2023
我们提出了一个改进的框架来以无上下文的方式学习短语表示, 该框架使用短语类型分类作为辅助任务, 并更有效地将字符级信息融入短语表示, 通过设计三种不同程度的数据增强来增加训练样本的多样性, 我们的实验结果表明, 相对于先前的方法, 我们的方法生成了更优秀的短语嵌入, 同时还需要更小的模型大小。
Jan, 2024