Jul, 2022

PiC:Phrase-in-Context 数据集,用于短语理解和语义搜索

TL;DR提出了一种为训练和评估短语嵌入而创建的数据集 PiC,该数据集包含 ~28K 的名词短语及其上下文维基页面,该数据集有助于提高排序模型的准确性并且将跨度选择 (SS) 模型的性能推向近乎人类的精度水平,同时该文还发现该方法更好地捕捉了单词短语的共同含义。