EMNLPOct, 2022

高度技术领域的非监督术语提取

TL;DR本文介绍了一个商业知识发现平台的术语提取子系统,采用全面且无监督注释器来跨越高度技术领域。该注释器通过将子词分词的新颖形态信号与使用通用领域预训练句子编码器计算的术语和主题以及内部术语相似度度量相结合,提取术语。通过在大型未标记语料库上运行 UA 生成的训练数据进行变压器模型的微调或预训练,使得此设置能够提高预测性能,同时减少 CPU 和 GPU 的推理延迟。该注释器为所有未标注语料库提供了非常有竞争力的基线。