Jan, 2024

德文文本嵌入聚类基准

TL;DR对不同领域中的聚类德语文本嵌入性能进行了基准评估,结果表明使用单语和多语模型进行评估的性能强劲且嵌入降维可以进一步改善聚类效果,另外,对德语 BERT 模型进行了持续预训练实验,结果显示在短文本中可能实现显著的性能改善。