Oct, 2023

语言模型在半结构化和非结构化对话数据集中的主题分割

TL;DR我们综合分析了现有的最先进主题分割模型在非结构化文本上的泛化能力,并发现充分训练目标非结构化领域的相对较小规模数据集可以显著提高分割结果。在对非结构化和半结构化聊天进行分割时,我们的实证评估表明,Focal Loss 函数是交叉熵和加权交叉熵损失函数的一个强大的替代方案。