Jan, 2024

大型语言模型不是你所需的全部

TL;DR本文描述了解决 SemEval 2023 Task 2:MultiCoNER II(多语言复杂命名实体识别)问题所构建的体系结构和系统。我们评估了两种方法:传统的条件随机场模型和经过自定义头部微调的大型语言模型(LLM),并比较了这两种方法。我们探索的新想法有:1)衰减辅助损失(带剩余项)- 在模型上训练粗粒度 NER 的辅助任务并将其包括在损失函数的一部分中;2)三元标记混合 - 探索在最终 NER 层中预测之前混合相邻标记的嵌入方式;3)任务最优头部 - 探索各种用于 LLM 最终层的自定义头部和学习率。我们还尝试了多个 LLM,包括 GPT-3,并在最终模型中使用了多种 dropout 和其他超参数设置,该模型在开发数据上达到了 0.85/0.84 的微观和宏观 F1 值,并在测试数据上达到了 0.67/0.61。我们证明,虽然预训练的 LLM 本身相对传统模型带来了很大的改进,但通过上述额外特征 / 损失 / 模型工程技术的增强,我们还可以显著提高宏观 F1 分数。