Nov, 2023

旅游领域多语言社交内容的最佳分析策略

TL;DR社交媒体平台在各领域的日益影响,包括旅游业,凸显了有效且自动化的自然语言处理(NLP)方法对这一宝贵资源的需求。在这项工作中,我们评估和比较了针对旅游领域中常见的 3 个 NLP 任务(情感分析、命名实体识别和细粒度主题概念提取)的几种 few-shot、模式利用和微调机器学习技术在大型多语言语言模型(LLMs)上的性能,以确定解决领域特定数据集构建中 NLP 研究人员常遇到的标注示例数量问题的最佳策略。通过对新收集和注释的由旅游相关推文组成的多语言(法语、英语和西班牙语)数据集进行广泛实验,我们发现当前的 few-shot 学习技术可以在很少的注释数据的情况下为这三个任务获得具有竞争力的结果,情感分析每个标签(总共 15 条)标注 5 条推文,位置检测的推文量为 10%(大约 160 条),而包含主题概念的推文量约为 13%(大约 200 条),这是一项高度细粒度的基于一个包含 315 个类别库的序列标注任务。这项基于新数据集的比较分析为将 NLP 应用于新的领域特定应用铺平了道路,减少了手动标注的需要并绕过了基于规则的临时解决方案的复杂性。