仅使用英文注释检测多语言的食源性疾病投诉
本文提出了一种新的多语言情感分类方法,使用了大量的弱监督数据训练多层卷积网络,通过在多种语言数据集上进行充分的评估,证明该方法的优异性能,达到了同类研究的最高水平。
Mar, 2017
提出了一种基于图神经网络和变压器的跨语言灾难相关文本分类系统,该系统可以在有限的监督下工作,并在多种语言和单语言情境下进行分类。在英语、非英语和单语数据集上测试,该系统的加权 F1 值优于现有的最先进模型和多语言 BERT 基线。
Mar, 2022
污染或掺假食品对人类健康构成重大风险,我们提供了一个包含 7,546 个短文本的数据集,描述公共食品召回通知,通过机器学习和自然语言处理自动检测食品风险,并基于数据集进行了基于逻辑回归的 tf-idf 表示的模型性能比较,最终提出了一种基于 Conformal Prediction 的 LLM-in-the-loop 框架,提高基础分类器的性能,并降低了能源消耗。
Mar, 2024
本研究从 16 个数据来源的 9 种语言中进行大规模的多语言仇恨言论分析,发现在低资源设置下,使用 LASER 嵌入和逻辑回归的简单模型性能最佳,在高资源设置下,BERT 模型表现更好。对于零样本分类,意大利语和葡萄牙语取得了良好的效果。我们提出的框架可用作低资源语言的高效解决方案,并可作为未来多语言仇恨言论检测任务的良好基准。我们已公开了我们的代码和实验设置供其他研究人员使用。
Apr, 2020
利用小型专家标记的推文与众包标记和大量未标记的数据,EGAL 提出了一种用于食物传播疾病检测的深度学习框架,通过将错误标记的推文权重设置为零以减轻其负面影响,并通过给其他推文分配相应的权重来平衡不平衡的类分布,从而克服了标记食物传播疾病相关推文的困难,实验证明 EGAL 在不同设置下优于强基准模型,并可用于食物传播疾病爆发监测。
Dec, 2023
本研究提出了一种基于终身学习和多语言知识转移的新型假新闻检测方法,该方法利用传统特征提取器和深度自然语言处理模型结合多层感知器分类器,可以在英语和西班牙语数据集上提高假新闻分类任务的性能。
May, 2022
探讨在真实场景中提高神经机器翻译质量的挑战,通过基于情感分析或特定于领域的多义词汇的翻译准确性等任务特定指标的性能评估,表明本文提出的基于最新技术的机器翻译鲁棒性模型明显优于现有在线系统。
Oct, 2019
提供了 TWEET-FID(TWEET-Foodborne Illness Detection)这一被专家和众包工作者标注后的公开多重食源性疾病事件检测数据集,使用该数据集,并利用多种预训练深度学习方法进行训练,可以加速机器学习模型的开发,推动食源性疾病爆发的快速识别和应对
May, 2022
采用大语言模型(LLMs)进行很少标记的训练,结合零样本学习和少样本学习等方法,成功应用于 Hinglish 中的仇恨言论检测和粗细粒度的厌女症分类,研究表明使用 Bidirectional Auto-Regressive Transformers(BART)大模型的零样本分类和使用 Generative Pre-trained Transformer- 3(ChatGPT-3)的少样本提示获得了最佳结果。
Mar, 2024
本研究针对资源缺乏的巴斯克语和加泰罗尼亚语,提供了两个数据集,并提供了高质量的标注和基准,希望对研究这些语言的学者有所帮助。
Mar, 2018