仅使用英文注释检测多语言的食源性疾病投诉

EMNLPOct, 2020

仅使用英文注释检测多语言的食源性疾病投诉

Detecting Foodborne Illness Complaints in Multiple Languages Using English Annotations Only

Ziyi Liu, Giannis Karamanolakis, Daniel Hsu, Luis Gravano

TL;DR本研究提出了一种跨语言学习方法，通过机器翻译构建人工训练文档，训练出多语言分类器，从而实现在多语言文档中进行食源性疾病的早期探测，具有很好的应用前景。

Abstract

Health departments have been deploying text classification systems for the early detection of foodborne illness complaints in social media documents such as →

text classification systems foodborne illness complaints multilingual classifiers machine translation yelp restaurant reviews

发现论文，激发创造

利用大量弱监督数据进行多语言情感分类

本文提出了一种新的多语言情感分类方法，使用了大量的弱监督数据训练多层卷积网络，通过在多种语言数据集上进行充分的评估，证明该方法的优异性能，达到了同类研究的最高水平。

Mar, 2017

用图神经网络增强的语言模型进行高效的多语言文本分类

提出了一种基于图神经网络和变压器的跨语言灾难相关文本分类系统，该系统可以在有限的监督下工作，并在多种语言和单语言情境下进行分类。在英语、非英语和单语数据集上测试，该系统的加权 F1 值优于现有的最先进模型和多语言 BERT 基线。

Mar, 2022

CICLe：大规模多类食品风险分类的一致上下文学习

污染或掺假食品对人类健康构成重大风险，我们提供了一个包含 7,546 个短文本的数据集，描述公共食品召回通知，通过机器学习和自然语言处理自动检测食品风险，并基于数据集进行了基于逻辑回归的 tf-idf 表示的模型性能比较，最终提出了一种基于 Conformal Prediction 的 LLM-in-the-loop 框架，提高基础分类器的性能，并降低了能源消耗。

Mar, 2024

多语言仇恨言论检测的深度学习模型

本研究从 16 个数据来源的 9 种语言中进行大规模的多语言仇恨言论分析，发现在低资源设置下，使用 LASER 嵌入和逻辑回归的简单模型性能最佳，在高资源设置下，BERT 模型表现更好。对于零样本分类，意大利语和葡萄牙语取得了良好的效果。我们提出的框架可用作低资源语言的高效解决方案，并可作为未来多语言仇恨言论检测任务的良好基准。我们已公开了我们的代码和实验设置供其他研究人员使用。

Apr, 2020

UCE-FID: 利用大量未标记数据、中等规模的众包标记数据和少量专家标记数据进行食源性病例检测

利用小型专家标记的推文与众包标记和大量未标记的数据，EGAL 提出了一种用于食物传播疾病检测的深度学习框架，通过将错误标记的推文权重设置为零以减轻其负面影响，并通过给其他推文分配相应的权重来平衡不平衡的类分布，从而克服了标记食物传播疾病相关推文的困难，实验证明 EGAL 在不同设置下优于强基准模型，并可用于食物传播疾病爆发监测。

Dec, 2023

多语言数据分类的终身学习自然语言处理方法

本研究提出了一种基于终身学习和多语言知识转移的新型假新闻检测方法，该方法利用传统特征提取器和深度自然语言处理模型结合多层感知器分类器，可以在英语和西班牙语数据集上提高假新闻分类任务的性能。

May, 2022

餐厅评论的机器翻译：适应领域和健壮性的新语料库

探讨在真实场景中提高神经机器翻译质量的挑战，通过基于情感分析或特定于领域的多义词汇的翻译准确性等任务特定指标的性能评估，表明本文提出的基于最新技术的机器翻译鲁棒性模型明显优于现有在线系统。

Oct, 2019

TWEET-FID: 一个标注的数据集用于多种食源性疾病检测任务

提供了 TWEET-FID（TWEET-Foodborne Illness Detection）这一被专家和众包工作者标注后的公开多重食源性疾病事件检测数据集，使用该数据集，并利用多种预训练深度学习方法进行训练，可以加速机器学习模型的开发，推动食源性疾病爆发的快速识别和应对

May, 2022

利用弱标注数据在混合代码 Hinglish 中进行仇恨言论检测：基于可行性驱动的迁移学习方法与大型语言模型

采用大语言模型（LLMs）进行很少标记的训练，结合零样本学习和少样本学习等方法，成功应用于 Hinglish 中的仇恨言论检测和粗细粒度的厌女症分类，研究表明使用 Bidirectional Auto-Regressive Transformers（BART）大模型的零样本分类和使用 Generative Pre-trained Transformer- 3（ChatGPT-3）的少样本提示获得了最佳结果。

Mar, 2024

MultiBooked: 基于方面级情感分类的巴斯克语和加泰罗尼亚语酒店评论语料库

本研究针对资源缺乏的巴斯克语和加泰罗尼亚语，提供了两个数据集，并提供了高质量的标注和基准，希望对研究这些语言的学者有所帮助。

Mar, 2018