多级深度模型用于双语短信分类
提出了一种基于图神经网络和变压器的跨语言灾难相关文本分类系统,该系统可以在有限的监督下工作,并在多种语言和单语言情境下进行分类。在英语、非英语和单语数据集上测试,该系统的加权 F1 值优于现有的最先进模型和多语言 BERT 基线。
Mar, 2022
本文提出了一种新的多语言情感分类方法,使用了大量的弱监督数据训练多层卷积网络,通过在多种语言数据集上进行充分的评估,证明该方法的优异性能,达到了同类研究的最高水平。
Mar, 2017
本文提出了一种基于多模态的深度学习框架,用于短文本多类别分类,针对于极小数据集,使用了 DISTILBERT 来获取上下文敏感的动态词向量,并取得了在精度、召回率、准确率和 F1 分数上与现有最优方法相同的性能,同时模型体积更小,可以在移动设备上更快、更轻地部署。
Jun, 2022
本文提出了一种基于多任务学习方法,利用源端的单语言语言资源来解决神经机器翻译中由于缺少平行文本造成模型质量差的问题,并采用语义分析、句法分析和命名实体识别等辅助任务以将语义和 / 或句法知识注入到翻译模型中,实现了在英法、英波斯和英越三种翻译任务上的有效性验证。
May, 2018
本研究提出了基于字符三元组 LSTM 模型和基于词元素的多项式朴素贝叶斯 (MNB) 模型的集成模型,用于识别印地语 - 英语 (Hi-En) 混合数据的情感极性,实验结果表明,相较于几个基准和其他基于深度学习的提出的方法,我们的方法在真实用户混合数据上取得了最先进的结果。
Jun, 2018
本文提出了一种名为多尺度协作(MultiScale Collaborative)的框架,通过引入块尺度协作机制和上下文尺度协作增强梯度反向传播,并让每个编码器块学习细粒度的表示,以增加神经机器翻译模型的深度,从而提高翻译质量,并在多项任务中证明了该方法的有效性。
Apr, 2020
研究发现,针对社交媒体文本中的混合编码文本进行专门设计的双语模型和多语模型表现最佳,而庞大生成模型则不具有竞争力。对于情感分析和辱骂语言检测等任务,这些模型在混合编码数据上的表现稍微优于非混合编码数据。
May, 2024
本文提出了一种针对双语混杂文本的语言模型的新方法,即双语言模型,该方法使用单一语言模型的结构来改进标准的双语言模型,并将两个互补的单一语言模型结合在一起,以概率切换模型进行切换。我们使用一种会话式汉英语音语料库评估了该方法的有效性,并证明了我们的模型的鲁棒性,表明在不使用任何外部信息的情况下,在困惑度措施和自动语音识别错误率方面都会显著提高。
Nov, 2017
本文提出了一项翻译双语多说话者会话的任务,并探索了利用源语言和目标语言会话历史的神经网络架构,在 Europarl v7 和 OpenSubtitles2016 数据集上的实验证实了利用对话历史的重要性。
Sep, 2018
提出了利用自然语言处理和机器学习模型(特别是 BERT)进行短信垃圾检测和分类的方法,结果显示使用朴素贝叶斯分类器 + BERT 模型在测试数据集上实现了最高 97.31% 的准确率和最快 0.3 秒的执行时间,从而在短信垃圾检测效率和误报率方面有显著的改进。该模型为对抗短信垃圾提供了有价值的解决方案,不仅保护了用户的隐私,还帮助网络提供商有效识别和屏蔽短信垃圾消息。
Jun, 2024