HeBERT&HebEMO:一种希伯来 BERT 模型和用于情感极性分析的工具
本文采用基于转换器模型和双向 LSTM 网络的方法,结合心理语言学特征进行基于文本的情感检测,在两个基准数据集中表现出可比性,在六个统一情感数据集的迁移学习实验中表现出强大的跨领域泛化功能。
Dec, 2022
本文提供了 HeDC4 数据集、HeRo 和 LongHeRo 两种语言模型和用于情感分析、实体识别、问答和文档分类等任务的表现,它们在希伯来语 NLP 领域填补了现有资源之间的不足,并在所涉领域中取得了最先进的性能表现。
Apr, 2023
本研究提出了一种基于 BERT 的 transformer 方法来预测文本中最合适的 emoji 表情符号,实验结果表明我们的方法的准确性高于其他几种先进的模型,这个方法有潜在的在自然语言处理、情感分析和社交媒体营销的应用。
Jul, 2023
本文研究了预训练语言模型 BERT 在情感识别中的能力。通过 BERT 的框架和两句话的结构,我们将其应用于连续对话情感预测任务中,并依赖于句子级上下文感知理解。实验表明,通过将连续对话映射到因果话语对中,该模型能更好地捕获回复话语的情感。该方法在 Friends 和 EmotionPush 的测试数据集中取得了 0.815 和 0.885 微型 F1 分数。
Aug, 2019
在本研究中,我们提供了希伯来语的新冒犯性语言语料库,使用推特上的 15,881 条推文,并由阿拉伯 - 希伯来双语人士对其进行了五个类别(辱骂、仇恨、暴力、色情或无冒犯)的标注,我们使用我们提出的数据集和另一个已发布的数据集对两个希伯来语 BERT 模型(HeBERT 和 AlephBERT)进行了微调,观察到我们的数据与 D_OLaH 相结合可以将 HeBERT 的性能提升 2%。将 AlephBERT 在我们的数据上进行微调并在 D_OLaH 上进行测试,准确率达到了 69%,而在 D_OLaH 上进行微调并在我们的数据上进行测试,准确率达到了 57%,这可能意味着我们提供的数据的通用性。我们的数据集和微调模型已在 GitHub 和 Huggingface 上提供。
Sep, 2023
我们提出了 DictaBERT,这是一种用于现代希伯来语的最新预训练 BERT 模型,其在大多数基准测试上超越了现有模型。此外,我们发布了两个针对希伯来文本分析中的两个基础任务进行了细化调整的模型版本:前缀分词和形态标记。这些经过精细调整的模型可以让任何开发者通过调用 HuggingFace 模型的一个简单调用来进行希伯来语句子的前缀分词和形态标记,而不需要集成任何额外的库或代码。在本文中,我们详细描述了训练细节以及在不同基准测试上的结果。我们将这些模型及其使用示例代码发布给社区,作为我们促进希伯来语自然语言处理领域进一步研究和开发的目标的一部分。
Aug, 2023
使用 BERT 模型对 SemEval2017 中 Twitter 上的英语情感分析任务 4A 进行解决,在训练数据量较小的分类任务中,BERT 是一个非常强大的大型语言模型。使用此模型进行实验时,我们使用了包含 12 个隐藏层的 BERT BASE 模型,该模型在准确性、精确率、召回率和 F1 分数上优于朴素贝叶斯基线模型,在二分类子任务中表现更好,我们还在实验过程中考虑了所有种类的伦理问题,因为 Twitter 数据包含个人和敏感信息。我们在此 GitHub 存储库中提供了实验中使用的数据集和代码。
Jan, 2024
通过预先训练的表示来捕捉语音信号中的情绪模式,基础模型在语音情绪识别(SER)中显示出巨大的潜力。为了进一步提高在各种语言和领域中的 SER 性能,我们提出了一种新颖的双重方法。首先,我们收集了 EmoSet++,一个包含 37 个数据集、150,907 个样本和总时长为 119.5 小时的全面多语言、多文化语音情绪语料库。其次,我们引入了 ExHuBERT,这是 HuBERT 的增强版本,通过对 EmoSet++ 进行骨干扩展和微调来实现。我们复制了每个编码器层及其权重,然后冻结了第一个复制,并集成了一个额外的零初始化线性层和跳跃连接,以保留功能并确保其对后续微调的适应性。我们在未知数据集上的评估结果表明 ExHuBERT 的有效性,为各种 SER 任务设立了一个新的基准。模型和 EmoSet++ 的详细信息:链接至此 https:// 此处输入 URL。
Jun, 2024
使用 BERT 神经语言模型对对话行为语义标注的辅助注释任务中的标注标签进行微调并使用复述任务检查其效果,以此有效评估和修订复杂的文本用户数据的语义标签。
Apr, 2022
本篇论文介绍了一个简单而精准的方法 EmoBERTa,它可以通过将说话者的名字置于话语前,并在对话中插入分隔符,以学习预测当前说话者的情感状态。实验结果表明,EmoBERTa 可以在两个流行的情感识别数据集上达到新的最佳表现。
Aug, 2021