EmojiNet: 为表情符号构建机器可读的义项库
该研究介绍了 EmojiNet,这是最大的机器可读表情符号意义库,它将从网络中提取的 Unicode 表情符号与其对应的英文含义相关联。该数据集包括:(i)12,904 个语境标签,涵盖 2,389 个表情符号,这些标签从 Web 中提取并链接到 BabelNet 中可读的语义定义,(ii)与每个表情符号意义相关联的上下文单词,这些单词通过在 Google 新闻语料库和 Twitter 消息语料库中进行训练的词嵌入模型推断得出,以及(iii)识别不同平台上表情符号呈现方式的差异,为选定的一组表情符号指定最可能基于平台的表情符号意义。数据集作为一个 REST API 的开放服务托管,并可在此 http URL 上获得。本文讨论了数据集的开发、质量评估以及其应用,包括表情符号意义消歧和表情符号意义相似性。
Jul, 2017
本篇研究旨在通过 EmojiNet 知识库中的可机器读取 Emoji 意义,通过不同的训练语料库,利用 Emoji 描述、 Emoji 感觉标签和 Emoji 感觉定义等信息开发和测试多种嵌入模型来衡量 Emoji 相似度,并开发了名为 EmoSim508 的新数据集来评估他们的工作。经测试,作者的嵌入模型在情感分析任务中表现出色,并发布数据集和嵌入模型供公共下载。
Jul, 2017
本研究提出了一种基于与误码相关的大规模数据集的情感定位图像嵌入方法,在 Twitter 数据集上使用表情符号来训练深度神经模型,有效地解决了对象分类模型在情感分析中的限制,其结果在公共情感分析基准测试中表现出优秀的性能。同时,研究者还基于表情符号的视觉情感反应提出了一种新的表情符号表示方法,加深了对表情符号模态的理解。
Jul, 2019
通过从大型语言模型合成大规模的文本 - 表情符号平行语料库,并在此基础上提取面向文本 - 表情符号双向翻译的序列到序列模型,我们的研究在公共基准测试和人工评估中表现出优于强基准模型的性能,且平行语料库对与表情符号相关的后续任务有益。
Nov, 2023
本文提出了基于 Transformer 网络的多类和多标签表情符号预测模型,并使用启发式方法从 Twitter 构建了多个表情符号预测数据集。实验结果表明,相对先前的最新技术,我们的 BERT 模型在所有数据集和所有设置下都取得了最先进的性能,其中精度提高了 27.21%到 236.36%,前 5 个精度提高了 2.01%到 88.28%,F-1 分数提高了 65.19%到 346.79%。
Jul, 2020
本文提出了一种基于 H-LSTM 模型和 softmax 分类器的方法,以自动推荐相关的 Emoji 表情符号,以更好地传达情感信息。实验结果表明,该方法在情感识别任务上具有优秀的性能,能够更好地捕捉上下文信息和情感流动。
Dec, 2016
本文研究了在社交媒体情感分析任务中使用二进制表情符号和特定的话题标签作为远程监督的方法,通过扩展对更多嘈杂标签的监督,模型可以学习更丰富的表示,同时从一个包含 64 个常见表情的数据集中进行表情预测,使用单个预训练模型在 8 个基准数据集中取得了最先进的性能,并证实了我们的情感标签多样性相较于之前的远程监督方法有了更好的表现。
Aug, 2017