基于大数据的俄语讽刺检测方法
本文介绍了我们对 SemEval-2022 任务 6:针对英语和阿拉伯语的讽刺检测及其五个子任务的参赛作品。我们使用基于 transformers 的深度学习技术来检测讽刺,数据集来自推特,数据预处理对于任务至关重要,我们的排名在四个子任务中保持稳定,这说明我们使用的模型和技术具有鲁棒性和稳定性。
Mar, 2022
本文介绍了 UTNLP 团队在 SemEval-2022 共享任务 6 中进行讽刺性评论检测的方法和结果,对比了不同模型和数据增强方法的效果,最后使用 RoBERTa 和数据突变增强的方法取得了最佳结果。
Apr, 2022
该研究总结了俄语语义相似性评估 (RUSSE) 共享任务的概述,提出了一种基于四个新颖基准数据集的俄语语义相似性评估方法,并通过对 19 个团队的 105 个提交信息的分析,证明英语中成功的方法也可以直接适用于俄语。
Mar, 2018
本文是关于用于俄语释义生成的大规模语料库进行自动开发和排名的,提出了 ParaPhraser Plus 数据集以解决目前该领域小规模的语料库难以在文本生成中应用的问题,并使用 Universal Transformer 架构进行了实验。
Jun, 2020
本研究调查了针对俄罗斯语言的立场分类。同时,引入了一个新的 RuStance 数据集,以及用于该语言的文本分类方法进行基准测试,此外,该论文还为该语言中的立场预测提供了一个基线。
Sep, 2018
本文研究使用翻译的微文本、劝说性文章和 UKP 句子语料库的版本来微调 RuBERT 模型,然后使用此模型对经济新闻语料库进行注释,进而微调 ruGPT-3 模型,生成论证文本,并证明这种方法可以使论证生成的准确性提高超过 20 个百分点(63.2%与 42.5%相比)
Jun, 2022
pymorphy2 是一种针对俄语和乌克兰语的词形分析器和生成器,使用大型的 OpenCorpora 和 LanguageTool 数据库,开发了一组语言学动机的规则,以便分析词形和生成现实世界文档中出现的生僻词汇,具有现代技术水平,易于使用、文档齐全、可扩展性强。
Mar, 2015
介绍了手动注释的测试集,用于跟踪俄语中的历时语义转变,并通过分布式词嵌入模型来自动检测具有强烈或微妙社会和文化变化的名词和形容词词义,提供了实体间语义演变检测的算法和比分。
May, 2019
通过英 - 印混合码数据集,我们开发了一个基于随机森林分类器并进行了 10 折交叉验证的基线监督分类系统,该系统可以检测到社交媒体上的文字中的反讽,并标记每个标记的语言标签。该系统平均得分为 78.4%。
May, 2018