基于大数据的俄语讽刺检测方法

Jun, 2023

A big data approach towards sarcasm detection in Russian

A.A. Gurin, T.M. Sadykov, T.A. Zhukov

TL;DR我们提出了一组确定性算法，用于俄语屈折和自动文本合成，并实现在一个公开可用的网站上。这个服务提供词的屈折、单词匹配和语法正确的俄语文本合成的功能。我们的算法在 OpenCorpora 俄语语料库的标注语料上进行了性能测试，比较了其他解决方案，并用于估计俄语不同词性的形态学变异性和复杂性。

Abstract

We present a set of deterministic algorithms for russian inflection and automated text synthesis. These algorithms are implemented in a publicly available →

russian inflection automated text synthesis web-service morphological variability opencorpora

发现论文，激发创造

Plumeria 参加 SemEval-2022 任务 6：使用变形金刚和数据增强的鲁棒性挖掘英文和阿拉伯文的讽刺语言

本文介绍了我们对 SemEval-2022 任务 6：针对英语和阿拉伯语的讽刺检测及其五个子任务的参赛作品。我们使用基于 transformers 的深度学习技术来检测讽刺，数据集来自推特，数据预处理对于任务至关重要，我们的排名在四个子任务中保持稳定，这说明我们使用的模型和技术具有鲁棒性和稳定性。

Mar, 2022

UTNLP 参加 SemEval-2022 任务 6：基于生成式和变异式数据增强的讽刺检测比较分析

本文介绍了 UTNLP 团队在 SemEval-2022 共享任务 6 中进行讽刺性评论检测的方法和结果，对比了不同模型和数据增强方法的效果，最后使用 RoBERTa 和数据突变增强的方法取得了最佳结果。

Apr, 2022

形态变化：一次现实检验

研究分析了词形变化在子词 NLP 中的高性能和高可变性的原因，提出了更好反映实际使用情况的数据采样和评估策略，探讨了当前变形系统的泛化能力。

May, 2023

RUSSE: 俄语语义相似性首个研讨会

该研究总结了俄语语义相似性评估 (RUSSE) 共享任务的概述，提出了一种基于四个新颖基准数据集的俄语语义相似性评估方法，并通过对 19 个团队的 105 个提交信息的分析，证明英语中成功的方法也可以直接适用于俄语。

Mar, 2018

自动生成排名的俄语改述语料库用于文本生成

本文是关于用于俄语释义生成的大规模语料库进行自动开发和排名的，提出了 ParaPhraser Plus 数据集以解决目前该领域小规模的语料库难以在文本生成中应用的问题，并使用 Universal Transformer 架构进行了实验。

Jun, 2020

俄语立场预测：数据与分析

本研究调查了针对俄罗斯语言的立场分类。同时，引入了一个新的 RuStance 数据集，以及用于该语言的文本分类方法进行基准测试，此外，该论文还为该语言中的立场预测提供了一个基线。

Sep, 2018

俄文文本自动摘要：抽取式和抽象式方法的比较

本文研究使用翻译的微文本、劝说性文章和 UKP 句子语料库的版本来微调 RuBERT 模型，然后使用此模型对经济新闻语料库进行注释，进而微调 ruGPT-3 模型，生成论证文本，并证明这种方法可以使论证生成的准确性提高超过 20 个百分点（63.2％与 42.5％相比）

Jun, 2022

俄语和乌克兰语的形态分析器和生成器

pymorphy2 是一种针对俄语和乌克兰语的词形分析器和生成器，使用大型的 OpenCorpora 和 LanguageTool 数据库，开发了一组语言学动机的规则，以便分析词形和生成现实世界文档中出现的生僻词汇，具有现代技术水平，易于使用、文档齐全、可扩展性强。

Mar, 2015

利用词向量追踪俄语文化历时语义变化：测试集和基准

介绍了手动注释的测试集，用于跟踪俄语中的历时语义转变，并通过分布式词嵌入模型来自动检测具有强烈或微妙社会和文化变化的名词和形容词词义，提供了实体间语义演变检测的算法和比分。

May, 2019

英印混合代码推文语料库用于讽刺检测

通过英 - 印混合码数据集，我们开发了一个基于随机森林分类器并进行了 10 折交叉验证的基线监督分类系统，该系统可以检测到社交媒体上的文字中的反讽，并标记每个标记的语言标签。该系统平均得分为 78.4%。

May, 2018