- Vikhr: 面向俄语的开源指令调优大语言模型家族
为了解决非英语文本生成的挑战,如生成质量差和计算性能下降等问题,本研究介绍了一种专为俄语设计的开源指令调整大型语言模型 Vikhr,通过适应性分词词汇表、持续预训练和指令调整权重等方法,提高模型性能和计算效率,并在俄语基准测试中取得显著成果 - COLINGRuBia:俄语语言偏见检测数据集
本文介绍了一种针对俄语的偏见检测数据集 RuBia,该数据集包含四个领域:性别、国籍、社会经济地位和多元,用于评估最先进的 LLMs 在社会偏见方面的倾向性。
- 令牌化对 LLaMa 俄文适应性的影响
通过词汇替换来解决 LLaMa 俄语适应问题,提高模型质量并加速微调和推理,同时减少内存消耗。
- 俄语的预训练 Transformer 语言模型系列
该论文介绍了一组 13 个基于编码器(ruBERT、ruRoBERTa、ruELECTRA)、解码器(ruGPT-3)和编码器 - 解码器(ruT5、FRED-T5)模型构建的俄语 Transformer 语言模型。通过预训练和发布这些专用 - L2 俄语语法错误修正的语言模型
本文提出一种基于语言模型的解决非母语俄语写作错误的管道,该模型在未标注的俄罗斯国家语料库报纸子语料库的文本上进行训练,并在 RULEC-GEC 语料库上验证模型性能。
- EMNLPTAPE: 评估少样本俄语语言理解
该研究提出了一个名为 TAPE 的基准测试,用于非英语语言的 NLU 评估,特别是适用于俄语的多跳思维,伦理概念,逻辑和常识知识等领域,着重于语言为导向的对抗攻击和扰动分析,通过测试自回归基线,发现简单的拼写变化与输入重复对性能影响最大,同 - 俄语网络表格:基于维基百科的俄语网络表格公共语料库
本论文创建了首个俄语网络表格语料库,并开发了一个特殊工具以抓取俄语维基百科数据,用作数据提取、知识库构建、问题解答等任务的数据源及测试数据集。同时,对俄语维基百科表格及其统计数据做了简要研究。
- RuArg-2022: 论点挖掘评估
本文是 Dialogue 会议对针对新冠疫情(疫苗、隔离和戴口罩)话题的社交媒体评论进行第一次俄语言论分析系统及其竞赛的组织者报告,由 NLI 变体的 BERT 体系结构获胜,希望为俄文文本的论证挖掘研究提供帮助。
- RuCoCo:一个新的俄语语料库,带有指代标注
我们提出了一个带有指代消解注释的新语料库,俄语指代消解语料库 (RuCoCo)。RuCoCo 旨在在保持高注释者一致性的同时获取大量标注的文本。我们的语料库包含了俄语的新闻文本,其中部分是从头开始注释的,而其余部分则是由机器生成的注释被人工 - RuBioRoBERTa:用于俄语生物医学文本挖掘的预训练生物医学语言模型
本文介绍了基于 BERT 模型的俄语生物医学文本挖掘模型(RuBioBERT,RuBioRoBERTa)。这些模型在俄语医学领域的文本语料库上进行预训练,并在俄罗斯医学语言理解基准(RuMedBench)上展现了最新的成果,包括文本分类、问 - 自动摘要俄罗斯新闻的数据集
本文介绍了 Gazeta 数据集,它是用于俄语新闻报道的第一个自动文本摘要数据集,并对其进行了扩展性和抽象性模型的基准测试和评估。结果表明,该数据集适用于俄语文本摘要任务,并且预训练的 mBART 模型可用于俄语文本摘要。
- SberQuAD - 俄语阅读理解数据集:描述与分析
介绍了 SberQuAD 这一俄语数据集资源,提供了评估、分析和实验结果等基础性研究。
- ACL用于东斯拉夫语言重音检测的 Char-RNN
本研究使用序列标注的方法,即循环神经网络,探索了如何适应于资源匮乏和无词性标注的俄语、乌克兰语、白俄罗斯语单词重音检测任务。研究者提出了三种语言的新数据集,并比较了在三种语言上训练的几种 RNN 模型,并探讨了跨语言迁移学习在该任务中的可能 - 俄语立场预测:数据与分析
本研究调查了针对俄罗斯语言的立场分类。同时,引入了一个新的 RuStance 数据集,以及用于该语言的文本分类方法进行基准测试,此外,该论文还为该语言中的立场预测提供了一个基线。
- 一个词有多重?为单词语义感知调整词嵌入重量
该论文介绍了我们参与俄语单词词义感知和消除方面的 RUSSE'2018(Panchenko 等人,2018)的首个共享任务。我们通过使用词嵌入的重量平均值和神经机器翻译系统,在该任务中表现出了优异的结果并超越了先前年份基于语义嵌入的竞争性基 - RUSSE: 俄语语义相似性首个研讨会
该研究总结了俄语语义相似性评估 (RUSSE) 共享任务的概述,提出了一种基于四个新颖基准数据集的俄语语义相似性评估方法,并通过对 19 个团队的 105 个提交信息的分析,证明英语中成功的方法也可以直接适用于俄语。
- RUSSE'2018:俄语词义归纳共享任务
这篇研究论文描述了第一个关于俄语词义归纳(WSI)的共享任务的结果,使用 sense embeddings 方法,创新性的从维基百科、学术语料库和俄罗斯解释词典中开发三个新的评估数据集,为具有许多斯拉夫语言特征的斯拉夫语言探索词义归纳和消歧 - 词嵌入的旋转和可解释性:以俄语为例
本文研究了连续词嵌入模型中用于衡量单词相似性的余弦相似度在正交变换下的稳定性,发现使用奇异值分解的正交变换可以提高某些成分的意义并使成分在重新学习时更稳定;同时对俄语语言模型(RusVectores、fastText、RDT)进行了组成分析 - 神经语言模型在俄语语义相似性任务中的应用
该研究论文探讨如何通过神经网络语言模型来计算俄语的语义相似度,并介绍了应用的工具、语料库、实验结果以及学习这种语义向量的潜在用途。