- UniBridge:面向低资源语言的统一交叉语言迁移学习方法
UniBridge 是一个跨语言迁移学习的综合方法,通过优化嵌入和词汇表进行改进,在资源有限的语言中特别有效。该方法解决了语言模型的两个关键要素:嵌入的初始化和最优词汇表的选择。实验结果表明,UniBridge 显著提高了多种语言的 F1 - 分布式表示如何传达上下文词汇语义:论文提案
现代神经网络利用分布式表示来编码词汇意义,并通过多语言数据集和语言分析工具评估歧义性与词汇意义。
- 跨语言情感分析:机器翻译英语前后的评估
本文研究了跨多语言数据集及经过机器翻译的文本中,变压器模型在情感分析任务中的表现,并通过比较这些模型在不同语言环境中的效果,洞察其性能变化对情感分析跨多种语言的潜在影响,同时还探讨了其缺点及未来研究的潜在方向。
- 跨语言冒犯性语言检测:数据集、迁移方法和挑战的系统综述
社交媒体中冒犯性语言的快速增长和快速演变加大了检测的复杂性,尤其突显了在不同语言中识别此类内容的挑战。该调查针对社交媒体中的冒犯性语言检测在跨语言场景中进行了系统全面的交叉语言转移学习(CLTL)技术探索。我们的研究作为首个综合概述,专注于 - EMNLP一个多模态多语言文件图像分类基准
文档图像分类是一项与纯文本文档分类不同的任务,它通过理解表单、电子邮件和其他文档的内容和结构来对文档进行分类。本研究介绍了两个新的多语言数据集 WIKI-DOC 和 MULTIEURLEX-DOC,克服了现有数据集的限制。此外,本研究对以前 - EMNLPCodeTransOcean:一项用于代码翻译的全面多语言基准
为了推动代码翻译研究并满足实际应用的多样需求,构建了支持最多语言的大规模综合基准 CodeTransOcean,其中包括了多种新颖的多语种数据集,以及用于评估编译性能的新颖交叉框架数据集 DLTrans。还展示了多语种建模方法在提高低资源和 - 利用相互知识蒸馏的集体知识图谱补全
本文介绍了一种名为 CKGC-CKD 的新方法,通过使用关系感知图卷积网络编码模型在集成的知识图谱和各自的知识图谱上进行训练,以最大程度地利用来自不同知识图谱的集体知识,从而缓解了个体知识图谱的不完整性,并通过相互知识蒸馏机制来进行知识传递 - EMNLPBloom 图书馆:支持 300 多种语言的多模态数据集,可用于各种下游任务
Bloom Library 是一个多语言多模态数据集;其中含有 363 种语言,是目前包含语言最多的数据集之一,可用于低资源条件下的自然语言处理研究。
- esCorpius: 一份庞大的西班牙语爬虫语料库
通过使用多达 1 PB 的 Common Crawl 数据,我们提出了 esCorpius,一个高质量的西班牙网络爬取语料库,利用了新颖的高度并行的清理管道和多种去重机制,以确保文档和段落边界的完整性,并遵守欧盟法规。
- 预训练语言模型在低资源编程语言中的可转移性
研究表明,在多语言数据集中使用语料库来微调预训练的多语言自然语言处理模型 (PLMs) 能够获得更高的性能,但是没有对单语言 PLMs 进行分析。此外,不同的编程语言之间的代码通常不能互换,我们调查了单语言和多语言 PLMs 对不同编程语言 - ACL无国界的形态学:从子句层面考虑
本文通过提出一种基于句子层面的形态学,并创建了一个新的、基于句子层面的多语言数据集 MightyMorph,得出基于句子层面的变形、重新变形和分析任务比基于单词水平的任务更具挑战性,同时提供一种方便的界面与语境化语言模型(LMs)相接,评估 - ACLPARE: 用于单语和多语言远程监督关系提取的简单而强大的基准模型
研究了一种简单的基线方法 (PARE),将实体对袋子中的所有句子连接成一个句子段,并使用 BERT 进行联合编码,使用候选关系作为查询,通过注意力聚合令牌的上下文嵌入,预测 candidate 关系。实验结果表明,这个简单的基线模型在单语和 - ACL走向更加公平的问答系统:需要多少更多的数据?
本研究探讨如何通过自动翻译和排列组合技术将已有的数据资源应用到多语种的问答系统中,并进行深入分析和提出未来数据集开发的建议,以提高多语种问答系统的覆盖面。
- COLING野外语言识别:通往千语言网络文本语料库的挑战
本研究重点讨论了大型文本语料库在自然语言处理任务中的重要性以及在多语言语境下收集这些数据集所需的核心技术 —— 自动语言识别,该文介绍了使用基于词表的精度可调过滤器和基于 Transformer 的半监督语言识别模型来提高数据集质量的方法, - EMNLP跨语言迁移学习中的翻译误差
研究报告发现人工和机器翻译在跨语言学习中的影响,翻译过程会引入细微的错误,影响到跨语言模型的准确性。在此基础上,对 XNLI 测试和零样本学习进行改进,取得了 4.3 和 2.8 个百分点的提升。
- ACL学习跨语言分布式逻辑表示以进行语义解析
本文探讨了如何通过在不同语言中打标注的数据来学习语义解析器的分布式逻辑形式表示,以提高特定语言下单语义解析器的性能,并在标准的多语言 GeoQuery 数据集上得到了改进的结果。
- EMNLP基于层次模型的方面情感分析
通过建模评论中的句子之间的相互依赖关系,我们提出了一种基于分层双向 LSTM 的情感分析方法,在五个多语种、多领域的数据集上取得了竞争状态下最先进结果,并优于其它两种基线模型,而且不需要使用手工特征或外部资源。