- 利用音节压缩词向量
本文研究使用音节嵌入代替常用的 n-gram 嵌入作为子词嵌入的可行性,并在英语和荷兰语中进行了探讨。与完整单词嵌入相比,我们的模型英语表现保留 80%,大小为原来的 20 至 30 倍,荷兰语表现保留 70%,大小为原来的 15 倍,并且 - EMNLPBERT 无法对齐字符
本论文研究了 BERT 作为字符级别对齐工具的效果,探讨了不同语言之间的对齐效应,结果表明 BERT 在英语对假英语对齐较好,在对齐自然语言的过程中受语言之间相似性的影响,语言越接近 BERT 对齐越好。
- ACL用于评估和发展英语数学问题解决器的多样化语料
本文介绍了 ASDiv (中央研究院多样化的 MWP 数据集),它是一个多样化的英语数学文字问题 (MWP) 语料库,含有 2305 个问题,覆盖了更多的文本模式和大多数初中学校教授的问题类型。作者建议使用 ASDiv 作为解决 MWP 问 - ACL探究多语言预训练语言模型的迁移学习 —— 以中文自然语言推理为例
研究多语言 transformers 在英文和中文自然语言推断方面的跨语言转移能力,并基于 17 个中文挑战任务对其性能进行测试。研究发现,跨语言模型在训练时使用英语和高质量的单语 NLI 数据(OCNLI)通常表现最好,而自动翻译资源则会 - BERT 模型自动标点恢复
本研究利用 BERT 模型自动还原英语和匈牙利语的标点符号,并通过 Ted Talks 和 Szeged Treebank 数据集的实验验证,得出在英语和匈牙利语上分别达到了 79.8 和 82.2 的宏平均 $F_1$- 分数。
- UCCA 基础层:注释指南 v2.1
这是 Universal Conceptual Cognitive Annotation(UCCA)注释手册,特别是基础层的注释说明。UCCA 是一种基于语言类型学原理的基于图形的语义注释方案,其已经应用于多种语言,主要在英语中给出示例。本 - COLINGNLP-CIC 在 SemEval-2020 任务 9 中使用简单深度学习分类器分析混合语言情感
本文通过使用卷积神经网络模型来预测西班牙语和英语混合推文的情感,取得了 F1-score 为 0.71 的成绩,并分析了模型的能力和代码切换语境下分类情感的重要困难。
- ASRU 2019 年中英混合口语识别挑战赛:公开数据集、赛道、方法与结果
该研究介绍了 ASRU 2019 普通话 - 英语代码转换语音识别挑战赛,旨在提高普通话 - 英语代码转换情况下的 ASR 性能。参与者可以使用 500 小时标准普通话语音数据和 240 小时普通话 - 英语混合语音数据。本文总结了三个跟踪 - ACLTwitter 上立场检测的大规模数据集:会不会发生他们之间的事
本文介绍了一个名为 Will-They-Won't-They (WT-WT) 的新的具有挑战性的立场检测数据集,其中包含 51,284 条英文推特,是目前可用的同类数据集中最大的。所有注释都是由专家进行的,因此该数据集构成了未来立场检测研究 - ICLR面向艾杜语族的神经机器翻译
本文探讨在现代社会中,许多尼日利亚语言已经失去之前的声望和用途,转而使用英语和尼日利亚皮钦语,导致数百万母语为土著语言的人无法公平地获取信息、沟通、医疗、安全和参与政治民生事务等方面存在的不平等。为了减少排斥并促进社会语言和经济赋权,本文探 - MMSemEval-2016 任务 3: 社区问答
介绍了 SemEval--2016 的社区问答中的任务 3,包括英语和阿拉伯语,其中英语有三个子任务:问题 - 评论相似度(A),问题 - 问题相似度(B)和问题 - 外部评论相似度(C)。阿拉伯语有另一个子任务:为新问题重新排列正确答案( - IMS-Speech: 语音转文本工具
介绍了 IMS-Speech,这是一个基于 Web 的工具,用于德语和英语语音转录,旨在为需要访问口语材料的各学科的研究提供便利。
- SemEval-2019 任务 1:使用 UCCA 进行跨语言语义分析
介绍 SemEval 2019 有关英语、德语和法语 UCCA 解析的任务和参与系统和结果。
- 评估 BERT 的句法能力
该研究评估了最近推出的 BERT 模型对英语句法现象的捕捉程度,使用 (1) 自然发生的主谓一致刺激;(2)“无色的绿色思想” 主谓一致刺激以及 (3) 手动制作的主谓一致和反身代词现象的刺激。BERT 模型在所有情况下都表现出色。
- DepecheMood++: 一种通过简单而又强大技术构建的双语情感词汇表
本文扩展了一种英语情感词典并创建了适用于意大利语的新词典,同时提出了简单的方法来提高不同特定领域的数据集和任务的性能。
- ACL将推文解析为通用依存关系
本文介绍了用 Universal Dependencies 分析 Tweets 的问题,提出了扩展 UD 指南来覆盖 Tweets 中的特殊结构以及使用新的 Tweet Treebank v2 来解决标注中的歧义,并构建了一个可以将原始 T - ACL通过阅读时的眼动来评估语言能力
我们提出了一种新颖的方法,利用学习者阅读时的眼动痕迹来确定学习者的第二语言能力水平,并通过其反映出学习者阅读中的凝视模式与母语为英语者的相似程度,这种方法对于第二语言能力评估具有潜在的价值。
- Hindi-English 混合语的通用依存句法分析
本文研究代码切换数据的句法分析,提出了规范化和反回译模型的解码过程,以及利用词性标注和句法树注释的神经堆叠模型。结果显示,我们的神经叠加分析器比增强分析模型优越 1.5%LAS 点,并且我们的解码过程比第一个最佳规范化和 / 或反回译提高了 - 基于特征和神经网络扫描诗歌的比较
本文研究了英语和西班牙语诗歌韵律的计算机自动分析,证明了基于字符的神经模型学习的表示比手工特征更为信息丰富,并且 Bi-LSTM+CRF 模型在诗歌节奏分析方面有着最高的准确率,同时说明整个词结构而不是单独音节的信息对诗歌节奏分析至关重要。
- EMNLP使用堆叠 LSTM 进行 AMR 解析
本文提出了一个基于转换的 AMR 解析器,该解析器可以直接从纯文本中生成 AMR 解析结果。使用 Stack-LSTMs 表示解析器状态并确保贪婪的决策,研究表明该解析器在英语上取得了非常有竞争力的成绩,仅使用 AMR 的训练数据,加入其他