- 研究粤语 - 英语神经机器翻译中的逆向翻译和模型切换机制
本研究探讨了从粤语到英语的机器翻译模型的开发和评估,并提出了一种应对低资源语言翻译的新方法。
- 科学文献是多语种的,我们的模型也应如此
英语一直被认为是科学研究的 $ extit {lingua franca}$,然而,该研究表明文献主要以多种语言出现,因此建议当前的模型和基准应该体现这种语言多样性,以提高在非英语文献上的表现。
- 英语和瑞典语中未记录的词义检测
通过使用预训练的上下文词嵌入工具,本文在英语和瑞典语中解决未知意义检测的任务,并通过对现代和历史语料库中的词语用法与语义条目进行比较,证明了模型在少样本情境下能够大幅增加检测到非记录义项的词语用法数目。
- 技术翻译中非等效词的问题
翻译中的非等价词对于正确定位和理解是非常重要的,这篇研究论文探讨了英语到俄语的非等价词的常见问题,并提供了一些科学家的想法和示例,同时讨论了从源语言到目标语言渲染非等价词的不同方法和规则。
- EMNLPMILDSum:用于印度法律案例判决的多语言摘要的新型基准数据集
印度司法体系中,针对印度语言的法律文件进行自动摘要是一个重要的问题,本研究以英语为源语言,尝试将印度的法律文件进行跨语言的英汉自动摘要。研究使用了 3122 例高质量的印度法院的判决案件,并展示了在法律领域跨语言摘要研究的必要性。
- ACL扩展范围:将英语对抗攻击应用于中文
本研究通过适当的文本分割和语言约束,将英语自然语言处理领域最先进的对抗性攻击算法适应于中文,并展示了这些攻击方法可以生成高质量的对抗性样本,从而提高了中文自然语言处理领域的对抗鲁棒性。
- LLMZip:使用大语言模型的无损文本压缩
使用大型语言模型 LLaMA-7B,我们给出了一组英文熵的渐进上界估计,并基于该估计提出了一种结合大型语言模型和无损压缩方案的英文文本无损压缩算法,初步结果显示出优于 BSC,ZPAQ 和 paq8h 等现有文本压缩方案的性能。
- 基于提示的方法可能会低估大型语言模型的语言泛化能力
本文比较了元语言激励和直接概率测量作为衡量英语知识的方法,并发现大语言模型的元语言判断低于直接从表示中派生出的数量。
- 方言嵌入空间的变异性和不稳定性
本文研究使用不同区域英语的嵌入空间的变化,并控制嵌入的不稳定性。实验得出结论:培训数据中的方言会对生成的嵌入空间产生显著的影响,并且这种方言差异在词汇的特定部分尤其容易出现变化。这表明方言之间存在语义上的差异,除了之前研究所述的词汇和句法差 - TSAR-2022 多语言词汇简化公开挑战赛研究结果
报告了 TSAR-2022 共享任务中多语言词汇简化的发现,该任务在 EMNLP 2022 举行,涉及英语,葡萄牙语和西班牙语的多语言词汇简化。共有 14 个团队提交了他们的词汇简化系统的结果,并且结果表明英语的简化效果比西班牙语和葡萄牙语 - 阿拉伯语至英语广播新闻的端到端语音翻译
本文介绍了第一个基于端到端范式的新闻广播阿拉伯语到英语语音翻译系统,并探讨了数据增强和转移学习等多种场景下基于管道和端到端的语音翻译系统的训练和比较。
- ACL使用概率决策树微调细微的解析差异:以名词补语从句中的后置 “that” 与关系从句为例
使用通用依存标注法解析英文中的相对从句和名词补语从句,并在相应的关系代词和补语从句中使用不同的标记。通过算法在 GUM Treebank 上进行语料标注,进而使用 TreeTagger 学习后置 “that” 的两种用法,并研究训练集大小对 - ArzEn-ST: 一个用于代码转换的埃及阿拉伯语 - 英语三语言言翻译语料库
本文介绍 ArzEn-ST 语料库的收集工作,该语料库为阿拉伯语 - 英语混合语音翻译语料库,并提出基准系统的机器翻译和语音翻译任务的结果。
- 在逼真的多语种数据集上评估神经指称形式选择器
本文提出了使用 OntoNotes 语料库替代 WebNLG 的方法来评估神经指代形式选择模型,而其使用的英语和汉语表现出不同特点,其中汉语指代形式选择更取决于语境。
- COLING零样本仇恨言论检测假设工程
本文通过使用自然语言推理模型进行零 - shot 文本分类并结合多种策略以改进英语零 - shot 仇恨言论检测,取得了 79.4% 的检测准确度并比商业系统和基于 BERT 的模型效果更好。
- 随机文本扰动的效果有时有效
探究数据增广方法在 NLP 中的效果和可泛化性,通过三个二进制文本匹配分类任务的大规模实验发现,随机文本扰动作为数据增广能给神经分类模型的测试集性能带来正面和负面的影响,具体取决于模型是否足够训练原始训练例子,但这与是否同时或分别应用五个随 - DisCoCirc 的文本电路的语言无关性:英语和乌尔都语
本文提出了一种新的框架 DisCoCirc,用于使用组合、生成电路来表示文本的语法和语义,证明了针对英语和乌尔都语的限制性片段,DisCoCirc 在消除语言之间的语法差异方面起到了一定作用。
- ACL自然语言理解语料库中否定语分析
本文研究分析了 6 个自然语言理解的任务中,八个流行的语料库中的否定词的使用情况,指出这些语料库中的否定词较少且不重要,而最新的 transformers 在处理含有重要的否定词的实例时表现不佳,因此需要新的包含否定词的语料库来解决自然语言 - 新加坡儿童英语发音的大规模声学表征
本研究通过对新加坡儿童与美国、英国儿童英语发音的比较研究,使用 Kmeans 聚类和原型分析等方法,探究了新加坡英语流派的特点以及其与美国、英国英语流派之间的异同,并发现新加坡英语的元音高度特点独具特色。
- 语音识别系统对抗攻击中的语言依赖性
本文研究比较德语与英语语音识别系统的攻击性漏洞,结果表明生成对抗样本所需的计算工作与其语言模型有关,并鼓励在 ASR 的鲁棒性分析中进一步研究与语言相关的特征。