新生语言的语法
该论文提出了一种由词级依赖树转变为字级依赖解析的方法,通过模型化字内的潜在内部结构,在每个词级依赖树中解释为一棵以字级树为基础的森林,采用约束 Eisner 算法确保字级树的兼容性,确保了单一的字内结构根节点,并建立了这些根节点之间的词间依赖关系。对中文树库的实验表明,我们的方法在流水线框架和之前的联合模型上具有优越性。详细分析显示,粗到精的解析策略使模型能够预测出更具语言学可行性的字内结构。
Jun, 2024
通过在 LibriSpeech 100 小时数据集上的实验证明,当仔细选择标记数量时,端到端 ASR 系统的性能会有所提升。
Apr, 2024
这篇论文介绍了一种基于进化和计算语言学的新兴通信(EC)研究,它研究模拟中的代理人通信产生的通信协议,称为新兴语言。研究重点是通过重新解释 Lewis 的信号游戏作为 beta-VAE,并将其目标函数重新表述为 ELBO,从而阐明了新兴语言的先验分布的存在,并展示了先验的选择如何影响其统计性质。实验结果表明,选择适当的先验分布能够产生更加自然的语言片段,而常规的先验则阻止语言遵循 Zipf 法则和 Harris 语音方案。
Nov, 2023
基于 14 种不同词汇大小的 PETA 训练语言模型在 33 个多样的下游数据集上进行了数千次测试,研究表明词汇大小在 50 到 200 之间对于模型的优化最佳,而超过 800 的大小则对模型的表征性能产生不利影响。
Oct, 2023
在大规模预训练语言模型(LLMs)中,我们进行了一项全面研究,探究了分词器选择对下游性能、训练数据集和词汇量的影响。研究发现,分词器的选择可以显著影响模型的下游性能、训练和推理成本,并指出常用的分词器评估指标并不能准确预测模型性能,特别是多语言分词器在词汇量方面需要比英语增加三倍。在训练多语言 LLMs 时,仅采用英语分词器会导致严重的性能下降和高达 68% 的额外训练成本,因为其分词词汇表效率低下。
Oct, 2023
本文提出了 Radio2Text,这是第一个基于毫米波的流式自动语音识别系统,具有超过 13,000 个词汇大小的识别能力。Radio2Text 基于定制的流式 Transformer,有效地学习了与语音相关的特征表示,为具有大词汇量的流式自动语音识别铺平了道路。实验结果表明,Radio2Text 能够对由超过 13,000 个词汇组成的输入实现 5.7% 的字符错误率和 9.4% 的词错误率。
Aug, 2023
通过使用图卷积网络 (GCN) 明确地融合句法结构和在同一句法语义单元 (中文词级) 内字符的编码,以及引入基于图像卷积的结构来捕捉评估单元内字符之间的局部关系,我们提出了一种创新的结构,该结构减少了对预训练语言模型的过度依赖,强调了结构和局部关系的建模,从而提高了模型在中文金融文本上的性能。通过与 Synchronous Double-channel Recurrent Network (SDRN) 和 Grid Tagging Scheme (GTS) 等先进的模型进行比较实验,我们提出的 GCGTS 模型在性能上展现出显著的改进。
Aug, 2023
该研究分析了口头问答中的常见问题,并提出了一种基于语言学方法的 “语义问题改写” 模型,该模型通过修复、句法重塑和泛化等操作,使难以回答的问题变得易于回答,大幅提高了语音助手的准确性。
May, 2023
本文介绍了基于句法结构和语义之间的亲缘关系,并据此进行中间预训练的关系抽取模型。通过使用相关句法关系进行预训练,不需要额外标注的情况下,该模型在六个跨域设置中有五个比基线模型表现更好。
May, 2023
本文通过基于经典的 Lewis(1969)信号模型的变体,探讨了环境条件、认知能力等因素在情境中促进了上下文相关通讯的出现,表明减小词汇规模是实现此目标的条件,由此产生的信号可以无需接收方的消除歧义能力而不产生问题。
May, 2023