新生语言的语法

EMNLPOct, 2020

The Grammar of Emergent Languages

Oskar van der Wal, Silvan de Boer, Elia Bruni, Dieuwke Hupkes

TL;DR本文使用无监督语法归纳技术分析参考游戏中出现的语言的句法属性，证明了这些技术适用于分析新兴语言，并研究了语言的出现是否具有句法结构，及其程度依赖于消息的最大长度和代理可以使用的符号数量。实验表明，需要一定的消息长度和词汇量，才能形成结构，但也说明需要更复杂的游戏场景才能获得更接近人类语言的语法性质。我们认为，无监督语法归纳技术应成为分析新兴语言的标准工具，并发布了一份全面的库以方便未来研究者进行分析。

Abstract

In this paper, we consider the syntactic properties of languages emerged in referential games, using unsupervised grammar induction (UGI) techniques originally designed to analyse natural language. We show that the considered UGI techniques are appropriate to analyse →

unsupervised grammar induction techniques referential games emergent languages syntactic structure vocabulary size

发现论文，激发创造

基于潜在内部词结构建模的字符级中文依存句法分析

该论文提出了一种由词级依赖树转变为字级依赖解析的方法，通过模型化字内的潜在内部结构，在每个词级依赖树中解释为一棵以字级树为基础的森林，采用约束 Eisner 算法确保字级树的兼容性，确保了单一的字内结构根节点，并建立了这些根节点之间的词间依赖关系。对中文树库的实验表明，我们的方法在流水线框架和之前的联合模型上具有优越性。详细分析显示，粗到精的解析策略使模型能够预测出更具语言学可行性的字内结构。

Jun, 2024

一种在端到端 ASR 系统中修复分词器词汇大小的成本最小化方法

通过在 LibriSpeech 100 小时数据集上的实验证明，当仔细选择标记数量时，端到端 ASR 系统的性能会有所提升。

Apr, 2024

Lewis 的信号游戏作为 beta-VAE 用于自然词长度和分割

这篇论文介绍了一种基于进化和计算语言学的新兴通信（EC）研究，它研究模拟中的代理人通信产生的通信协议，称为新兴语言。研究重点是通过重新解释 Lewis 的信号游戏作为 beta-VAE，并将其目标函数重新表述为 ELBO，从而阐明了新兴语言的先验分布的存在，并展示了先验的选择如何影响其统计性质。实验结果表明，选择适当的先验分布能够产生更加自然的语言片段，而常规的先验则阻止语言遵循 Zipf 法则和 Harris 语音方案。

Nov, 2023

PETA: 基于亚词分词的蛋白质迁移学习对下游应用的影响评估

基于 14 种不同词汇大小的 PETA 训练语言模型在 33 个多样的下游数据集上进行了数千次测试，研究表明词汇大小在 50 到 200 之间对于模型的优化最佳，而超过 800 的大小则对模型的表征性能产生不利影响。

Oct, 2023

LLM 培训的标记器选择：微不足道还是至关重要？

在大规模预训练语言模型（LLMs）中，我们进行了一项全面研究，探究了分词器选择对下游性能、训练数据集和词汇量的影响。研究发现，分词器的选择可以显著影响模型的下游性能、训练和推理成本，并指出常用的分词器评估指标并不能准确预测模型性能，特别是多语言分词器在词汇量方面需要比英语增加三倍。在训练多语言 LLMs 时，仅采用英语分词器会导致严重的性能下降和高达 68% 的额外训练成本，因为其分词词汇表效率低下。

Oct, 2023

Radio2Text: 使用 mmWave 无线电信号的流式语音识别

本文提出了 Radio2Text，这是第一个基于毫米波的流式自动语音识别系统，具有超过 13,000 个词汇大小的识别能力。Radio2Text 基于定制的流式 Transformer，有效地学习了与语音相关的特征表示，为具有大词汇量的流式自动语音识别铺平了道路。实验结果表明，Radio2Text 能够对由超过 13,000 个词汇组成的输入实现 5.7% 的字符错误率和 9.4% 的词错误率。

Aug, 2023

中国金融文本情感挖掘：GCGTS -- 基于字符关系的同时提取方面 - 观点对的方法

通过使用图卷积网络 (GCN) 明确地融合句法结构和在同一句法语义单元 (中文词级) 内字符的编码，以及引入基于图像卷积的结构来捕捉评估单元内字符之间的局部关系，我们提出了一种创新的结构，该结构减少了对预训练语言模型的过度依赖，强调了结构和局部关系的建模，从而提高了模型在中文金融文本上的性能。通过与 Synchronous Double-channel Recurrent Network (SDRN) 和 Grid Tagging Scheme (GTS) 等先进的模型进行比较实验，我们提出的 GCGTS 模型在性能上展现出显著的改进。

Aug, 2023

通过语义重构在口语问答中回答未解决的问题

该研究分析了口头问答中的常见问题，并提出了一种基于语言学方法的 “语义问题改写” 模型，该模型通过修复、句法重塑和泛化等操作，使难以回答的问题变得易于回答，大幅提高了语音助手的准确性。

May, 2023

跨域关系抽取的银语法预训练

本文介绍了基于句法结构和语义之间的亲缘关系，并据此进行中间预训练的关系抽取模型。通过使用相关句法关系进行预训练，不需要额外标注的情况下，该模型在六个跨域设置中有五个比基线模型表现更好。

May, 2023

环境限制下的情境依赖性沟通

本文通过基于经典的 Lewis（1969）信号模型的变体，探讨了环境条件、认知能力等因素在情境中促进了上下文相关通讯的出现，表明减小词汇规模是实现此目标的条件，由此产生的信号可以无需接收方的消除歧义能力而不产生问题。

May, 2023