- 句子嵌入是否存在可识别的结构部分
利用转换模型的句子嵌入可以编码大量语言信息,探索了这些嵌入是否包含可以分离的重叠信息层,并且可以检测特定类型的信息,如块和它们的结构和语义属性信息。通过使用包含已知块结构的句子数据集和两个语言智能数据集,解决依赖于检测块及其语法数量和语义角 - IJCAI基于对称重叠建模的自监督预训练在场景文本识别中的应用
通过 Symmetric Superimposition Modeling (SSM) 方法,该研究致力于同步捕捉文本图像中的字符特征和语言信息,并在各种文本识别基准测试中展示了其有效性和广泛性,以平均 4.1% 的性能提升和 86.6% - ST-LDM:现实图像中基于文本引导的物体生成的通用框架
我们提出了一种称为文本引导对象生成(TOG)的新型图像编辑场景,即在实际图像中通过文本描述在空间上生成一个新的对象。我们的模型基于 Swin-Transformer,具有全局感知自编码器和适应性压缩尺度以及分层视觉特征,用于生成下一个去噪过 - 用于生成意大利语复杂概念描述的领域嵌入
提出了一种分布语义资源,该资源包含从电子词典提取的语言和词汇信息,通过领域特定的共现矩阵来桥接分布向量和一般语义理论之间的差距,并通过两个实验验证了该资源的有效性,实现了动物名词的自动分类和特征提取。
- MLP 指南针:当 MLP 与 PLM 相结合时学到了什么?
本研究探讨了使用多层感知器(MLPs)模块是否可以进一步提高预训练语言模型(PLMs)捕捉语言信息的能力,实验结果表明 MLPs 确实可以增强 PLMs 对语言结构的理解能力。
- EMNLP子空间编年史:语言信息在语言模型训练中的产生、转变和交互
利用信息论探测套件,我们分析了 9 项任务,涵盖语法、语义和推理,在 2 百万次预训练步骤和 5 个种子中,识别了关键学习阶段,语法知识在全面训练的 0.5% 后迅速获得,持续性能改善主要来自对开放域知识的获取,而语义和推理任务则受益于后期 - EMNLP探测是否足够?指示性任务作为探测嵌入空间的替代方法
通过引入非可训练任务(指标任务),我们展示了利用适当的指标可以更准确地获取嵌入表示中的信息,并较之探测任务的结果更能反映嵌入空间中存在的属性。因此,我们认为在提取嵌入表示的信息时应考虑实施和考虑指标任务。
- 通过线性结构探测研究变压器句子嵌入的语义子空间
以语义结构探测为方法,对来自不同家族(仅编码器、仅解码器、编码解码器)和大小的语言模型进行实验,评估其在语义文本相似度和自然语言推理方面的性能和层次动态,发现模型家族在性能和层次动态上存在显著差异,但结果大部分与模型大小无关。
- 自我监督的语音模型对单词的了解程度如何?
本研究发现,不同的自监督语音模型可以在不同的层次编码语言特征,在中间层最大程度地捕获了词级的信息,同时在较高层保留了发音等低层次信息,并用在无额外参数的情况下测试了这些模型的层次表现,同时发现使用 HuBERT 或 WavLM 的最佳表现层 - 自监督语音模型探测音素和音位信息:以送气现象为案例研究
本文评估了自我监督语音模型的学习表示与人类语音的差异,结果表明这些模型在语音数据的优化和高维架构的帮助下成功地捕捉了语音的基本音素和音位特征,尤其是 speech-trained HuBERT 模型实现了抽象音位差异的低噪声和低维子空间。
- 遮盖和置乱隐式上下文学习用于场景文本识别
本文提出了一种利用语言信息来增强场景文本识别模型鲁棒性的方法,通过将 Masked Language Modeling (MLM) 和 Permuted Language Modeling (PLM) 结合到一个单一解码体系结构中,引入特定 - 具有语言信息的强调表达 TTS 技术
提出了一种基于 EE-TTS 的强调语音合成模型,该模型利用多层语言信息进行韵律信息的预测,并同时进行语音合成和语言信息输出,并经过实验证明其优于基线模型,并且在不同数据集上也具有较强的泛化能力。
- 人类语言的假观念:为何统计学需要语言学
研究语言处理的统计表面分布和基于句法信息的离散分层结构之间的紧张关系,揭示了只有反映句法结构的 surprisal 模型能够解释语言的规律性。
- 大脑和语言模型中语言属性的联合处理
本论文探讨了语言模型和大脑之间语言处理的关系,指出语言模型中特定的语言学信息对大脑对语言刺激的反应有显著的影响,并提供了新的方法来揭示两个系统之间的信息处理.
- 具有 CTC 嵌入的语言增强变压器模型用于语音识别
本文介绍了一种基于联合 CTC-Attention 模型的改进方法 —— 语言增强变压器,它通过在训练过程中将改进的 CTC 信息引入解码器,从而使其更加鲁棒,在 AISHELL-1 语音语料库上的实验表明,字符误差率(CER)减少了高达 - 探寻嵌入的纹理:探讨嵌入的构造
通过引入噪音亚百特信息编码的向量空间,使用探测框架扩展方法,研究了 GloVe 和 BERT 嵌入中向量范数如何编码不同种类的信息,发现 GloVe 在向量范数中存储了句法和句子长度信息,而 BERT 则将其用于编码上下文不连贯信息。
- 阿拉伯语 Transformer 模型的事后分析
对在不同阿拉伯语方言上训练的 transformer 模型进行层与神经元分析,研究有趣的发现如下:①单词形态在较低和中间层次上学习,②句法依赖在较高层次上被捕获,③虽然 MSA 模型的词汇表与方言词汇表有很大重叠,但仍然无法捕捉阿拉伯语方言 - KeypartX: 基于图形的感知 (文本) 表示
本研究提出了一种基于图形的 KeypartX 方法,用于通过语言信息(语义、句法和语用)提取文本的知识表示,可适用于大数据且不仅仅是基于词袋 / 向量的机器学习,同时适用于文本最小单元:句子。
- 关于以词语计算(CWW)方法的简要介绍和调查
本文简要介绍了人类天生利用模糊语言信息(LI)的能力,以及计算语言(CWW)的提出,重点介绍了 CWW 的基础和最新方法,旨在为感兴趣的研究人员提供全面且易于理解的指南。
- TArC: 突尼斯阿拉伯语语料库的首个完整版本发布
本研究在于使用阿拉伯语拉丁写法(Arabizi)对突尼斯阿拉伯语进行编码,在此基础上创建了一个包含语料库和 NLP 工具的资源,用于提供各级语言信息的词语分类、音译、标记、词形归总等,并讨论了使用计算和语言方法进行研究路径和实验的策略等问题