表意文字信息帮助学习自然语言推理的更好表示
该研究着眼于汉字与英文字母等不同书写语言之间的差异,并使用了一种简单的方法来利用汉字更细致的结构信息,以提高神经机器翻译系统的性能。结果表明,这种方法不仅改进了汉英翻译,还进一步改进了汉日翻译,因为它利用了类似汉字部首的共享信息。
Sep, 2018
本文提出了一种新的基于汉字视觉外观的表示方法,采用卷积神经网络来将汉字的空间 - 结构模式以原始像素的方式统一表示,从而在两个基本的中文 NLP 任务:语言建模和分词中有效地表征了每个字符的语义和句法信息。
Aug, 2017
人类语言的一个特点是组合性 —— 通过重复使用相对较小的基本单元,创建出较为庞大、越发复杂的结构。本文探索了语言中组合性反映了人类对符号系统中表现效率的归纳偏见这一观点。我们使用先进的库学习和程序合成技术,开发了一个计算框架来发现一种写作系统中的结构。计算框架在中国的写作系统中发现了已知的语言结构,并揭示了系统在表现效率的压力下向简化方向演化的过程。我们演示了如何通过利用学到的抽象和压缩的图书馆学习方法,揭示出构成人类认知中组合结构创造的基本计算原则,并对有效沟通系统的演化提供更广泛的见解。
May, 2024
本文研究了使用无监督双语词汇识别中基于嵌入的最新方法,提出了一种使用拼写信息的强化方法,并提出了一种可以学习和利用具有不同语言间的正字对应关系的方法。实验结果表明该方法在使用不同文字和不同词汇相似度的三种语言对上表现出了很好的效果。
Jan, 2020
本文研究了英语自动语音识别系统中使用不同词典(phonetic、graphemic)的性能差异,考察了不同系统组合方法对性能的影响,最终发现混合使用 phonetic 和 graphemic 系统能获得更好的表现。
Feb, 2018
本文提出利用暗示的视觉引导表达学习表示,自动地从图像和文本的数据集中挖掘出的结构关系,用于多模态学习模型中的视觉语言融合任务,证明了该方法在跨模态图片检索、指代表达和组合属性对象识别中的有效性。
Oct, 2020
本文探讨了语言图表示在理论上能否 complement 并提高神经语言建模的能力。通过集成一个预训练的 Transformer 和七种不同形式主义的 ground-truth 图,研究发现,总体而言,语义组成结构对于语言建模的性能最有用,超越了句法组成结构以及句法和语义依存关系结构。此外,这种效应在不同的词性类别中差异很大。总之,我们的研究结果为神经符号语言建模带来了有前途的倾向,并邀请未来研究 quantifying 不同形式主义所做的设计选择。
Dec, 2021
通过引入历史汉字、设计面向中文的卷积神经网络结构、利用图像分类作为多任务学习的辅助任务,我们提出了基于字形向量的中文字符表示方法 Glyce, 并在中文自然语言处理任务中取得了比基于字或词的模型更好的性能。
Jan, 2019
该研究提出了 Imaginet 模型,该模型可以从耦合文本和视觉输入中学习语言表达的视觉基础表示,采用多任务目标,并从视觉场景描述中获取单词的含义表达,并学习有效地利用语义解释多词短语的顺序结构。
Jun, 2015