表意文字信息帮助学习自然语言推理的更好表示

ACLNov, 2022

表意文字信息帮助学习自然语言推理的更好表示

Logographic Information Aids Learning Better Representations for Natural Language Inference

Zijian Jin, Duygu Ataman

TL;DR本文通过自然语言推理任务探讨提供语言模型与既有表意图形（glyph）信息相结合的多模态特征，在语义表示学习中获得更好的性能，表明在使用表意文字的语言中，特别是对于使用频率较低的词，使用多模态嵌入有显著效果。

Abstract

statistical language models conventionally implement representation learning based on the contextual distribution of words or other formal units, whereas any information related to the →

statistical language models logographic features representation learning multi-modal embeddings natural language inference

发现论文，激发创造

利用子字符级信息的表意文字神经机器翻译

该研究着眼于汉字与英文字母等不同书写语言之间的差异，并使用了一种简单的方法来利用汉字更细致的结构信息，以提高神经机器翻译系统的性能。结果表明，这种方法不仅改进了汉英翻译，还进一步改进了汉日翻译，因为它利用了类似汉字部首的共享信息。

Sep, 2018

汉字的字形感知嵌入

本文提出了一种新的基于汉字视觉外观的表示方法，采用卷积神经网络来将汉字的空间 - 结构模式以原始像素的方式统一表示，从而在两个基本的中文 NLP 任务：语言建模和分词中有效地表征了每个字符的语义和句法信息。

Aug, 2017

利用图书馆学习找出表意文字书写中的结构

人类语言的一个特点是组合性 —— 通过重复使用相对较小的基本单元，创建出较为庞大、越发复杂的结构。本文探索了语言中组合性反映了人类对符号系统中表现效率的归纳偏见这一观点。我们使用先进的库学习和程序合成技术，开发了一个计算框架来发现一种写作系统中的结构。计算框架在中国的写作系统中发现了已知的语言结构，并揭示了系统在表现效率的压力下向简化方向演化的过程。我们演示了如何通过利用学到的抽象和压缩的图书馆学习方法，揭示出构成人类认知中组合结构创造的基本计算原则，并对有效沟通系统的演化提供更广泛的见解。

May, 2024

跨文字系統的無監督雙語詞彙彙編

本文研究了使用无监督双语词汇识别中基于嵌入的最新方法，提出了一种使用拼写信息的强化方法，并提出了一种可以学习和利用具有不同语言间的正字对应关系的方法。实验结果表明该方法在使用不同文字和不同词汇相似度的三种语言对上表现出了很好的效果。

Jan, 2020

多体裁广播转写的语音声学和书写系统

本文研究了英语自动语音识别系统中使用不同词典（phonetic、graphemic）的性能差异，考察了不同系统组合方法对性能的影响，最终发现混合使用 phonetic 和 graphemic 系统能获得更好的表现。

Feb, 2018

从汉字字形学习中文词表示

本文提出了使用卷积自编码器学习汉字字形特点来增强中文词表示的新方法，并且创建了多个公共的评估数据集。

Aug, 2017

学习使用 Denotation Graph 表示图片和文本

本文提出利用暗示的视觉引导表达学习表示，自动地从图像和文本的数据集中挖掘出的结构关系，用于多模态学习模型中的视觉语言融合任务，证明了该方法在跨模态图片检索、指代表达和组合属性对象识别中的有效性。

Oct, 2020

语言学框架在神经符号语言建模中展开激烈较量

本文探讨了语言图表示在理论上能否 complement 并提高神经语言建模的能力。通过集成一个预训练的 Transformer 和七种不同形式主义的 ground-truth 图，研究发现，总体而言，语义组成结构对于语言建模的性能最有用，超越了句法组成结构以及句法和语义依存关系结构。此外，这种效应在不同的词性类别中差异很大。总之，我们的研究结果为神经符号语言建模带来了有前途的倾向，并邀请未来研究 quantifying 不同形式主义所做的设计选择。

Dec, 2021

Glyce: 用于中文字符表示的字形向量

通过引入历史汉字、设计面向中文的卷积神经网络结构、利用图像分类作为多任务学习的辅助任务，我们提出了基于字形向量的中文字符表示方法 Glyce，并在中文自然语言处理任务中取得了比基于字或词的模型更好的性能。

Jan, 2019

通过图片学习语言

该研究提出了 Imaginet 模型，该模型可以从耦合文本和视觉输入中学习语言表达的视觉基础表示，采用多任务目标，并从视觉场景描述中获取单词的含义表达，并学习有效地利用语义解释多词短语的顺序结构。

Jun, 2015