学习字距 —— 集合估计最优字间距

Feb, 2024

学习字距 —— 集合估计最优字间距

Learning to Kern -- Set-wise Estimation of Optimal Letter Space

Kei Nakatsuru, Seiichi Uchida

TL;DR通过提出两个机器学习模型 —— 具体是 pairwise 模型和 set-wise 模型，本文解决了字距调整的困难，通过对给定字形图像进行估算，实现了一致性更高的字距调整。

Abstract

kerning is the task of setting appropriate horizontal spaces for all possible letter pairs of a certain font. One of the difficulties of kerning is that the appropriate space differs for each letter pair. Therefo

kerning machine-learning models pairwise set-wise models letter images

发现论文，激发创造

无监督的跨语言词向量空间转移

本文提出了一种基于无监督学习的算法，通过分布匹配和最小化回译损失来优化两种语言单词嵌入空间之间的转换函数，使用神经网络计算 Sinkhorn 距离评估性能并在跨语言词汇相似度预测和双语词汇归纳等任务中具有强大的性能。

Sep, 2018

在潜藏度量空间中学习多语言词向量：一种几何方法

本文提出了一种新的几何方法，通过单语嵌入和双语词典学习双语映射，并将其建模为平滑的黎曼流形上的优化问题，旨在解决双语词典感应和多语言学习中的问题。该方法分解了学习源语言到目标语言的变换，包括学习用于将语言特定的嵌入旋转到公共空间的旋转以及学习在公共空间中对嵌入之间相似性进行建模的相似性度量。结果表明，该方法在双语词典感应和跨语言词相似性任务上优于以前的方法，同时还将该框架推广到了多种语言的共同潜在空间表示上，展示了联合学习处理多语言问题的有效性。

Aug, 2018

文本 - 图像匹配的强大且稳健的基准线

本文提出在文本图像匹配中使用新的训练和推导技术，首先通过实验证明了 sum loss 和 max-margin loss 存在的限制，提出了一种新的 kNN-margin loss。其次，在推导时提出一种 Inverted Softmax 和 Cross-modal Local Scaling 的技术，以减轻高维嵌入空间中的 hubness 问题，有效提升了所有指标的表现和得分。

Jun, 2019

语义对齐下的潜在空间翻译

通过简单的转换，我们的研究展示了神经网络模型中学习到的表示可以在不同的预训练网络之间进行转化，从而有效地连接编码器和解码器，并实现在多模态设置下的出色分类性能。

Nov, 2023

用于设备上关键词识别系统自定义的 Few-Shot 开放集学习

本研究针对 KeyWord Spotting 的应用场景，提出了基于 Deep Learning 和 Few-shot Learning 的开放式分类方法，并通过使用三元组损失训练编码器，实现了较高的精度和较低的未知数据虚警率。

Jun, 2023

野外视觉语音识别零样本关键词检测

本论文针对实际应用中未被训练过的词语进行视觉关键词检测的问题，并使用端到端的多层神经网络架构，使用语音图形编码器解决了此问题，该模型在 LRS2 数据集上取得了非常有前途的结果。

Jul, 2018

探索用于小尺寸关键词检测的表示学习

本文探讨了如何利用自监督对比学习和预训练模型来进行低资源关键词检测中的表征学习，通过构建局部 - 全局对比同构网络和利用预训练 Wav2Vec 2.0 模型，该小型模型可以利用未标记的数据进行预训练，实验结果表明在小的标记数据集的情况下，自我训练的 WVC 模块和自监督的 LGCSiam 模块可以显著提高准确性。

Mar, 2023

双语词嵌入密度匹配

该研究提出了一种新的基于高斯混合模型和标准化流的跨语言词嵌入方法，通过学习两种单语嵌入空间的概率密度，实现跨语言词嵌入。实验结果表明该方法在具有不同语言结构、复杂形态和遥远语系的词性能够实现有效的性能提升。

Apr, 2019

通过 Wasserstein 距离实现更紧凑的预期泛化误差界限

本文提出了基于 Wasserstein 距离的预期泛化误差界限，并分别介绍了全数据集、单字母和随机子集限制，以及从 Steinke 和 Zakynthinou [1] 的随机子抽样设置中的类似物。此外，当损失函数有界且选择 Wasserstein 距离中的度量时，这些界从相对熵的基础上得到了更好的下限 (因此是更紧的)。在特定情况下，这些结果可以被看作是考虑了假设空间几何和基于相关熵的界限之间的桥梁。另外，本文还介绍了如何基于这些界限产生各种新的界限，并使用类似的证明技术得出关于后向通道的类似界限。

Jan, 2021

一种基于全局对齐的时间序列内核

本文提出了一种新的核函数族，用于处理时间序列数据（尤其是语音数据），该方法借鉴了动态时间规整（Dynamic Time Warping）的基本操作，并采用动态规划技术来计算最优序列，该核函数是正定的，并且在语音识别任务中表现出令人鼓舞的结果。

Oct, 2006