利用基于语义相似度的图结构进行高效数据选择的模型训练

ICMLFeb, 2024

利用基于语义相似度的图结构进行高效数据选择的模型训练

Efficient data selection employing Semantic Similarity-based Graph Structures for model training

Roxana Petcu, Subhadeep Maji

TL;DR该研究论文介绍了一种有效的数据抽样机制，通过基于文本信息而不经过计算密集型模型或其他密集预处理转换，将新数据点分类为语音识别难度桶。结果表明，使用该方法比随机预测提高了 93% 的 ASR 性能精确度，并对文本表示在语音模型中的影响提供了重要信息。此外，一系列的实验证明了使用 ASR 信息对模型进行细调的益处和挑战。与随机抽样相比，报告了 7% 的验证损失下降，针对高难度数据集的非局部聚合的 WER 降低了 7%，并且在数据集之间具有高语义相似性的局部聚合下，WER 降低了 1.8%。

Abstract

Recent developments in natural language processing (NLP) have highlighted the need for substantial amounts of data for models to capture textual information accurately. This raises concerns regarding the computational resources and time required for training such models. This paper int

natural language processing data sampling mechanism automated speech recognition models semantic similarity textual representations

发现论文，激发创造

SememeASR: 利用义元语义知识提升端到端语音识别在领域和长尾数据转移上的性能

在语音识别领域，通过引入基于义原的语义知识信息（SememeASR），从知识驱动的角度改进了纯数据驱动方法的问题解决，提高了语音识别的有效性，并增强了模型对长尾数据的识别和领域泛化能力。

Sep, 2023

语音表征的语义丰富化

本研究旨在通过对 SAMU-XLSR 模型进行领域特定语义丰富的专业化，探索这种模型在低资源语言移植中的使用效益，并研究该模型的跨领域能力，以更好地实现复杂口语理解任务中的语义提取。

Jul, 2023

从对话学习语义文本相似度

本论文通过学习使用对话数据学习句子级语义相似性的新方法，利用无监督模型预测对话输入响应对以训练，导出的句子嵌入在语义文本相似性基准测试和 SemEval 2017 的 CQA 问题相似性子任务上表现良好。通过介绍同时进行对话输入响应预测任务和自然语言推理任务的多任务训练来进一步改善性能。广泛的实验显示，所提出的模型在 STS 基准测试中达到了所有神经模型中最佳性能，并且在两个任务中的工程特征和混合系统方面与最先进的混合系统竞争。

Apr, 2018

语义排序：个性化语义相关性的监督学习方法

本文提出了一种基于主观注释的新型监督学习方法来学习统计句子相关性模型，该模型由大规模背景知识语料库中的文本单位关联的参数化共现统计信息组成，并提出了一种高效的算法来从相关性偏好的训练样本中学习语义模型，方法独立于语料库、适用于任何足够大的（非结构化）文本集合，并且可以为特定用户或用户组拟合语义模型。通过广泛的小到大规模实验结果表明，这种方法是有效的，竞争力强。

Nov, 2013

语言语义图引导的数据高效学习

提出了一种利用标签中的语义信息提高数据利用率的新方法，通过构建一种标志为自然语言描述的语义图来训练辅助图神经网络，以提取高层语义关系并指导主模型的训练，在图像、视频和音频模态下，应用该方法在迁移学习和半监督学习场景中展示了显著提高性能的多样性，并且深入分析还表明该方法加速了训练过程。

Nov, 2023

为增强 ASR 训练而选择文本转语音数据

本文提出了一种方法，通过训练神经网络来选择合适的合成语音样本，使其作为自动语音识别模型的辅助训练数据，这在训练中包括有实际的标注数据和合成的数据。在实验中，我们发现将与真实语音具有较大差异性的合成样本（由于词汇差异等原因）纳入到训练中对于提高语音识别性能至关重要，同时，我们的方法可以显著减小文本 — 语音转换（TTS）数据的大小。

May, 2023

用于评估问答模型的语义答案相似度

本论文提出了一种基于交叉编码器的语义答案相似度估计评估度量标准（SAS），与七种现有度量标准进行比较，并通过人类判断的语义相似性评估数据集检验其性能。结果表明，基于最近的 Transformer 模型的语义相似度度量标准与传统的词汇相似度度量标准在新创建的数据集和相关工作的一个数据集上的人类评价更加相关。通过语义相似性度量标准可以提高问答模型评测的准确性。

Aug, 2021

在语义层面衡量视觉相似性的语义相似度分数

基于场景图生成和图匹配的语义评估指标 SeSS 可以测量图像语义级信息的差异，可用于视觉语义通信系统的评估。

Jun, 2024

自我监督的语音表征更加语音学而非语义学

本研究通过对自监督语音模型 (S3Ms) 的单词级别语言属性进行细致分析，发现 S3M 表示对于音韵相似性的相似度比语义相似性更高，并提出了对广泛使用的目标分类数据集进行语义能力评估的疑问。实验证明，即使只使用单词自身的信息，也能超越基于 S3M 的模型，在一些数据集上获得更高的性能，从而证实了研究结果，并暗示高分并不一定意味着语义内容的存在。

Jun, 2024

自然语言和本体分析的语义相似性

本书主要介绍语义相似度估计及其它语义度量学科的两种最先进的方法：自然语言处理技术和语义模型以及基于语义网络、词库或本体论的计算机可读的知识形式。它的目的是为初学者和研究人员提供更好地理解语义相似度估计和更一般的语义度量。

Apr, 2017