使用嵌入技术对抗冗余和模型衰减

MMSep, 2018

使用嵌入技术对抗冗余和模型衰减

Fighting Redundancy and Model Decay with Embeddings

Dan Shiebler, Luca Belli, Jay Baxter, Hanchen Xiong, Abhishek Tayal

TL;DR本文介绍了 Twitter 在处理海量信息时的一种解决方案，通过采用嵌入模型，实现了同时考虑模型效率与数据分布的算法更新，从而降低因语言变化带来的协变量漂移、减少冗余，并极大地提高了团队建模的效率。

Abstract

Every day, hundreds of millions of new Tweets containing over 40 languages of ever-shifting vernacular flow through twitter. Models that attempt to extract insight from this firehose of information must face the torrential covariate shift that is endemic to the →

twitter covariate shift embedding models algorithm retraining data distribution

发现论文，激发创造

动态语言模型用于不断演变的内容

本文研究如何将预训练语言模型适应于不断变化的 Web 内容，通过分析 Twitter 数据的演化，探索了词汇组成和抽样方法对语言模型的增量训练的影响，证明了该方法比离线重新训练新模型更具优越性

Jun, 2021

缓解时间漂移：保持 NER 模型清晰的简单方法

该研究提出了一种测量推文潜在趋势的直观方法，用于选择最具信息价值的实例以用于训练命名实体识别的神经模型的更新，实验表明，该方法比其他方法使用更少的训练数据更能提高准确性，是一个实用的解决方案。

Apr, 2021

语义推文表示的解释

使用多种模型，比较了 9 个 tweet 表征表示在 8 个文本和 5 个社交元素属性上的表现，Bi-directional LSTM（BLSTM）和 Skip-Thought Vectors 最能编码文本和社交属性，在低资源情况下表现不错的是 FastText。

Apr, 2017

公共领域感知映射的简单动态词嵌入

本文提出了一个统一动态嵌入模型，它能学习属性特定的单词嵌入，在历史语料库中调查了性别、种族和难民等方面的偏见。结果发现，动态嵌入模型与独立向量空间模型相比，在表示语言偏见方面更具优越性或更劣。

Apr, 2019

跨领域语义增强在检测抑郁语言中的综合实证分析

研究在数据量少的情况下，如何利用数据增强方法，将大规模预训练语料库中的词向量嵌入模型与特定领域语料库中的词向量嵌入模型相结合，以提高在抑郁语言检测任务中的表现，结果显示该数据增强方法可以显著提高模型性能。

Jun, 2021

统一嵌入：面向 Web 规模 ML 系统的经过实战测试的特征表示

介绍了一种名为特征复用的高效且高效的框架，该框架通过使用单个表示空间跨越许多不同的分类特征，解决了特征嵌入算法中的瓶颈。在三个公共基准数据集上，多路复用表示法导致 Pareto 最优的参数 - 准确性权衡。统一嵌入给出了显着的纠正 Web-Scale 的离线和在线指标的结果。

May, 2023

将复杂性嵌入数据表示而非模型：异质医学数据案例研究

本文提出使用语义嵌入方法，将原始、杂乱的临床数据直接与下游学习架构耦合，以实现最小化预处理。我们从捕捉和编码数据表示中的复杂数据依赖性的角度考虑这一步骤，而不是在模型中实现，该方法允许使用快速，轻量级和简单的模型进行下游处理，对于没有机器学习专业知识的研究人员非常有用。我们通过三个典型的临床预测任务证明了高度压缩的嵌入数据表示捕获了大量有用的复杂性，尽管在某些情况下，压缩并非完全无损。

Feb, 2018

NewsEmbed: 预训练文档表示模型对新闻进行建模

本文提出了一个新颖的方法，使用少量人为监督来挖掘具有语义相关性的新鲜文档及其主题标签，并设计了一个多任务模型 - NewsEmbed，交替使用对比学习和多标签分类来推导通用文档编码器，在多个自然语言理解任务中实现了出色的性能表现。

Jun, 2021

历时词向量和语义漂移：一项调查

本文综述了当前关于使用预测型词嵌入模型追踪词汇语义时序变化和语义漂移检测的学术研究现状，并讨论了该领域的挑战和应用前景。

Jun, 2018

理解词嵌入的下游不稳定性

对现代自然语言处理管道的核心构建块 —— 预训练词嵌入的稳定性进行深入研究，通过提出新的嵌入不稳定性度量来解释模型训练的不稳定性，并提出提高嵌入存储大小以达到降低不稳定性的稳定性 - 内存权衡。

Feb, 2020