不再腐朽:一个用于学习社交含义的持久 Twitter 数据集
研究了 30 个推特数据集,发现尽管可用推文的比例随着数据集的老化而降低,但回收到的子集的文本内容仍然在很大程度上代表了最初收集的整个数据集。与此同时,元数据的代表性随时间而减少,这对使用公共的推特数据集的研究人员有重要意义。
Sep, 2017
本文针对用户生成的社交媒体数据不断变化,现有自然语言处理系统无法适应且需要大量重新训练的问题,提出了一种基于非参数分类器的简单有效的时间适应方法,并通过预测长期 Hashtag 变化的任务进行了实验。结果表明,非参数分类器的分类效果相比最佳参数基线提高了 64.12%,而且被动删除用户数据时也表现出极高的性能。
Sep, 2022
本文提出了使用两个单独的定义对同义改述进行识别和生成的必要性,并介绍了一个新的 Twitter 多主题同义改述 (MultiPIT) 语料库,该语料库由两种不同的同义改述定义的众包和专家注释组成,用于同义改述识别,以及一个多参考测试集和一个大型自动构建的训练集,用于同义改述的生成。通过改进数据标注质量和任务特定的同义改述定义,最好的预训练语言模型在我们的数据集上进行微调,达到了 84.2 F1 的最先进性能;此外,我们的实证结果还表明,使用 MultiPIT_Auto 训练的同义改述生成模型与在其他语料库上微调的同义改述生成模型相比,可以生成更多样化且高质量的同义改述。
Oct, 2022
该研究论文主要研究机器学习中的时序转变对社交媒体的影响,通过提出一种统一的评估方案,发现语言模型在不同时间设置下会出现性能下降,尤其在命名实体识别、仇恨言论检测等任务中。而在主题分类和情感分类等任务中,性能下降不明显,同时发现对测试期进行连续预训练并不能提高语言模型的时序适应能力。
May, 2024
本文研究如何将预训练语言模型适应于不断变化的 Web 内容,通过分析 Twitter 数据的演化,探索了词汇组成和抽样方法对语言模型的增量训练的影响,证明了该方法比离线重新训练新模型更具优越性
Jun, 2021
本文介绍了 TimeLMs,这是一组针对历时推特数据的语言模型。采用持续学习策略,增强了其处理未来和分布外推特以及应对特定命名实体和概念漂移等方面的能力,使其与标准和更加单一的基准模型相竞争。
Feb, 2022
本文提出了以 Twitter 数据集为基础的无监督 Transformer 模型,通过解析 Twitter 回复和引用语句来构建海量的非正式文本句子的成对数据集,从而训练生成的语义句子向量,不仅在经典语义文本相似度任务中表现出色,而且在非精确参数化相似句子任务上表现突出。
Oct, 2021
本文提出了一种从 Twitter 采集大规模句子释义的新方法,通过链接共享的 URL,并展示了可以轻松捕捉新的句子释义以及利用其进行下游自然语言处理任务的效用。
Aug, 2017
研究了社交媒体的 NLU,通过动态设置来讨论模型的适应性和使用无标记数据来提高模型的鲁棒性,使用基于自动编码和伪标记的无监督领域自适应和联合框架的实验证明了动态环境对分类精度的普遍负面影响,同时表现出最佳的鲁棒性。
Oct, 2022
该研究提出了一种测量推文潜在趋势的直观方法,用于选择最具信息价值的实例以用于训练命名实体识别的神经模型的更新,实验表明,该方法比其他方法使用更少的训练数据更能提高准确性,是一个实用的解决方案。
Apr, 2021