基于预训练语言模型的社交媒体时间感知话题识别:以电动汽车为例的案例研究
研究了社交媒体的 NLU,通过动态设置来讨论模型的适应性和使用无标记数据来提高模型的鲁棒性,使用基于自动编码和伪标记的无监督领域自适应和联合框架的实验证明了动态环境对分类精度的普遍负面影响,同时表现出最佳的鲁棒性。
Oct, 2022
研究自动理解社交媒体上的用户生成内容,利用基于序列到序列模型的神经关键短语生成框架提取突出信息,并允许生成缺失关键短语。实验表明该模型在三个数据集中表现优异,能学习有意义的主题,从而解释其在社交媒体关键短语生成中的优越性。
Jun, 2019
社交媒体时代为企业开启了新的机遇,但其中的文本数据分析则面临着诸多挑战。本研究针对嘈杂、大数据背景下的无监督主题提取问题,提出了三种基于变分自编码器框架的方法,并在实际使用案例中对这些方法进行了测试,证明了它们相较于现有方法在主题建模领域能够取得同等或更好的性能,并指出主题建模领域需要改进评估指标。
Jul, 2023
该研究论文主要研究机器学习中的时序转变对社交媒体的影响,通过提出一种统一的评估方案,发现语言模型在不同时间设置下会出现性能下降,尤其在命名实体识别、仇恨言论检测等任务中。而在主题分类和情感分类等任务中,性能下降不明显,同时发现对测试期进行连续预训练并不能提高语言模型的时序适应能力。
May, 2024
本文研究如何将预训练语言模型适应于不断变化的 Web 内容,通过分析 Twitter 数据的演化,探索了词汇组成和抽样方法对语言模型的增量训练的影响,证明了该方法比离线重新训练新模型更具优越性
Jun, 2021
使用 Transformer Language Models 等方法对 Yelp 评论进行语言行为学习,并利用 prompt-based queries 生成合成文本以分析特定观点,证明即使在缺乏特定关键词的情况下,这些模型也能准确产生具有正确情感的大量文本。
Apr, 2022
本文介绍了 TimeLMs,这是一组针对历时推特数据的语言模型。采用持续学习策略,增强了其处理未来和分布外推特以及应对特定命名实体和概念漂移等方面的能力,使其与标准和更加单一的基准模型相竞争。
Feb, 2022
通过随机加权干扰和对比学习策略培训语言模型,并提出元预测器以区分社交媒体文本中的非健康和健康相关类别,实验证明该策略提高了语言模型的性能,元预测器在三个基准数据集上优于现有的健康提及分类预测器。
Oct, 2023
通过建模潜在主题演化,我们提出了 VIBE:Evolution 的变分信息瓶颈,以解决动态文本分类性能下降的挑战。实验表明,在只有 3% 的数据情况下,我们的模型明显优于之前的先进方法。
Oct, 2023