通过近十年的食品推文学到什么
研究社交媒体上食品语言的预测能力,通过三百万个相关推特文章的语料库,演示可以直接从数据中预测许多潜在的人口特征,包括超重率、糖尿病率、政治倾向和作者的家庭地理位置,所有任务的基于语言的模型都显著优于多数基线。最后,我们设计和实现了一个在线系统,用以实时查询和可视化数据集。
Sep, 2014
本文研究了利用推特进行营养数据收集与分析的可行性,通过关联 210K 用户推特中提及的饮食体验与其兴趣、社交网络等因素,以推断全美国人的饮食习惯;进一步根据提及的食物名称和人口统计学变量预测县级肥胖症和糖尿病数据,结果较之前的研究表现更佳;最后,还根据提到社会和经济因素的数据,研究了肥胖症的社会因素。
Dec, 2014
本研究探讨拉脱维亚的一组推文数据集,以及关于不同天气条件下的平均温度,降雨量和其他现象的天气观测数据集。我们发现具体的天气条件带来了特定的食品信息分享,并自动分类推文情感,并讨论其与天气的关系。研究对大规模社交网络数据理解食品消费者的选择和看法的增长领域做出了贡献。
Apr, 2023
本文介绍了 TweetsKB,一个公开的包含超过 15 亿推特的语料库,涵盖了近五年的时间,以及使用了成熟的 RDF/S 词汇表提取和注释了推特的元数据信息、实体、主题和情感信息。通过实体为中心的信息探索、数据集成和知识发现的用例来演示 TweetsKB 的应用。
Oct, 2018
描述了 TweetsCOV19 的基本特征和分析,这是一个公开可用的包含超过 800 万推特的知识库,旨在为大量知识发现任务提供前所未有的数据集。
Jun, 2020
本文介绍了一种基于深度神经网络的技术框架,用于在 Twitter 上连续纵向地识别和分析选举相关的对话,其模型可以将选举相关的推文检测的 F 分数为 0.92,并将这些推文分类为 22 个主题,其 F 分数为 0.90。
May, 2016
本论文使用多语言句子嵌入的神经网络对欧洲 COVID-19 疫情爆发期间收集的 Twitter 消息进行情感分析,并将结果按来源国分离,通过与国家事件的相关性进行时间性发展的相关性分析,研究疫情对人们情绪的影响。
Aug, 2020
该文介绍了 GeoCoV19—— 一个包含 524 百万条推文的大规模 Twitter 数据集,通过基于地名词典的方法来推断推文的地理位置,而这一大规模、多语言、地理定位的社交媒体数据可以帮助研究社区评估社会如何共同应对这一前所未有的全球危机,以及建立计算方法来应对如识别假新闻,理解社区的知识差距,建立疾病预测和监测模型等挑战。
May, 2020
本文介绍了手工注释的一组含有 10,000 条推特的语料库,内容包括 COVID-19 相关的正反测试结果、死亡、拒绝测试、声称的治疗和预防措施等五类事件。这篇文章证明了这个语料库可以支持基于 BERT 的分类器的微调,以自动提取公共报告的事件,并帮助追踪新病毒传播。通过从数百万推文中提取事件,我们还展示了对于复杂问题的高准确度的唯一回答。我们将向研究界公开发布我们的语料库(已移除用户信息)、自动提取模型和相应的知识库。
Jun, 2020
本文描述了一个基于互联网语言使用的语料库,重点介绍如何利用这个语料库进行数据驱动的语言映射;通过提供有关全球语言使用的信息来支持本地化语种,并且通过对比人口统计学数据和 Twitter 数据来分析数字语言数据代表实际人口的程度。
Apr, 2020