TopExNet: 新闻流中以实体为中心的网络主题探索
在腾讯实现了一套新闻内容组织系统(Story Forest),通过在线方式准确快速的从大量新闻文本中提取可区分事件,并将相关事件连接在不断延伸的树形结构中以呈现演变的新闻故事,通过大量实际数据和用户体验研究表明了 Story Forest 相对于其他算法框架可以更好的组织新闻文本并且具有更好的用户体验。
Mar, 2018
提出了一种基于Topic Detection and Tracking的新闻处理系统,采用“replaying”策略将单语局部主题链接成故事,同时使用SBERT进行交叉语言处理,获得了在多个语言数据集上的最新成果。
Apr, 2020
提出了一种基于分布式语义嵌入的主题建模方法 top2vec,不需要预定义的停用词表、词干提取或词形还原等预处理,能够自动确定主题数目,有效地提取语义信息并以主题向量的形式呈现。实验结果表明,top2vec 比传统的生成模型更加优秀。
Aug, 2020
本文介绍了自动化构建特定查询的文档和实体知识图谱(KGs)以及使用排名系统获取相关文件和实体之间的关系的方法,重点关注代码数据集,此外,提到了使用实体反馈技术来改善文档排名效果、适应性KG检索算法和基于图神经网络(GNN)的加权方法等未来的研究方向和挑战。
Nov, 2022
我们提出了一种基于聚类的主题建模方法,使用概念实体作为语言无关的表示,并使用图神经网络从百科全书语料库和知识库中提取实体的向量表示,该方法在连贯性度量方面始终优于其他主题模型。
Jan, 2023
该研究提出了一种基于主题嵌入、动态嵌入和自适应聚类的框架 USTORY 实现了无监督在线故事发现,并在真实新闻数据集上进行了全面评估,结果表明 USTORY 的性能比基线更高,并且具有鲁棒性和可扩展性。
Apr, 2023
本文提出了一种新的查询扩展系统 Event-Centric Query Expansion(EQE),通过从大量的潜在事件中挖掘最佳扩展,快速准确地提高搜索质量,该系统已被部署在腾讯QQ浏览器搜索中,服务于数亿用户。
May, 2023
我们提出了一个主题建模系统工具包(TopMost),它与现有工具包相比,能够涵盖更广泛的主题建模场景,包括完整的周期,包括数据集预处理,模型训练,测试和评估。TopMost具有高度协调和解耦的模块化设计,可以快速利用、公平比较和灵活扩展不同的主题模型。这有助于主题模型的研究和应用。
Sep, 2023
本文介绍了在Wikidata中创建一种将新闻标题映射到事件类别的基准数据集的方法,并提供了用于评估执行映射的方法的资源。我们使用该数据集研究了两类无监督方法:1)经典实体链接方法的改进,以及2)将问题视为零样本文本分类问题的方法。我们评估了现成的实体链接系统和预训练的自然语言推理(NLI)模型以及大型生成式语言模型。我们提供了评估结果、经验教训和未来工作方向。数据集和评估脚本已公开提供。
Dec, 2023
本文提出了一种基于传输计划和上下文感知的层次主题模型(TraCo),通过传输计划依赖方法和上下文感知的解码器来改善层次主题建模的关联性、合理性和多样性,在基准数据集上的实验证明了该方法的优越性。
Jan, 2024