使用维基百科页面快速准确地为短文本进行注释

Jun, 2010

使用维基百科页面快速准确地为短文本进行注释

Fast and accurate annotation of short texts with Wikipedia pages

Paolo Ferragina, Ugo Scaiella

TL;DR该研究通过设计和实现 TAGME 系统，解决了如何在短文本（如搜索引擎结果、新闻和博客等）中准确高效的解决同义词和多义词问题的挑战，并在实验中证明该系统优于现有算法。

Abstract

We address the problem of cross-referencing text fragments with wikipedia pages, in a way that synonymy and polysemy issues are resolved accurately and efficiently. We take inspiration from a recent flow of work

cross-referencing wikipedia tagme textual fragments efficiency

发现论文，激发创造

文本注释图谱：对复杂自然语言现象进行注释

本文介绍了一种新的基于 Web 的文本注释软件工具 Text Annotation Graphs，它能够提供表示复杂文本之间关系的功能，其特点在于定义和可视化关系本身之间的关系（语义超图），并介绍了使用注释子图或语义摘要来显示文本本身顺序上下文之外的关系，该软件可被广泛应用于任何领域的注释任务。

Nov, 2017

利用概念图实现准确的社交媒体内容标记

本文针对社交媒体上的文本片段难以准确表达主题这一问题，提出了一种基于 TAG 概念匹配数据集和概念图的图图匹配方法，该方法在利用概念图结构和句法依赖解析中的语义单元逻辑交互方面表现出更好的抽象和概括性能。

Oct, 2021

机器翻译人类评估的有效性改进探讨

本研究探讨了一种简单的降低标注成本的方法，即采用分层抽样和控制变量等技术，结合文档成员身份信息和自动评估指标，从而在固定标注预算下获得更高的准确性。在测试集上，相比于纯随机抽样，平均误差降低了高达 20%。该技术易于实现且适用于类似结构的问题。

Apr, 2022

利用锚文本信息预测维基百科链接

本文针对维基百科上的网页结构，研究了基于锚文本信息的链接预测的困难性和算法，提出了合适的评估抽样方法及基准模型.

May, 2021

自动基于事实的句子修改

本文提出了使用两阶段方法来重写包含大量文本的在线百科全书，通过识别和去除矛盾组件，并使用一种新颖的双编码器序列到序列模型进行扩展，以生成一致性更新的句子。实验结果表明，该方法成功地生成了新的索赔的更新语句，并通过增加重新编写的句子生成合成数据，从而成功地增加了 FEVER 事实检查培训数据集的相对误差降低了 13%。

Sep, 2019

TWAG：一个主题导向的维基百科摘要生成器

本研究提出了一种两阶段模型 TWAG，结合语义信息引导 Wikipedia 摘要生成，通过不同话题的检测及主题分布预测及构建提出 topic-aware representations 即可生成全面的摘要。

Jun, 2021

WikiWeb2M：一份基于页面级别的多模态 Wikipedia 数据集

通过保留完整的图像、文本和结构数据，Wikipedia Webpage 2M（WikiWeb2M）套件旨在研究多模式网页理解，如页面描述生成、部分摘要和上下文图像说明。

May, 2023

多级多模态网页理解的生成式任务套件

为了研究多模态网页理解，我们介绍了包含两百万个网页的维基百科网页套件（WikiWeb2M），并在页面描述生成、节选总结和内容图像字幕等三个生成任务上验证了其实用性。

May, 2023

聚合众包和自动判断来扩充小说和维基百科文本的先行参照语料库

通过玩游戏来标注语料库是一种有效的方法，本文提出了一种用于指代和共识关系的语料库，相对于先前发布的语料库，它具有更广泛的领域、更多的标记、更长的文档和更高的标注速度。

Oct, 2022

利用社交标签增强维基百科的导航功能

文中提出了一个在维基百科上添加用户定义标签的界面，并通过一个应用原型来评估它的有效性，以改进文章导航和检索的方法。

Feb, 2012