本文介绍了一种新的基于 Web 的文本注释软件工具 Text Annotation Graphs,它能够提供表示复杂文本之间关系的功能,其特点在于定义和可视化关系本身之间的关系(语义超图),并介绍了使用注释子图或语义摘要来显示文本本身顺序上下文之外的关系,该软件可被广泛应用于任何领域的注释任务。
Nov, 2017
本文针对社交媒体上的文本片段难以准确表达主题这一问题,提出了一种基于 TAG 概念匹配数据集和概念图的图图匹配方法,该方法在利用概念图结构和句法依赖解析中的语义单元逻辑交互方面表现出更好的抽象和概括性能。
Oct, 2021
本研究探讨了一种简单的降低标注成本的方法,即采用分层抽样和控制变量等技术,结合文档成员身份信息和自动评估指标,从而在固定标注预算下获得更高的准确性。在测试集上,相比于纯随机抽样,平均误差降低了高达 20%。该技术易于实现且适用于类似结构的问题。
Apr, 2022
本文针对维基百科上的网页结构,研究了基于锚文本信息的链接预测的困难性和算法,提出了合适的评估抽样方法及基准模型.
May, 2021
本文提出了使用两阶段方法来重写包含大量文本的在线百科全书,通过识别和去除矛盾组件,并使用一种新颖的双编码器序列到序列模型进行扩展,以生成一致性更新的句子。实验结果表明,该方法成功地生成了新的索赔的更新语句,并通过增加重新编写的句子生成合成数据,从而成功地增加了 FEVER 事实检查培训数据集的相对误差降低了 13%。
Sep, 2019
本研究提出了一种两阶段模型 TWAG,结合语义信息引导 Wikipedia 摘要生成,通过不同话题的检测及主题分布预测及构建提出 topic-aware representations 即可生成全面的摘要。
Jun, 2021
通过保留完整的图像、文本和结构数据,Wikipedia Webpage 2M(WikiWeb2M)套件旨在研究多模式网页理解,如页面描述生成、部分摘要和上下文图像说明。
May, 2023
为了研究多模态网页理解,我们介绍了包含两百万个网页的维基百科网页套件(WikiWeb2M),并在页面描述生成、节选总结和内容图像字幕等三个生成任务上验证了其实用性。
通过玩游戏来标注语料库是一种有效的方法,本文提出了一种用于指代和共识关系的语料库,相对于先前发布的语料库,它具有更广泛的领域、更多的标记、更长的文档和更高的标注速度。
Oct, 2022
文中提出了一个在维基百科上添加用户定义标签的界面,并通过一个应用原型来评估它的有效性,以改进文章导航和检索的方法。
Feb, 2012