ASET: 文本集合的即席结构化探索 [扩展摘要]

Mar, 2022

ASET: 文本集合的即席结构化探索 [扩展摘要]

ASET: Ad-hoc Structured Exploration of Text Collections [Extended Abstract]

Benjamin Hättasch, Jan-Micha Bodensohn, Carsten Binnig

TL;DR本文提出了一种名为 ASET 的新系统，允许用户以特定方式对文本集合进行结构化探索，使用含有命名实体识别器的现有抽取器首先从文本中提取信息，并使用嵌入依据用户的要求将抽取匹配到结构化表定义中，评估结果显示，ASET 能够高质量地从真实文本集合中抽取结构化数据，而无需事先设计抽取流程。

Abstract

In this paper, we propose a new system called aset that allows users to perform structured explorations of text collections in an ad-hoc manner. The main idea of →

aset structured explorations information nuggets named entity recognizers structured data

发现论文，激发创造

VideoSET：通过文本对视频摘要进行评估

本文提出 VideoSET，一种通过文本评估视频摘要的方法，该方法可以评估视频摘要能否保留其原始视频中包含的语义信息。我们观察到语义最容易用文字来表达，因此开发了一种基于文本的评估方法。通过生成视频摘要的文本表示，然后使用基于 NLP 的度量方法来测量其与人类编写的基准文本摘要的语义距离。我们展示了我们的技术与基于像素距离的度量方法相比具有更高的人类判断一致性。我们还发布了一些公开可用的视频数据集的文本注释和基准文本摘要，供计算机视觉社区使用。

Jun, 2014

重新思考 ASTE：一种最简标签方案与对比学习

该研究提出了一种新的标签方案，并采用对比学习方法来解决细粒度情感分析中的困难，表现出与现有技术相媲美或优越的性能，具有更紧凑的设计和较低的计算开销，甚至在大语言模型时代，显示出比 GPT 3.5 和 GPT 4 在少样本学习场景下更为有效的方法。此研究还为大语言模型范式中 ASTE 技术的推进提供了宝贵见解。

Mar, 2024

用于方面情感三元组提取的语义增强双编码器

本文提出了一个框架，该框架利用了基本的编码器（主要基于 BERT）和一个特殊的编码器，该编码器由 Bi-LSTM 网络和图卷积网络 (GCN) 组成，以捕获不同层次的语义信息并建模评论的依赖关系，通过融合两种编码器的语义，实现了多角度的交互，从而提高了方面 - 意见关系的全面理解，并在基准数据集上进行了有效的实验验证。

Jun, 2023

实体集扩展的自动生成上下文模式

本研究提出了一种新的实体集扩展 (ESE) 范例，即独立于语料库的 ESE，并使用自回归语言模型自动生成高质量的上下文模式，通过 GAPA 框架扩展目标实体，并在三个广泛使用的数据集上进行了全面的实验和详细的分析，结果表明该方法非常有效。

Jul, 2022

使用自动标记数据集的 B-LSTM & CRF 无监督方面术语提取

本文提出了一种在 Supervised ATE 任务中表现最好的架构，同时可作为无人监督 ATE 的特征提取器和分类器，以及一种自动构建 ATE 数据集的方法。我们的无人监督方法优于 SemEval 监督 ABSA 基线，并保持高精确度得分。

Sep, 2017

高度异质性文档集的探索性分析

使用智能标记、基于机器学习和自然语言处理的 unsupervised 和 supervised 的标记策略，以及强大的 faceted 浏览框架，为高度异构文档集合提供了一种有效的多方面系统，其中重要的标记策略之一是 KERA 算法，如果让用户进行 buried 在海量不同信息中的军事关键技术文档定位，证明我们的系统是有效的。

Aug, 2013

CTE：一种用于上下文化表格提取的数据集

该论文提出了一种 Contextualized Table Extraction (CTE) 的任务，目的是根据文档的文本信息来提取和定义表格结构，提供了一个包含超过 35,000 个表格的科学论文的数据集，并且可以用于开发各种任务的端到端流程，包括文档布局分析、表格检测、结构识别和功能分析，并且定义了评估指标，描述了此数据集的优点、限制和未来工作。

Feb, 2023

ATESA-BÆRT: 一个用于基于方面的情感分析的异构集成学习模型

针对多方面情感分析问题，本研究提出了一种名为 ATESA-BÆRT 的异构集成学习模型，通过将问题划分为两个子任务（Aspect Term Extraction 和 Aspect Term Sentiment Analysis）并在每个子任务上使用六个基于 transformer 的学习器，使用 argmax 多类别分类方法，解决了多方面问题并且在实验中表现优于当前最先进解决方案。

Jul, 2023

BiSET: 双向模板选择编码的摘要生成技术

提出了一种名为 BiSET 模型的新型双向选择性编码模型，该模型利用从训练数据中发现的模板，软性选择每个源文章中的关键信息，指导其压缩过程，实验结果显示，该模型显著提高了压缩性能，取得了新的最高水平。

Jun, 2019

历史注意力和选择性转换结合的方面术语抽取

本文针对 Aspect-Based Sentiment Analysis 领域中的关键任务 Aspect Term Extraction，提出了一种新的框架，该框架利用了两个有用的线索：意见汇总和方面检测历史，从而实现有效的 Aspect Term Extraction。实验证明，该框架能够优于所有现有的方法。

May, 2018