利用 TalkBank 多个数据集的分层方法

Jun, 2023

利用 TalkBank 多个数据集的分层方法

A Hierarchical Approach to exploiting Multiple Datasets from TalkBank

Man Ho Wong

TL;DR这篇文章介绍了一个针对 TalkBank 的系统框架，采用层次搜索方法，以及标准化清理元数据的方式，实现了对大数据集的高效筛选和集成。

Abstract

talkbank is an online database that facilitates the sharing of linguistics research data. However, the existing talkbank's API has limited

talkbank database pipeline framework hierarchical search approach metadata

发现论文，激发创造

TutorialBank：一个人工收集的语料库，用于先决条件链、调查提取和资源推荐

TutorialBank 是一个新的、公开可用的数据集，旨在促进 NLP 教育和研究。该数据集手动收集和分类了超过 6300 个 NLP 以及相关领域的资源，是目前最大的人工选取的旨在用于 NLP 教育的资源语料库之一，而且还创建了搜索引擎和命令行工具，为这些资源进行了注释。

May, 2018

高度异质性文档集的探索性分析

使用智能标记、基于机器学习和自然语言处理的 unsupervised 和 supervised 的标记策略，以及强大的 faceted 浏览框架，为高度异构文档集合提供了一种有效的多方面系统，其中重要的标记策略之一是 KERA 算法，如果让用户进行 buried 在海量不同信息中的军事关键技术文档定位，证明我们的系统是有效的。

Aug, 2013

利用多类型树库进行深度多任务学习的解析

本文提出了一种基于多任务学习的通用框架，将多类型树库结合起来，通过多级参数共享提高依存解析模型的性能，实验表明该方法可以有效地利用任意源树库来提高目标解析模型的性能。

Jun, 2016

文献综述的层次目录生成：基准评估

本研究以文獻綜述的目錄生成為挑戰，構建了涵蓋 13.8k 個目錄和 120k 個參考文獻的英文文獻綜述目錄數據集，並通過端到端和管線方法進行了多方面的評估與分析，提出了基於語義和結構相似度的模型性能評估方式。結果顯示，本研究提出的生成方法與評估指標具有較高的效果和品質，並且為以後的相關研究提供了方向。

Apr, 2023

数据驱动的金融领域统计和自然语言处理技术的内容创作

本文提出了一个通过摘要网络和层次聚类技术来提取客户提问的框架，同时对客户的问题进行语法和语义相似度分析，并采用 TF-IDF 和 BERT 计算相似性得分。

Sep, 2021

可组合 NLP 工作流的数据中心框架

本文介绍了一个能够支持自然语言处理工作流的开源框架，该框架包含了一个统一的数据表示方法和一个包含处理器、可视化和注释的大型处理库，提供了简单组装和互操作性，并能够轻松扩展以接入其他自然语言和深度学习库。

Mar, 2021

神奇的数据及如何查询它们

本文介绍了一个用于不同数据集整合和查询的统一框架，并在计算机视觉数据集中展示了其在不同情景下的优势。

Jan, 2022

联系中心领域语音对话分析的综合方法

本文描述了一个使用 Kaldi 框架的语音文本处理方法，在不同的语义标记方法中选择组合机器学习模型，并使用决策树进行标记的实验。结果表明，该方法提供了更好的性能和更可解释的模型，对数据准备的复杂性做出了改进，能够对联系中心的运营产生潜在影响。

Mar, 2022

科学论文大型单主题文献库的交互式蒸馏

利用机器学习技术构建针对科学文献的目标数据集工具，并通过主题建模进行文献综述，应用于机器学习领域。

Sep, 2023

自动化半结构化面试记录中的信息提取

该研究论文探讨了一种自动化系统的开发和应用，该系统旨在从半结构化访谈文本中提取信息。研究发现，对于分析访谈文本，最佳模型是 BERT 嵌入和 HDBSCAN 聚类的组合。论文介绍了一个用户友好的软件原型，使研究人员能够高效处理和可视化访谈数据的主题结构。这个工具不仅有助于定性分析的初始阶段，还揭示了主题之间的相互关联，从而增强了定性分析的深度。

Mar, 2024