利用 TalkBank 多个数据集的分层方法
TutorialBank 是一个新的、公开可用的数据集,旨在促进 NLP 教育和研究。该数据集手动收集和分类了超过 6300 个 NLP 以及相关领域的资源,是目前最大的人工选取的旨在用于 NLP 教育的资源语料库之一,而且还创建了搜索引擎和命令行工具,为这些资源进行了注释。
May, 2018
使用智能标记、基于机器学习和自然语言处理的 unsupervised 和 supervised 的标记策略,以及强大的 faceted 浏览框架,为高度异构文档集合提供了一种有效的多方面系统,其中重要的标记策略之一是 KERA 算法,如果让用户进行 buried 在海量不同信息中的军事关键技术文档定位,证明我们的系统是有效的。
Aug, 2013
本文提出了一种基于多任务学习的通用框架,将多类型树库结合起来,通过多级参数共享提高依存解析模型的性能,实验表明该方法可以有效地利用任意源树库来提高目标解析模型的性能。
Jun, 2016
本研究以文獻綜述的目錄生成為挑戰,構建了涵蓋 13.8k 個目錄和 120k 個參考文獻的英文文獻綜述目錄數據集,並通過端到端和管線方法進行了多方面的評估與分析,提出了基於語義和結構相似度的模型性能評估方式。結果顯示,本研究提出的生成方法與評估指標具有較高的效果和品質,並且為以後的相關研究提供了方向。
Apr, 2023
本文提出了一个通过摘要网络和层次聚类技术来提取客户提问的框架,同时对客户的问题进行语法和语义相似度分析,并采用 TF-IDF 和 BERT 计算相似性得分。
Sep, 2021
本文介绍了一个能够支持自然语言处理工作流的开源框架,该框架包含了一个统一的数据表示方法和一个包含处理器、可视化和注释的大型处理库,提供了简单组装和互操作性,并能够轻松扩展以接入其他自然语言和深度学习库。
Mar, 2021
本文描述了一个使用 Kaldi 框架的语音文本处理方法,在不同的语义标记方法中选择组合机器学习模型,并使用决策树进行标记的实验。结果表明,该方法提供了更好的性能和更可解释的模型,对数据准备的复杂性做出了改进,能够对联系中心的运营产生潜在影响。
Mar, 2022
该研究论文探讨了一种自动化系统的开发和应用,该系统旨在从半结构化访谈文本中提取信息。研究发现,对于分析访谈文本,最佳模型是 BERT 嵌入和 HDBSCAN 聚类的组合。论文介绍了一个用户友好的软件原型,使研究人员能够高效处理和可视化访谈数据的主题结构。这个工具不仅有助于定性分析的初始阶段,还揭示了主题之间的相互关联,从而增强了定性分析的深度。
Mar, 2024