CN-Probase:面向大规模的中文分类体系构建的数据驱动方法
本文提出了一种基于专利合作分类(CPC)的技术术语分类自动化方法,生成的分类包含 9 个独立技术分支中的约 170k 个节点,并且使用 Text-to-Text Transfer Transformer (T5) 模型 fine-tune 生成上下位词并得到相对较高的准确性,从而证明了此资源的质量。T5 模型可以打开新的技术术语的分类(根据上下位关系),因此这个资源可以更新,是技术术语领域不断发展的必要特性。
Nov, 2022
本文提出了一种自动构建以任务为导向的分类体系的方法,名为 HiExpan,该方法通过从语料库中自动生成关键术语列表并逐步扩大种子分类体系来构建分类体系,并结合弱监督关系抽取模块来调整分类树的全局结构,实验证明该方法在不同领域的构建任务中具有良好的效果。
Oct, 2019
我们提出了 EvalWeb,一种从嘈杂的网络数据中提取中文干净文本的完整工具链,用于帮助大型语言模型的研究。使用这种方法,我们发布了最大和最新的大规模高质量中文网络文本 ChineseWebText,其中包含 1.42 TB 的文本,并为每个文本分配了一个质量评分,从而方便 LLM 研究人员根据所需质量阈值选择数据。我们还发布了一个质量超过 90% 的 600 GB 中文数据的更清洁子集。
Nov, 2023
本文提出了一种自我监督和用户行为导向的产品分类法拓展框架,通过从现有的分类法和用户点击日志中抽取用户感兴趣的候选下义词关系并利用预训练语言模型和图神经网络结合对比学习来建模概念和关系,以自动将新概念附加到现有分类法,从而减少手动更新的人力成本。
Mar, 2022
本文提出了 “视觉分类法扩展”(VTE),将视觉特征引入分类法扩展任务。我们提出了文本上位词学习任务和视觉原型学习任务,以聚类文本和视觉语义。除了各自的任务外,我们还引入了超原型约束,整合文本和视觉语义以产生细粒度的视觉语义。在两个数据集上对我们的方法进行评估,我们获得了令人信服的结果。特别在中文分类法数据集上,我们的方法的准确度提升了 8.75%。此外,我们的方法在中文分类法数据集上的表现优于 ChatGPT。
Sep, 2023
我们在本文中探索一种方法,该方法灵感来自两种方法:迭代和交互过程,以便在识别数据中的概念时进行概念的细化和定义。我们证明这种方法可应用于各种数据源,并能产生更直接与本体集成的分类学。
Dec, 2023
本文提出了名为 ATTEMPT 的两阶段方法,通过找到父节点并标记子节点的方式,将新概念插入正确的位置。利用预训练的语言模型进行上下位关系识别,通过合并本地节点和提示生成自然语句。实验结果表明,ATTEMPT 在分类系统补全和扩展任务上表现最佳,超过了现有方法。
Jun, 2024
本文提出了一种基于文本和图像的概率模型,通过端到端特征设计实现自动构建上位词分类法。通过小型本体数据的判别训练,该模型可以从头开始为具有关联图像的未知概念标签构建完整的分类法。在 WordNet 层次结构的评估中,本系统的表现优于以往方法。
Jun, 2016
本文介绍了 CLUE 组织的中文语料库 CLUECorpus2020,它是一个大规模的语料库,可直接用于自监督学习。它有 100G 原始语料库,其中包含 350 亿个中文字符,可以用于语言生成和语言模型的预训练。该论文进行了小型和大型的语言理解实验,结果显示训练在此语料库上的模型可以在中文上取得出色的性能。作者还发布了一个新的中文词汇表和经过预训练的模型(大型和小型版本),并将其代码和数据集发布在 Github 上供社区使用。
Mar, 2020