LEGION: 利用预训练语言模型进行 GitHub 主题推荐的分布平衡损失

Mar, 2024

LEGION: 利用预训练语言模型进行 GitHub 主题推荐的分布平衡损失

LEGION: Harnessing Pre-trained Language Models for GitHub Topic Recommendations with Distribution-Balance Loss

Yen-Trang Dang, Thanh-Le Cong, Phuc-Thanh Nguyen, Anh M. T. Bui, Phuong T. Nguyen...

TL;DR开源开发背书了软件行业，“Legion” 是一个使用预训练语言模型为 GitHub 仓库推荐主题的新方法，通过利用 PTM 的广泛能力来捕捉 GitHub 仓库的上下文信息和语义含义，通过提出分布平衡损失来解决 PTM 中偏向热门主题的挑战，并通过过滤器消除模糊的建议，从而改进了 PTM 的精度。在实际基准数据集上的实证评估表明，“Legion” 在推荐 GitHub 主题方面比原始 PTM 提高了 26%，在精确度和 F1 得分方面平均提高了 20% 和 5%。

Abstract

open-source development has revolutionized the software industry by promoting collaboration, transparency, and community-driven innovation. Today, a vast amount of various kinds of open-source software, which form networks of repositories, is often hosted on GitHub - a popular software

open-source development github repositories topic recommendation pre-trained language models legion

发现论文，激发创造

ML-Bench：大型语言模型基于开源库进行机器学习任务

通过使用开源库完成机器学习任务，本文旨在提出一种新的评估设置，以评估大型语言模型（LLMs）在实际编程中的适用性，并介绍了 ML-Bench 和 ML-Agent 两个工具，用于评估 LLMs 在利用开源函数时的有效性。

Nov, 2023

未来不同：大型预训练语言模型在预测任务中失效

本文介绍了四个 Reddit 数据集，探讨了预训练语言模型在数据分布面临渐变时的性能问题，并提出了一种基于神经变分动态主题模型和注意力机制的简单方法来预测未来文章的流行度，其性能表现比预训练语言模型的性能下降少，提供实际事件的可解释性表示，如 GameStop 的空头攻击。

Nov, 2022

基于注意力机制的源代码仓库嵌入学习

论文介绍了 Topical 深度神经网络，利用 GitHub 源代码生成存储库级别嵌入，以实现存储库自动标记等任务。

Aug, 2022

预训练语言模型表示的潜空间聚类进行主题发现

本文提出了一种基于 PLM 嵌入的联合潜在空间学习和聚类框架，通过联合建模主题 - 单词和文档 - 主题分布，有效地利用 PLMs 在主题发现方面的强大表示能力和出色语言特征，并在两个基准数据集上生成了比强劲的主题模型更加连贯、多样的主题，并提供更好的基于主题的文档表达形式。

Feb, 2022

使用受控词汇进行列标题的文本分类：利用语言模型进行元数据增强

传统数据集检索系统主要依赖元数据信息进行索引，而不是数据值。本文提出了一种使用三个大型语言模型 (ChatGPT-3.5、GoogleBard 和 GoogleGemini) 对列标题进行主题注释的元数据增强方法。通过评估模型的内部一致性、机器间对齐性和人机一致性来验证模型的能力，并研究上下文信息对分类结果的影响。结果表明，ChatGPT 和 GoogleGemini 在内部一致性和模型 - 人的一致性方面优于 GoogleBard。有趣的是，我们发现上下文对于语言模型的表现没有影响。本文提出了一种使用控制主题词汇来利用语言模型进行文本分类的新方法，有潜力促进自动化的元数据增强，从而提升在 Web 上的数据集检索、查找性、可访问性、互操作性和可重用性 (FAIR)。

Mar, 2024

利用大型语言模型增强知识图谱构建

本文分析了当前基础 LLM (ChatGPT) 与专门的预训练模型 (REBEL) 的联合实体和关系提取应用，以可持续发展文本为案例进行了多个实验，结果表明，使用先进的 LLM 模型可以提高从非结构化文本创建知识图谱的过程的准确性，并探索了使用基础 LLM 模型自动创建本体论的潜力，取得更相关和准确的知识图谱。

May, 2023

大型语言模型为传统主题建模方法提供了一种替代方案

本研究旨在探讨大型语言模型（LLMs）在主题提取方面的潜力，并建立评估协议以评估 LLMs 的聚类效果。通过深入实验与评估，总结了采用 LLMs 进行主题提取的优势和限制。

Mar, 2024

LLM 强化的生成式新闻推荐初探

本文介绍一种基于大型语言模型的可生成新闻推荐框架 GENRE，通过预训练的语义知识，提供了一种灵活且统一的新闻推荐解决方案，可以用于个性化新闻推荐、用户画像和新闻摘要。各种流行的推荐模型的广泛实验证明了 GENRE 的有效性。

May, 2023

利用预训练语言模型进行短文本主题建模

在本论文中，我们采取了一种新的方法来解决短文本主题建模中的数据稀疏问题，通过利用现有的预训练语言模型将短文本扩展为更长的序列。此外，我们提供了一种简单的解决方案，通过扩展神经主题模型来减少预训练语言模型生成的与主题无关的噪声文本的影响。我们观察到我们的模型能够显著改善短文本主题建模的性能。在极度数据稀疏的情况下，对多个真实数据集进行的大量实验证明了我们的模型可以生成优质主题，胜过现有最先进的模型。

Oct, 2023

利用大型语言模型为主题元数据添加注释：澳大利亚国家研究数据目录的案例研究

本文介绍了一种基于大型语言模型的上下文学习方法，通过 GPT-3.5 和为主题元数据注释设计的提示，实现了自动元数据注释，在一些类别中表现出有前景的性能。

Oct, 2023