JetBrains IDE 中基于嵌入的搜索
本研究描述了一种在 JetBrains' IntelliJ 平台上构建的多标记代码补全功能,称为 Full Line Code Completion。该功能仅建议语法正确的代码,并在用户设备上完全本地工作,为用户提供更丰富的体验,同时快速、紧凑且安全。作者分享了一些满足开发限制的有用技术,并描述了离线和在线评估流程以帮助做出更好的决策。
May, 2024
本文介绍了我们基于 Elasticsearch 构建的端到端内容基于图像检索系统。我们提出了一种将图像特征向量编码为字符串令牌的新方法,并使用 Elasticsearch 来检索相似图像,性能表现优异。此系统易于部署、分布、扩展和监控,支持视觉和文本信息联合检索。本文对实现 Elasticsearch 平台的一手经验进行了广泛的讨论,对于有兴趣在 Elasticsearch 上构建视觉搜索引擎的从业者应该具有价值。
Jun, 2018
本文提出了两种新颖的模型来进行关键字建议任务,使用 Word2Vec 和 FastText 的架构,通过利用文档中的关键字共现来生成关键字嵌入向量,并采用特殊的负例抽样方法来利用关键字在学术出版物中的出现方式。此外,还提供了基于排名的评估方法,对所提出的模型进行评估,并在已知项目和自由搜索场景下显示了较大的性能改进。
Jan, 2023
本文提出了一种新颖的深度语义模型,利用多模式来源和特征提取器的效用,将交叉语言嵌入与大批量和难样例挖掘结合起来,结合不同的学习表示来增强表示学习,以解决语义代码搜索任务,该模型在 CodeSearchNet 语料库上训练并在保留数据上评估,取得了 0.384 NDCG 的优异成绩,并在该基准测试中获得第一名。
Jan, 2022
本文研究了在 IDE 中使用机器学习代码生成 / 检索技术对开发工作流程和体验产生的影响,设计了一款混合代码生成和检索的插件,并通过用户测试发现虽然开发者的体验得到了改善,但是对于提高生产率、代码质量和程序正确性等方面的具体效果并不确定,同时分析了需要改进的地方和开发者偏好。
Jan, 2021
JetTrain 是一种 IDE 集成工具,用于将特定任务从 IDE 委派给远程计算资源,用户可以在本地编写和调试代码,然后使用按需硬件无缝远程运行,降低了机器学习训练问题的门槛并提高了实验吞吐量。
Feb, 2024
提出了一种新的上下文感知代码翻译技术,将代码片段翻译成自然语言描述,并使用单一词汇表为翻译和查询生成嵌入,名为 TranCS,实验证明其显著优于最先进技术。
Feb, 2022
本文探讨使用通用搜索引擎 (Google) 进行与代码相关的搜索是否是最佳选择。为了分析这个问题,我们从 310 个开发人员收集含有近 150,000 个搜索查询的搜索日志,并基于一个模型将查询进行分类。我们发现与通用非代码搜索相比,代码相关的搜索通常需要更多的努力 (例如时间、结果点击和查询修改),这表明通用搜索引擎的代码搜索性能不如专门的搜索工具。
Mar, 2018
本研究对基于大型语言模型的对话 UI 进行了研究,目标是实现上下文感知的工具,该工具可以自动利用开发人员的编程上下文来回答问题。我们为用户提供了一个 IDE 插件,允许用户使用高级请求查询后端(例如 OpenAI 的 GPT-3.5 和 GPT-4),我们进行了 32 名参与者的探索性用户研究,研究确认这种方法比 Web 搜索更有效地帮助理解代码,但效果的差异因参与者的经验水平而异。
Jul, 2023