与计算笔记本协作的最佳实践引导
Jupyter notebook 是科学家们分享代码、计算和文档的强大工具,以应对数据密集型和计算密集型的科学研究。
Apr, 2018
本文分析了 159 个计算机笔记本可视化工具和他们用户的反馈,来源于学术论文和 GitHub 上 8.6 百万的笔记本。经过分析,作者识别出多模态数据的应用和设计注意事项是未来笔记本可视化工具的关键设计机会,最终开发了一个名为 SuperNOVA 的开源交互式工具来帮助研究人员探索现有的笔记本可视化工具和查找相关工作。
May, 2023
为了方便学术交流,文章提出使用版本控制系统(如 git),利用 Jupyter 科学计算生态系统的开源工具和软件工程概念,从单个 markdown 源文件生成多种不同的学术文献格式,并支持跟踪和版本控制。
Jul, 2021
科技新闻记者面临着工作量增加、资源减少和科学出版生态系统扩大等方面的挑战。在这种背景下,我们探索了计算方法来帮助记者在时间效率和自主性方面发现新闻,并通过一个交互工具进行了原型设计来更好地理解这种工具可能如何提供效益或在更广泛的范围内塑造专业科技新闻记者的实践。我们的研究结果突出了科技新闻记者自主权、背景和责任等核心问题,这些工具可以影响并在设计中加以考虑。基于此,我们提出了增加和更长期用户自主权的设计机会;结合上下文、个人和协作性的新闻价值观念;以及利用灵活的界面和生成模型的方法。总体而言,我们的研究结果为计算新闻发现工具的社会技术系统提供了更丰富的视角,并建议改进这些工具以更好地支持科技新闻记者的实践。
Nov, 2023
本文研究了在 Jupyter Notebooks 领域中应用大型语言模型以增强语义搜索能力,构建了一个语义搜索框架,包括数据预处理器和解决代码类型限制的创新方法。
Feb, 2024
本研究构建了一个考核数据科学笔记本中 Pandas 数据分析框架的代码生成问题集 ARCADE,并开发了一个 Python 计算笔记本的代码语言模型 PaChiNCo,该模型可以通过少量提示生成更好的代码,提高了模型预测的多样性和可解释性。
Dec, 2022
通过对 14 位机器学习从业者的半结构化访谈,发现目前数据文档化方法在性质上往往是临时性和目光短浅的,因此需要一种适应他们的上下文、与他们现有的工具和工作流程相结合、并在可能的情况下自动完成的数据文档化框架的设计要求,以解决现有文档化方法无法满足其需求的问题。
Jun, 2022
通过利用与代码可读性相关的用户评论,我们提出了一种衡量 Jupyter 笔记本可读性的方法 —— 用户意见代码可读性(UOCU),该方法考虑了相关评论的数量、评论的点赞数、笔记本的浏览量以及笔记本的点赞数。我们还使用机器学习模型仅基于这些指标来预测笔记本代码的可读性,并通过使用随机森林分类器,实现了 89% 的准确率。
Jun, 2024
本文研究数据科学家的文献综述实践,并通过 20 个数据科学家的半结构化访谈和思考协议证实,数据科学家在跨学科领域面临挑战,缺少细节和数学内容,借助代码,博客和演讲的知识背景解决文献信息过载问题和借助线上和线下同事的支持。最后,我们概述未来方向,旨在帮助数据科学家应对蓬勃发展的研究文献。
Jan, 2023
介绍了七个创建计算法律研究构建性批评文化的基本原则,建议以更全面的方式解释出版物,使这些出版物在所有阶段都接受建设性的批评,并提出了实现出版物的计算重现性以及创建现代旗舰出版物的想法。
Apr, 2022