与计算笔记本协作的最佳实践引导

Feb, 2022

与计算笔记本协作的最佳实践引导

Eliciting Best Practices for Collaboration with Computational Notebooks

Luigi Quaranta, Fabio Calefato, Filippo Lanubile

TL;DR这篇论文以多声部文献综述和数据科学专业人士的采访为基础，提出了一系列协同数据科学计算笔记本的最佳实践，结果显示专家们在日常工作中大多数能够意识到和采用这些最佳实践，同时指出由于缺乏适当的工具支持，某些最佳实践并不被所有人采纳。因此，作者设想设计笔记本解决方案，以便让数据科学家可以同时进行探索和快速原型设计，也能写出高质量的代码。

Abstract

Despite the widespread adoption of computational notebooks, little is known about best practices for their usage in collaborative contexts. In this paper, we fill this gap by eliciting a catalog of →

computational notebooks collaborative data science best practices professional data scientists tool support

发现论文，激发创造

使用 Jupyter Notebook 作为开放科学工具：一项实证研究

Jupyter notebook 是科学家们分享代码、计算和文档的强大工具，以应对数据密集型和计算密集型的科学研究。

Apr, 2018

计算笔记本中交互式可视化的设计策略与机会

本文分析了 159 个计算机笔记本可视化工具和他们用户的反馈，来源于学术论文和 GitHub 上 8.6 百万的笔记本。经过分析，作者识别出多模态数据的应用和设计注意事项是未来笔记本可视化工具的关键设计机会，最终开发了一个名为 SuperNOVA 的开源交互式工具来帮助研究人员探索现有的笔记本可视化工具和查找相关工作。

May, 2023

仅需三写：从单一来源创建文档、计算笔记本和演示文稿

为了方便学术交流，文章提出使用版本控制系统（如 git），利用 Jupyter 科学计算生态系统的开源工具和软件工程概念，从单个 markdown 源文件生成多种不同的学术文献格式，并支持跟踪和版本控制。

Jul, 2021

科学新闻领域中对计算机新闻发现工具的实践理解

科技新闻记者面临着工作量增加、资源减少和科学出版生态系统扩大等方面的挑战。在这种背景下，我们探索了计算方法来帮助记者在时间效率和自主性方面发现新闻，并通过一个交互工具进行了原型设计来更好地理解这种工具可能如何提供效益或在更广泛的范围内塑造专业科技新闻记者的实践。我们的研究结果突出了科技新闻记者自主权、背景和责任等核心问题，这些工具可以影响并在设计中加以考虑。基于此，我们提出了增加和更长期用户自主权的设计机会；结合上下文、个人和协作性的新闻价值观念；以及利用灵活的界面和生成模型的方法。总体而言，我们的研究结果为计算新闻发现工具的社会技术系统提供了更丰富的视角，并建议改进这些工具以更好地支持科技新闻记者的实践。

Nov, 2023

解锁洞察力：Jupyter 笔记本中的语义搜索

本文研究了在 Jupyter Notebooks 领域中应用大型语言模型以增强语义搜索能力，构建了一个语义搜索框架，包括数据预处理器和解决代码类型限制的创新方法。

Feb, 2024

交互式数据科学笔记本中的自然语言代码生成

本研究构建了一个考核数据科学笔记本中 Pandas 数据分析框架的代码生成问题集 ARCADE，并开发了一个 Python 计算笔记本的代码语言模型 PaChiNCo，该模型可以通过少量提示生成更好的代码，提高了模型预测的多样性和可解释性。

Dec, 2022

机器学习从业者数据文档化的认知、需求、挑战与需求

通过对 14 位机器学习从业者的半结构化访谈，发现目前数据文档化方法在性质上往往是临时性和目光短浅的，因此需要一种适应他们的上下文、与他们现有的工具和工作流程相结合、并在可能的情况下自动完成的数据文档化框架的设计要求，以解决现有文档化方法无法满足其需求的问题。

Jun, 2022

通过代码度量分析预测计算笔记的易理解性

通过利用与代码可读性相关的用户评论，我们提出了一种衡量 Jupyter 笔记本可读性的方法 —— 用户意见代码可读性（UOCU），该方法考虑了相关评论的数量、评论的点赞数、笔记本的浏览量以及笔记本的点赞数。我们还使用机器学习模型仅基于这些指标来预测笔记本代码的可读性，并通过使用随机森林分类器，实现了 89% 的准确率。

Jun, 2024

数据科学家如何审查学术文献

本文研究数据科学家的文献综述实践，并通过 20 个数据科学家的半结构化访谈和思考协议证实，数据科学家在跨学科领域面临挑战，缺少细节和数学内容，借助代码，博客和演讲的知识背景解决文献信息过载问题和借助线上和线下同事的支持。最后，我们概述未来方向，旨在帮助数据科学家应对蓬勃发展的研究文献。

Jan, 2023

分享与关心：在计算法律研究中创建建设性批评文化

介绍了七个创建计算法律研究构建性批评文化的基本原则，建议以更全面的方式解释出版物，使这些出版物在所有阶段都接受建设性的批评，并提出了实现出版物的计算重现性以及创建现代旗舰出版物的想法。

Apr, 2022