仅需三写:从单一来源创建文档、计算笔记本和演示文稿
本文介绍了从GitHub公开可用的代码细调的Codex语言模型,并研究了其Python代码编写能力。在新的评估集HumanEval上,我们的模型可解决28.8%的问题,并发现重复采样模型是解决难题的有效策略。但我们也发现其局限性,最终讨论了代码生成技术的潜在影响。
Jul, 2021
这篇论文以多声部文献综述和数据科学专业人士的采访为基础,提出了一系列协同数据科学计算笔记本的最佳实践,结果显示专家们在日常工作中大多数能够意识到和采用这些最佳实践,同时指出由于缺乏适当的工具支持,某些最佳实践并不被所有人采纳。因此,作者设想设计笔记本解决方案,以便让数据科学家可以同时进行探索和快速原型设计,也能写出高质量的代码。
Feb, 2022
本文介绍了一种人机交互的迭代文本修订系统(R3),该系统可提供高质量的文本修改建议,通过人机交互实现文档的迭代修订,从而使大语言模型在文本修订任务中发挥更大作用。
Apr, 2022
通过记录一组科学写作工作坊中60多位初级科研人员的写作过程并从中发现了创意转换和创意检验两个非线性过程,我们揭示了写作过程的复杂性,并提出了新的度量,为更具创造力和影响力的写作过程提供了支持。
Feb, 2023
本文探讨如何通过学习在线辩论中的协作编辑行为来捕捉修订模式,以开发旨在指导作者进一步改进其论点的方法,并且我们提出一种基于修订距离的新的抽样策略,以解决修订文字料库的噪声问题。
May, 2023
本研究旨在调查与分析语言模型设计用于软件工程任务的研究是否共享代码及模型,以及针对模型训练所用的能源的透明度,从可持续的角度收集有用的信息。我们发现,当前研究中存在信息和工件共享的不足,约40%的调查论文没有共享代码或训练过的工件,我们建议共享源代码和训练过的工件,以实现可持续的可重复性,同时还应该共享有关训练所需时间和硬件配置的全面信息,以确保模型的碳足迹透明度。
Jul, 2023
本文对大型语言模型(LLMs)进行了全面的代码文档生成比较分析,评估了GPT-3.5、GPT-4、Bard、Llama2和Starchat等模型在准确度、完整性、相关性、可理解性、可读性和代码文档不同级别生成所花费的时间等参数上的表现。除了Starchat以外的所有LLMs一致优于原始文档,值得注意的是,闭源模型GPT-3.5、GPT-4和Bard在各个参数上相比开源/源代码可用的LLMs(包括LLama 2和StarChat)表现更好。就生成时间而言,GPT-4的持续时间最长,其次是Llama2、Bard,ChatGPT和Starchat的生成时间相当,此外,文件级别文档在所有参数(时间除外)上表现明显较差,相比内联和函数级别文档。
Dec, 2023
通过使用GIRT-Model,研究人员开发了自动生成的Issue Report Templates,能够帮助开发者更高效地管理问题,并提高开发者之间的对齐度。
Feb, 2024
RepoAgent是一个大型语言模型驱动的开源框架,旨在主动生成、维护和更新代码文档,并通过定性和定量评估验证了其在生成高质量的存储库级文档方面的有效性。
Feb, 2024