该论文探讨利用巨大的大语言模型生成特定任务训练数据的先进技术,介绍了方法论、评估技术和实际应用,并讨论了当前的限制和未来研究的潜在路径。
Mar, 2024
该研究论文介绍了采用基于 grounding、过滤和分类系统的生成方法来提高合成数据的准确性,并在讽刺检测任务中对比研究了三种方法以提高准确性,评估证明 Grounding 方法更为有效,该研究提供了合成数据高保真性的一些建议。
May, 2023
探索最新的大型语言模型在代码生成方面的能力,调查提示和微调方法,并分析大型语言模型生成测试的结果。
Oct, 2023
本研究探讨了大型语言模型(LLMs)在生成人工数据中的不断扩大的作用。尽管人工数据能够与人类性能相匹配,但本文揭示了显著的潜在差异,尤其是在复杂任务中,LLMs 常常错过对内在人类生成内容的微妙理解。该研究批判性地考察了多样化的 LLM 生成数据,并强调了在数据创建和使用 LLMs 时遵循道德实践的必要性。它凸显了解决 LLM 生成内容中产生的偏差和人为因素对于未来研究和开发的重要性。所有数据和代码都可在我们的项目页面上获得。
Jan, 2024
通过使用机器学习和大型语言模型,本论文介绍了一种知识工作者系统 Generate And Search Test,该系统能够高效地创建以前需要专家合作才能完成的解决方案。同时探讨了生成型人工智能和搜索引擎如何提供创意和验证事实、逻辑和语境,以消除人为偏见。
Jul, 2023
我们提出了一种称为变质提示测试的新颖解决方案,用于解决由大型语言模型生成的代码质量和正确性所引发的挑战,并在 HumanEval 评估中显示,该方法能够检测到由 GPT-4 生成的错误程序的 75%,误报率为 8.6%。
Jun, 2024
使用大型语言模型(LLMs)生成高质量的测试用例是一个重要问题,目前的研究主要集中在改进代码生成过程中通过 LLMs 生成辅助测试用例的性能,而 LLMs 在仅生成测试用例方面的性能尚未全面研究。为了填补这一空白,本文通过大量实验研究了 LLMs 生成高质量测试用例的能力,并提出了一种名为 TestChain 的多代理框架,通过与 Python 解释器的交互提供更准确的测试输出,实验结果表明 TestChain 在测试用例准确性上明显优于基准模型,其中使用 GPT-4 作为基础的 TestChain 在 LeetCode-hard 数据集上相比基准模型改进了 13.84%。
Apr, 2024
通过结合临床领域特定知识图谱和大语言模型,在临床自然语言处理中提出了一种创新、资源高效的方法 ClinGen,通过临床知识提取和上下文信息化的大语言模型指导数据生成,持续提升性能,对生成训练实例的多样性和真实数据分布进行有效调整。
Nov, 2023
使用大型语言模型的代码代理在形式化用户问题为测试用例方面具有重要能力,并且在生成相关测试用例方面表现出众,尤其是在代码修复方面,生成的测试用例是提出代码修复的一个有效过滤器。
我们生活在生成式人工智能(GenAI)的时代。Deepfakes 和大型语言模型(LLMs)是 GenAI 的两个例子。然而,由于生成性质,它们的道德使用成为一个重要关注点。此篇文章试图探究它们之间的相互关系。
Feb, 2024