GPT 对您的数据价值是多少?使用影响函数的 LLM 规模数据估值
我们提出了 DataInf,一种高效的影响力近似计算方法,可用于大规模生成型 AI 模型。通过利用易于计算的闭合形式表达式,DataInf 在计算和内存效率方面优于现有的影响力计算算法。我们的理论分析表明,DataInf 特别适用于 LoRA 等参数效率高的微调技术。通过系统的实证评估,我们表明 DataInf 准确地近似了影响力分数,并且比现有方法快几个数量级。在 RoBERTa-large、Llama-2-13B-chat 和 stable-diffusion-v1.5 模型的应用中,DataInf 能够比其他近似影响力分数更好地识别出影响最大的微调示例,而且可以帮助识别出错误标记的数据点。
Oct, 2023
研究通过比较三种大型语言模型与专家标注者和众包工人标注的金融文档,发现大型语言模型可作为提取金融文档中关系的高效数据标注工具,并引入了一个可靠性指标用于识别需要专家关注的输出,提供了在特定领域设置中自动化注释的收集和使用的建议。
Mar, 2024
提出了 RapidIn 框架,用于估算每个训练数据对大型语言模型生成的影响,通过缓存和检索阶段,压缩梯度向量并支持多 GPU 并行加速,实现了超过 6326 倍的加速效果。
May, 2024
本文研究了大规模语言模型(LLM)获取高质量训练数据所面临的多方面挑战,包括数据稀缺、偏差以及低质量内容,并通过使用 GPT-4 和 GPT-4o 进行一系列评估,证明这些数据限制对模型性能和伦理对齐的不利影响。我们提出并验证了一些旨在提高数据质量和模型稳健性的缓解策略,包括高级数据过滤技术和伦理数据收集实践。我们的发现强调了开发 LLM 时需要积极考虑数据限制的有效性和伦理影响,以促进创建更可靠和普遍适用的人工智能系统。
Jun, 2024
本文介绍了一种针对众包数据采集的新方案,在线性回归模型中设计了一种激励机制,旨在促使代理提供高质量数据,并证明了该方案确保了数据报告的真实性和鲁棒性,同时并对影响与总损失的差异进行了矫正,实现了有效的数据收集。
Aug, 2019
本文介绍了 DyVal,一种新颖、通用、灵活的评估协议,用于动态评估大型语言模型,根据该框架,借助有向无环图的结构优势,动态生成具有可控复杂度的评估样本,并在数学、逻辑推理和算法问题等推理任务上生成挑战性的评估集,实验证明大型语言模型在 DyVal 生成的评估样本中表现较差,强调动态评估的重要性。此外,分析了失败案例和不同提示方法的结果,并表明 DyVal 生成的样本不仅是评估集,还是改进 LLMs 在现有基准上性能的有用数据,希望 DyVal 能为未来的 LLMs 评估研究提供启示。
Sep, 2023
最近几年,大型语言模型(LLMs)如 ChatGPT 取得了显著的进展,并在各个领域得到了应用。这些模型建立在 Transformer 架构基础上,通过广泛的数据集训练,能够有效地理解和生成人类语言。在金融领域,LLMs 的部署正在迅速发展。它们被用于自动化财务报告生成、预测市场趋势、分析投资者情绪和提供个性化的财务建议。利用其自然语言处理能力,LLMs 可以从海量金融数据中提取关键见解,帮助机构做出明智的投资决策,提高运营效率和客户满意度。本研究全面介绍了 LLMs 在各种金融任务中的应用。此外,我们通过自然语言指令对多个金融任务进行了全面测试。我们的研究结果表明,GPT-4 在各种金融任务中能够有效地遵循指令。这项对 LLMs 在金融领域的调查和评估旨在加深金融从业者和 LLM 研究人员对 LLMs 在金融中的作用的理解,发现新的研究和应用前景,并强调如何利用这些技术来解决金融行业的实际挑战。
Jan, 2024
通过引入 LG 模型和 SCRL 方法,我们提出了一个用于量化投资的创新框架,能够有效将 Large Language Models 中包含的语义信息与现有的量化股票特征相结合,以提高金融新闻分析和股票收益预测的性能。在中国 A 股市场中,我们的框架相较于仅依赖于股票特征的模型,表现出卓越的排名信息系数和收益表现。
Oct, 2023
我们提出了一个名为 GPTBIAS 的偏见评估框架,它利用 LLMs 的高性能来评估模型的偏见,提供偏见分数以及包括偏见类型、受影响的人群、关键词和改进建议在内的详细信息,通过广泛的实验证明了该评估框架的有效性和可用性。
Dec, 2023