利用大型语言模型 (LLMs) 的增强功能,扩展人文社会科学领域的数据分析,用于量化、自动化以前需要人工进行的定性分析任务。本文提出了一种系统的混合方法框架,结合了定性分析专业知识、机器可扩展性和严格的量化分析,同时注重透明度和可复制性。通过 16 个机器辅助案例研究作为概念验证,展示了该框架的应用,涉及的任务包括语言和话语分析、词汇语义变化检测、访谈分析、历史事件因果推断和文本挖掘、政治立场检测、文本和思想重用、文学和电影的流派构成、社交网络推断、自动词典编纂、丢失的元数据补充以及多模态视觉文化分析。与现有 LLM 应用文献的英语重点不同,这里的例子涉及较小语言和易于数字化失真的历史文本场景。除了需要专业知识的最困难的任务外,生成 LLMs 可以作为可行的研究工具。LLM (和人工) 标注可能包含错误和变化,但协议率可以在后续统计建模中考虑;文章还讨论了一个引导式方法。案例研究的复制实验证明,以前需要团队努力和复杂计算管道才能完成的任务,现在可以由辅助 LLM 的学者在更短的时间内完成。重要的是,这种方法旨在增强研究者的知识和技能,而不是取代它们。鉴于这些机会,定性专业知识和提出有深度问题的能力无疑变得更加关键。
Sep, 2023
语言理解是认知科学和计算机科学领域的关键科学问题。本文比较了认知科学和计算机科学在语言理解方面的不同研究问题和方法,并探讨如何将两个领域的洞见结合起来,为构建智能语言模型和研究语言认知机制提供新的启示和展望。
Jan, 2023
数字革命已经导致了人类行为的数字化,出现了众筹和众包等新增的行,这给营销研究和实践者带来了前所未有的机会,但同时也面临着数据过于庞杂和复杂的挑战。为了解决这些问题,开发了计算方法以管理与消费者行为相关的 “大数据” 等技术,特别是机器学习,使得对多方面数据的有效解析和处理成为可能。本文综述了新的数据来源和分析技术,旨在将计算社会科学应用于理解和利用公开的消费者数据。
Jun, 2023
通过调查可用于数据驱动型对话系统学习的公开数据集,讨论了这些数据集的重要特征,如何使用它们学习不同的对话策略以及它们的其他潜在用途。同时还研究了数据集之间的迁移学习方法和外部知识的应用,并讨论了适当的评估指标选择。
Dec, 2015
本文介绍了如何将基于数据的学习方法与现有的知识或模型进行正确融合,其中包括基于分解的方法和利用数据特征的解决方案。通过使用时间序列数据进行评估,结果表明这两种方法都可以优于使用模型和学习分离的现有方案,性能提高可达 60%以上。这些方法可以弥合基于模型和基于数据的方法之间的差距,并将两者整合以提供更高的学习性能。
Sep, 2021
本文讨论了将深度学习与科学相结合以解决机器学习系统中的严谨性、安全性和可解释性的问题,并提出了关键缺失的假设和测试阶段以及统计和系统不确定性估计。同时,探讨了当前科学在其他领域中的应用,为机器学习研究人员提供了一些有用的实践建议。
Apr, 2019
近年来,感知、测量和计算技术的最新进展已大大扩展了基于信号的应用的潜力,利用信号处理和机器学习之间的协同作用来提高性能和可靠性。本文研究了信号处理和机器学习之间的知识缺口,并针对特征提取技术进行了综述和分类,提出了两种应用场景。
Mar, 2024
我们的目标是通过从一组同样好的模型中找到符合物理定律并满足利益相关者需求的预期解释的准确模型,进而促进解释能力强的人工智能(XAI)融入科学领域。
Feb, 2024
本研究提出采用 Marr 的分析层次理论作为机器学习共同的概念框架,以便更好地理解、分析和讨论机器学习研究,通过案例研究展示了如何通过采用这种分析层次理论更好地参与推动学术界进步的讨论。
Apr, 2020
本文旨在总结如何应用机器学习技术进行源代码分析的最新研究动态,并回顾 12 类软件工程任务及相应的机器学习技术、工具和数据集。在文献调研的基础上,文章总结了研究观察和发现,并总结了每个任务的通用步骤、机器学习技术和可用数据集和工具,并讨论了这一领域面临的各种挑战。
Oct, 2021