- ICLR定义专业知识:治疗效果估计的应用
该论文指出决策者在领域内具有专业知识,并将其用于行动决策,进而提出专业知识应被作为归纳偏见来应用于机器学习中的治疗效果估计问题。作者定义了两种专业知识类型,即预测型和预后型,并通过经验验证了领域内主导的专业知识类型显著影响不同方法在治疗效果 - ChatGPT 是专家们的杰出工具
本文探讨了 ChatGPT 在科学写作、数学、教育、编程和医疗保健等不同领域作为自动化助手的能力,重点介绍了其增强生产力、简化解决问题流程和提高写作风格的潜力以及与过度依赖 ChatGPT 可能带来的潜在风险,而作者提出了使用流程建议,对输 - 专家树解决集体决策中的知识限制
本文研究了专家与问题实例之间的知识差异,提出了一种新算法 —— 专业树,解决了现有方法在选择适当模型时存在的问题,从而提高了性能。
- 构建一位哲学家的大型语言模型
通过为哲学家丹尼特额外提供培训数据,Fine-tuned OpenAI 的 GPT-3 模型可以创作出很难与由人类哲学家撰写的哲学文本区分的哲学文本。该研究还探讨了该模型的性能,以及哲学专家、哲学博客读者和普通研究参与者对 GPT-3 生成 - 蜜蜂停歇之处 —— 基于动态贝叶斯网络的决策支持系统,用于评估保护传粉生物丰富度的策略
本文介绍了一种新方法,将多个专家小组的信息组合起来,评估支持丰富的传粉者人口的政策。
- 专家水平
本文研究专业知识的本质并提出了专业知识层次和技能层次的抽象描述,并引入了 “专业层次” 这一新层次,应用该模型到认知结构和人类认知增强领域,并用该模型分析了几个著名的智能系统。
- 合成专业知识
论文考察了人工系统的认知性能和专家技能所需的特定技能水平以及专业知识储备,并介绍了人工智能 /cog 合奏中认知加强的六个级别,旨在通过这种合作达到合成专业知识的目的,进而实现专业知识的民主化和新的认知系统时代的到来。
- 借助机器学习和可解释 AI 预测和了解熟练联合行动中的人类行动决策
本研究使用 SML 和可解释 AI 方法对联合行动中的人类决策进行建模、预测和理解。结果表明,模型能够准确地预测专家和新手在任务中的目标选择决策,并能够在演员意识到决策意图之前做出预测。通过可解释 AI 方法发现,专家更受同伴状态的影响,而 - 通过划分策略来保证同行评估的正确性:以评估者的专业水平为代价
本文研究评估者分配问题,旨在解决评估者保真行为与专业领域匹配性的矛盾,结合多项式时间算法进行实现,并通过会议同行评审数据集进行方法的评估。
- 向协作问答迈进:初步研究
提出了一种新的具有复杂度的问题,并由多个专家代理协调工作,利用知识图谱和神经网络来解决问题,并说明了解决复杂问题协作结构的先前和后续扩展的必要性。
- EMNLP协作教学中的语言变化分析
研究围绕目标展开的协作性教学任务,对语言变化进行了分析,发现指导者在与学习者越来越熟练的情况下,会增加语言复杂度以更好的协作。
- KDD利用基于 Transformer 的集成学习来分类科学论文
本文介绍了一个系统,它包括四个独立子系统,能够将科学文献的摘要分类到给定的七个类别中,通过对这四个子系统的集成,可以得到一个在测试和验证集上 F1 分数为 0.93 的最终系统,优于现有的最先进模型 SciBERT 的 F1 分数。
- EMNLP公共卫生宣称的可解释自动事实检查
该研究是针对需要特定专业知识的领域的事实核查的第一项探索性研究,提出了可解释的事实核查模型,并针对公共卫生领域构建了一个新的数据集进行案例研究,结果表明,通过对特定领域的数据进行训练,可以提高自动化事实核查的可解释性。
- 误信:测量机器学习对人类决策的干扰
研究人员探究了人们在处理两项困难任务时,对机器学习(ML)建议的信任程度;他们发现,即使人们了解这些任务,并给出了表明该系统不自信的信息,但在执行大部分时间正确的任务时,人们也会相信错误的 ML 建议,并且提供了四种不同类型的系统信息可增加 - 使用深度多任务学习进行认知负荷和专业度的自适应模拟分类
为了解决目前模拟培训通常只有一种类型,无法根据学习者的不同技能和认知负荷量级别进行调整的问题,我们提出了一个针对创伤模拟的端到端框架,利用多任务深度神经网络对认知负荷和专业水平进行分类,并获得了很高的精确度。
- 基于跨项目和技术经验的 GitHub 代码审查者推荐
本文提出了一种考虑到开发者特定技术专业性的代码审查者推荐技术,该技术利用外部库经验等关联历史,可提供高达 85%-92% 的准确性,86% 的精度和 79%-81% 的召回率,为代码审查提供高效帮助。
- 查询集对专家发现系统评价的影响
本文针对 AMiner 数据集,利用两个从该数据集中提取的数据集和三个基线算法,采用新的文档查询方法来评估针对从专家文档中直接抽取的一组查询的专家检索效果。实验结果表明,使用更真实的查询范围将提供不同于通常的主题查询的评估结果。
- 评估使用下一轮话语分类的对话系统
本文研究了人们在 NUC 任务上的表现,以验证其作为一种通过大量无标签数据学习对话策略的方法的相关性,并发现了在任务领域和专业级别上,人类表现的水平存在差异;同时,使用先进的机器学习方法构建的自动对话系统的表现与人类初学者相似,但比专家差, - 基于最密子图的多技能协作团队
本文研究在社交网络中,如何通过密度算法,从一个由多个技能节点构成的网络中,找到最合适的团队或合作对象,以满足项目对固定技能数量的要求,并给出了 3 - 近似算法和基于密度的启发式算法扩展,这类算法在多个团队协作兼容性指标方面具有优越性。