我们推出了一个基于金标准评分数据的机器学习模型评估框架该框架优化了评测项目数量与每项评价者数量之间的权衡为构建能够捕捉人类分歧细微差别的高度可重现AI基准提供了路线图。机器学习中的可重现性在机器学习领域可重现性衡量的是使用相同代码、数据/分布和设置重复相同实验并获得相同结果的难易程度。高水平的可重现性能够在团队之间建立信任并允许他们在彼此的进展基础上继续发展。可重现性面临的挑战在于基准真实数据通常依赖于人类而人类与机器不同他们从各种不同角度处理问题往往在结果上存在分歧。令人惊讶的是很少有研究关注有效忽略人类分歧的影响这在AI基准测试中是一个常见的疏漏。缺乏相关研究的一个原因是收集人工支持的评估数据预算有限而为每个示例获取多个评价者的更多样本会大大增加单项标注成本。使用多数票来表示多重评分会忽略变异性。上述两个例子都有相同的多数票但后者更明显地倾向于有毒。在森林与树木可重现机器学习评估中的(N,K)权衡研究中我们调查了被评价项目比例与每项人类评价者数量之间的可重现性权衡。是对许多项目使用较少评价者更好还是对较少项目使用更多评价者更好可以将此视为广度与深度之间的问题。广度即森林方法要求1000个不同的人每人在餐厅尝试一道菜来获得整体质量感受。深度树木方法要求20个人尝试相同的50道菜揭示更多关于特定菜品的信息这可能会影响整体评分。从历史上看AI评估倾向于森林方法。大多数研究者满足于每项1到5个评价者假设这足以找到单一正确真相。我们的研究表明这一标准往往不足以捕捉自然分歧我们为构建更可靠和成本效益更高的AI基准提供了路线图。主观性破坏实证基准测试主观性破坏实证基准测试是可重现性的主要挑战。如果两个不同的研究者运行相同评估并获得不同结果研究就不可重现。为了找到被评价项目数量与每项评价者数量之间的最佳平衡我们基于涉及主观任务如毒性和仇恨言论检测的真实世界数据集开发了一个模拟器。我们本质上进行了大规模压力测试以找到花费给定研究预算例如以成本、时间等衡量的最有效方式。我们改变了两个主要杠杆看哪个产生最可靠的结果为支持更广泛的社区我们已在GitHub上开源了这个模拟器。我们使用多个数据集每个都包含各种类别每项有多个响应使用这些数据集我们还测试了数据混乱时会发生什么。例如如果99%的邮件是垃圾邮件只有1%是重要的表明高数据倾斜这是否会改变最佳评价者分布广度vs深度此外我们还探索了拥有更多数据类别的效果例如毒性标签如有毒、轻微冒犯、中性等。关键发现我们的研究揭示了三个挑战机器学习评估现状的重大洞察我们的结果显示每项使用1、3或5个评价者的常见做法往往不足。这种低评价者方法既没有提供足够的广度来看到大局也没有提供足够的深度来理解人类意见的细微差别。为了获得真正反映人类细微差别的可靠结果实践者往往需要每项超过10个评价者。每项拥有更多评价者会增加统计显著性因为p值接近零。这意味着我们可以丢弃模型A和B表现同样好的零假设模拟器确保情况并非如此。没有完美比例。相反最佳权衡完全取决于所测量的内容最令人鼓舞的发现是一个人不需要无限预算。我们发现通过基于选择的指标正确优化每项评分比例可以用大约1000个总标注的适度预算实现高度可重现的结果。然而选择错误的平衡可能导致不可靠的结论即使增加研究预算也是如此。对AI未来的影响这项研究对可靠AI的未来至关重要。多年来该领域一直在单一真相范式下运作——即对于每个输入都有一个正确标签的想法。但即使存在单一基准真相也可能无法测量它。当AI进入更主观的领域如伦理学识别有害意图或社交互动特征等主观概念时这种范式就崩溃了。通过远离森林并拥抱树木我们可以构建真正反映复杂性和不同观点的基准这些观点导致人类世界中发现的自然分歧。这个路线图允许实践者在不超支的情况下设计更好、更可重现的测试。最终理解人类为什么分歧与知道他们在哪里达成一致同样重要我们的研究提供了捕捉两者的数学工具。这项工作很大程度上归功于我们的合作者——罗切斯特理工学院博士生Deepak Pandita和Christopher Homan教授。QAQ1机器学习评估中为什么需要多个评价者A因为基准真实数据通常依赖于人类而人类与机器不同他们从各种不同角度处理问题往往在结果上存在分歧。使用单一评价者或很少评价者无法捕捉这种自然的人类分歧影响评估结果的可重现性。Q2广度和深度方法在AI评估中有什么区别A广度森林方法是对许多项目使用较少评价者就像让1000个不同的人每人在餐厅尝试一道菜。深度树木方法是对较少项目使用更多评价者就像让20个人尝试相同的50道菜能揭示更多细节信息。Q3构建可重现AI基准需要多少预算A研究发现通过基于选择指标正确优化每项评分比例可以用大约1000个总标注的适度预算实现高度可重现的结果。关键是找到项目数量与每项评价者数量之间的最佳平衡而不是无限增加预算。