谁更懂AI训练,是人类还是AI自己?
在OpenAI具备强推理配置的o1颁布,AI训练自己这件事,又被奥特曼进一步提上了日程。
在OpenAI的开发者日优惠中,奥特曼泄漏道:"假设咱们能制作出一个在人工默认钻研方面比 OpenAI 一切系统都更杰出的人工默认系统,那确实会让人感觉这是一个关键的奇点......模型会变得如此之好,如此之快......方案让模型迅速变得更痴呆"。
好家伙,假设AI能日夜训练AI,那AGI的成功岂不是疯狂提速了?
为了验证这个想象能否可行,OpenAI须要找个裁判来看看AI和人类迷信家训练AI的品质。
因此,他们在最新论文《MLE-BENCH:评价机器学习工程中的机器学习代理》中,引见了新推出的用于权衡AI在机器学习工程畛域才干的新工具MLE-BENCH。
MLE-bench这一基准测试,经上来自Kaggle(一个出名的机器学习竞赛平台)的75个实在环球数据迷信竞赛来应战AI训练。
先说个结果,AI训练自己很有或者:OpenAI最先进的模型o1-preview与一种名为AIDE的框架(编者注:专为Kaggle竞赛设计的框架,它准许AI Agent口头树形搜查来找到处置疑问的方法)配合,在16.9%的竞赛中到达了获奖水平。这一体现相当有目共睹,这象征着在某些状况下,o1曾经可以和熟练的人类数据迷信家掰掰手段。
论文地址:
名目开源地址:
为了能测试AI Agents 在机器学习方面的后劲,MLE-bench由75个来自Kaggle的不同畛域的竞赛组成,涵盖了人造言语处置、计算机视觉和信号处置等多个畛域,保障了测试的片面性。
该基准测试的指标是权衡AI Agent在机器学习工程方面的体现,包括模型训练、数据集预备以及试验运转等。为了确保测试结果的可比性,MLE-bench的较量经常使用了与原Kaggle较量不同的训练和测试宰割,并从新成功了评分代码。
上图为OpenAI 的 MLE-bench 示用意,展现了AI Agent如何与 Kaggle 类型的竞赛互动。该系统模拟人类数据迷信家的上班流程,要求人工默认口头复杂的机器学习义务,从模型训练到提交创立。
而后MLE-bench会依据人类基准对AI agent的训练性能启动打分。
有两个提高AI训练性能的方法。
首先,就是给AI一些工具,协助它较量。
在构建AI Agent启动AI研发的环节中,钻研者们发现,当将前沿的言语模型与开源的辅佐框架联合起来时,能够起到必定的效果。
例如,经常使用AIDE框架的o1-preview模型能够在16.9%的较量名目中取得至少Kaggle铜牌水平的效果。
上图比拟了三种AI Agent 在 OpenAI 的 MLE-bench 中处置机器学习义务的方法。从左到右依次为 MLAB ResearchAgent、OpenHands 和 AIDE 各自展现了应回答杂数据迷信应战的不同战略和口头期间。AIDE 框架的运转期间为 24 小时,展现了一种更片面的疑问处置方法。
其次,Agent也会在尝试中愈加熟练。钻研发现,当给Agent提供更多的尝试时机时,它们的体现会有清楚优化。例如,o1-preview在单次尝试时的效果为16.9%,而在8次尝试后,这一比例参与到了34.1%。这象征着经过始终尝试,AI可以在这个畛域取得渺小优化。
就像Cursor等AI编程工具不会取代程序员,AI也不会让咱们不再须要迷信家。
值得留意的是,AI训练人工默认的未来也没有评分中的如此失望。钻研存在一个渺小的局限性:因为数据集中蕴含的是地下的Kaggle竞赛。因此,有或者模型曾经记住了答案或关于处置方案的直觉,造成MLE-bench或者高估了模型的才干。
只管论文中提到的钻研采取了一些措施来防止代码或测试标签的剽窃,然而难以检测到上档次战略的重复应用。这也象征着,MLE-bench这位裁判必定活期降级,以最新的Kaggle竞赛来防止数据污染的疑问。
不过,AI作为“副驾”介入到模型开发中,或者在未来成为OpenAI等顶尖AI公司的日常。
MLE-bench为咱们提供了这一停顿的新视角,随着这些AI系统的提高,它们或者很快会与人类专家协作,在AGI成功的路上踩下一脚油门。
参考链接:
想了解更多AIGC的内容,请访问:
AI.x社区
本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://www.clwxseo.com/wangluoyouhua/5326.html