超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

09-16 559阅读 0评论

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

新智元报导

修正:桃子 乔杨

【新智元导读】OpenAI博士等级的智能,真的完结了!一位UCI物理学博士实测o1,发现自己用时1年完结的博士论文代码,竟被AI在1个小时之内完结了。

o1模型现已强到,能够直出博士论文代码了!

来自加州大学欧文分校(UCI)的物理学博士Kyle Kabasares,实测o1 preview+mini后发现:

自己肝了大约1年的博士代码,o1竟在1小时内完结了。

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

他称,在大约6次提示后,o1便创建了一个运转版其他Python代码,描绘出研讨论文「办法」部分的内容。

虽然AI生成的代码结构,模仿了Kabasares实践代码功用,但它运用的是「组成数据」,并非实在的地理数据。

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

论文地址:https://iopscience.iop.org/article/10.3847/1538-4357/ac7a38/meta

不过,o1能够在这么短时刻输出杂乱代码,足以震慑。

视频右下角中,Kabasares连连喊出「oh my god」,各种难以形容的动作表情,被震动到置疑人生。

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

YouTube视频一出,便在全网掀起热议,网友们纷纷表明太张狂了。

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

好巧不巧的是,o1在最新门萨智商测验中,IQ水平竟逾越了120分。

35个智商题,答对了25道,把其他模型甩出好几条街。

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

可是,这仅仅是o1模型的preview版别。

OpenAI研讨人员David Dohan曾发文暗示,一个月后,o1模型还将有全新的晋级版别。

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

到时,还不知o1功用,将有多么逆天?!

物理学博士论文,AI 1小时直出200行代码

2022年,物理学博士Kabasares以榜首作者身份,在「地理物理期刊」宣布了这篇关于,经过对地理数据建模来丈量黑洞质量的论文。

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

当然,这篇研讨不只仅是写代码,但完结这段代码,是Kabasares博士榜首年的要害打破。

能够说,在他博士研讨的阶段的榜首年(2018年7月-2019年4月),花费了许多时刻,才让这段代码初版正确运转起来。

这也是,为什么o1能在1小时内,给出一个可运转的Python代码,让Kabasares形象深入。

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

视频中,看到o1输出的代码后,Kabasares缓了好大一阵儿,才开端接下来的解说。

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

他向ChatGPT o1供给了论文中,「办法」部分的内容(即第4节),并提示阅览我的论文,依据所给信息,写出一段Python运转代码。

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

他屡次着重,自己没有向o1展示自己代码。

在于ChatGPT对话页面中,Kabasares向咱们展示,并细数了下o1是在6次提示下,完结200行代码。

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

不过,他也提出正告,实践上还需要咱们自己去做一些额定的作业。就像论文中这个曲线图,还得需要在另一个软件,比方银河图画软件中完结。

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

当网友询问到,有没有或许o1就着你自己的代码,完结的练习?

Kabasares以为,o1输出的200行代码,与自己1100行代码有着很大的不同,这是论文代码「最简版别」。

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

深夜测验,o1应战大学、博士物理题

为此,Kabasares又发了第二弹视频,向所有人解说o1或许真的没有承受过数据练习。

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

值得一提的是,他从办公室拿到的私密文件,是由教授亲身规划的天体物理学问题。

这些标题,都是Kabasares在博士期间完结的,并没有发布到互联网上。

他专门为o1出了一个测验集,一共有4道标题。

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

而在没有练习数据的情况下,o1输出的成果不用说。乃至,有的题它仅在16秒内,完结了回答。

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

还记得,OpenAI CTO Mira Murati在承受采访中表明,GPT-4之后的新模型将到达博士等级的智能。

o1现在的体现,现已是要害的一瞥。

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

代码编程赛,大师等级

作为OpenAI的研讨主管兼现任的IOI美国队教练,Mark Chen共享了o1模型在Codeforces比赛上的最新发展。

在Codeforces昨日的实时比赛中,一位名为AryanDLuffy的选手运用了o1-mini模型参与比赛,成果适当冷艳。

用Mark Chen的话来说,到达了「挨近大师等级的体现」。

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

AryanDLuffy发帖表明,自己没有进行任何提示工程,仅仅是给出问题陈说,并告知模型用C++解题。

7道标题中,o1-mini仅在B2、D和E2遇到了困难,其间D和E2是不少排名前50的选手也没能得分的,也是提交人数最少的两道标题。

终究,o1-mini协助AryanDLuffy获得了3922分的总成绩,在逾越16万参赛者中排名277,也就是排名在前0.17%。

这远远逾越了OpenAI自己做的基准测验成果。o1模型在他们的模仿Codeforces比赛中还仅仅逾越了89%的人类选手。

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

277的排名比较AryanDLuffy自己之前的纪录进步了158位,到达了4年来最大的前进起伏。

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

对此,Mark Chen和许多网友的主意是,IMO和Codeforces的比赛题或许能够作为新式的LLM基准测验。可是,Codeforces的主办方忧虑的是另一件事。

比赛创始人Mike Mirzayanov为此特别拟定了一条新规:制止运用GPT、Gemini、Gemma、Llama和Claude等各种模型来处理Codeforces比赛中的编程问题。

可是这条新规并不是要求参赛者彻底摒弃AI,他们仍旧能够让模型辅佐翻译问题陈说,或许向Copilot寻求语法协助和非必须的编码主张。

简而言之,比赛问题的中心逻辑、算法,以及bug的确诊调试,都必须由人类选手独立完结,CF也会进行做弊检测。在非竞争性问题中,AI东西的运用则彻底不受约束。

但也有用户指出,做弊检测实质上很难履行,参赛者简略修正一下AI生成的代码就能够「逃过高眼」。竞争性编程比赛的未来,很大程度上决定于选手们自己能否守信。

CF也表明,会继续重视AI技能的发展,并依据需要及时调整规矩。

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

在博文中,Mirzayanov将神经网络的发展称为「技能奇观」,因为不久前这些模型还很难完结比赛中最简略的使命,但现在却到达了不容忽视的高度。

他表明,「咱们有理由信任,这种前进会继续下去,AI或许会在编程比赛范畴继续获得新的打破。」

陶哲轩实测后续

除了Codeforces,陶哲轩大神也表明,因为咱们对他之前测验的爱好,。

榜首个试验,是找术语。

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

2010年,我正在寻觅「乘法积分」的正确术语,但其时没有用查找引擎找到。所以我转而在MathOverflow上提出了问题,并从人类专家那里得到了满足的答案:

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

14年后的今日,陶哲轩再次向o1模型提出了相同的问题,问题表述都和MathOverflow上的帖子简直如出一辙。

比较人类专家,o1给出的答案愈加全面并且完美。不只包含了5个或许的术语,还附上了相应的数学表明、应用范畴和参考文献。

陶哲轩表明,虽然这篇MathOverflow上的帖子或许现已包含在o1的练习数据中了,但仍旧能展示模型在语义查找方面的强壮功用,并且收集、总结出的答案的质量能够与MathOverflow这类专业的问答网站适当。

另一个试验则更具创造性,与陶哲轩自己的研讨直接相关。

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

作为另一个小试验,我给了o1我最近的博客文章的前半部分,其间总结了之前我自己能够处理的鄂尔多斯问题的发展。

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

要将之前的部分发展转化为全面的处理方案,仍缺失一些要素,我要求o1模型找到这些转化要素,但成果有点令人绝望。 本质上,模型提出的战略与博客中重述的最新研讨是相同的,并针对该战略没有供给任何创造性的改动。 总的来说,我觉得虽然LLM东西有必定的才能,能够随机生成创造性战略,但这方面的LLM东西依然适当单薄。

多篇论文论述o1运作机制,DeepMind上大分

o1模型发布不到一周,咱们就现已见证了这么多惊人的用例,AI技能界对o1背面的机制和原理也是议论纷纷。

前谷歌查找工程师、Menlo Ventures风投家Deedy Das曾斗胆猜想,其首要原理来自DeepMind一篇本年8月宣布的论文。

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

论文地址:https://arxiv.org/abs/2408.03314

论文提出,让LLM进行更多的「测验时核算」(test-time computation),关于构建能在敞开语境下操作、能完结自我进步的agent,是要害的一步

而这篇论文就要点研讨了扩展「推理期核算」(inference-time computation)这个问题。

研讨团队剖析了扩展测验时核算的两种首要机制:(1)针对密布的、依据进程的验证器奖赏模型进行查找;(2)依据测验时得到的提示词,自适应更新模型对呼应的散布。

成果显现,在这两种情况下,对测验时核算的不同扩展办法的有用性,很大程度上取决于提示词的难度。

依据此,研讨团队提出了一种「核算最优」扩展战略——经过为每个提示词自适应地分配测验时核算,使测验时核算的扩展的功率进步4倍以上。

别的,在FLOPs共同的评价中,关于那些较小的根底模型已获得必定程度非普通成功率的问题,测验时核算能够使其逾越规划大14倍的模型。

此外,HuggingFace技能主管Philipp Schmid也开列了一份论文清单,包含了o1模型或许的作业原理,首要关于经过练习/RLHF而非提示工程,进步LLM在杂乱使命上的推理功用。

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

这5篇论文都宣布于本年或上一年,能够说是代表了细分方向的前沿发展。

榜首篇是斯坦福和Notbad在本年3月提出的Quiet-STaR(Self-Taught Reasoner)。

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

论文地址:https://arxiv.org/abs/2403.09629

论文的主意来源于这样一个直觉:在写作和说话时,人们有时会停下来考虑,但考虑和推理的内容不会显式地表达出来,而是隐含在书面文本中。

因而,抱负情况下,言语模型能够学习揣度文本中未说明的基本原理。

Quiet-STaR是对2022年宣布的STaR的推行,让模型为每个token生成基本原理来解说未来的文本,然后进步猜测才能。

第二篇同样是。

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

论文地址:https://arxiv.org/abs/2408.07199

他们将蒙特卡罗树查找(MCTS)与自我批评机制相结合,并运用直接偏好优化(DPO)算法的off-policy变体对agent的交互进行迭代微调。

这种办法答应LLM agent一起从成功和不成功的轨道中进行有用学习,然后进步在杂乱的多进程推理使命中的泛化才能。

第三篇则针对数学推理,以期进步模型的问题了解才能和「反思」才能。

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

论文地址:https://arxiv.org/abs/2406.12050

具体来说,论文提出了一种新颖的「反思增强」办法,将问题的反思嵌入到每个练习实例,练习模型考虑其他或许的视角,并进行笼统和类比,经过反思性推理促进更全面的了解。

V-STaR这篇文章同样是对STaR结构的推行,宣布于本年2月。

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

论文地址:https://arxiv.org/abs/2402.06457

论文提出,原有的STaR办法在迭代进程中丢掉了许多不正确的处理方案,或许疏忽了其间有价值的信息。

V-STaR正是要补偿这个缺点,它一起使用了自我改善进程中生成的正确和过错的处理方案,用DPO练习出一个验证模型,以判别生成的处理方案的正确性。该验证器在推理时运用,从候选处理方案中进行挑选。

试验发现,运转V-STaR进行屡次迭代,能够逐渐练习出功用更好的推理模型和验证模型。

Let's Verify Step by Step这篇论文,就是由AI大牛Ilya带队完结。

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

论文地址:https://arxiv.org/abs/2305.20050

论文中,首要探讨了大模型在杂乱推理中,怎么优化练习战略的问题,尤其是,怎么使用CoT进行考虑。

他们提出了进程监督办法(process supervision),由此练习的一种全新模型,在处理数学问题上获得了打破。

这一战略的强壮之处在于,比起成果监督,在推理进程中逐渐奖赏,从而让模型功用明显进步。

除了推特帖中一开端触及的5篇,Schimid还在HuggingFace上单开了一个网页,继续网罗相关论文,现在现已涵盖了7篇。

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

https://huggingface.co/collections/philschmid/llm-reasoning-papers-66e6abbdf5579b829f214de8

o1能否完结自我进步

Jim Fan在一篇剖析帖中指出,o1模型给咱们带来的要害见地是这两条曲线的齐头并进——练习时的scaling law和推理时的scaling law,而后者才是真实打败收益递减的要害因素。

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

此外,他还cue到了两篇论文,能够处理咱们关于「o1自我进步才能」的疑问。一篇是Meta和NYU在本年1月提出的「自我奖赏的言语模型」。

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

论文地址:https://arxiv.org/abs/2401.10020

这篇文章依据一个十分简略的主意:对同一个LLM进行提示,引导它生成呼应并自我奖赏,进行迭代自举。

论文称,奖赏建模才能不再归于一个固定、独立的模型,而是能够跟从主模型的脚步进步。但风趣的是,最多3次迭代之后,仍旧会呈现模型饱满。

对此,Jim Fan的主意是,作为谈论者(critic)的奖赏模型,进步速度小于作为举动者(actor)的生成模型,因而虽然二者都在进步,最多3轮迭代后,后者就会追上前者,到达饱满。

另一篇文章是DeepMind上一年8月就宣布的ReST(Reinforced Self-Training),其试验成果也很相似:在到达收益递减前,最多进行3轮迭代。

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

论文地址:https://arxiv.org/abs/2308.08998

这两篇论文好像证明了,谈论家和举动者之间不存在可继续的才能距离,除非引进外部驱动信号,比方符号定理验证、单元测验套件或编译器反应。

但这些都是特定范畴的高度专业化的内容,要想完结咱们抱负中的LLM的通用自我进步,还需要开掘和探究更多的研讨主意。

参考资料:

https://www.reddit.com/r/singularity/comments/1fhi59o/chatgpt_o1_preview_mini_wrote_my_phd_code_in_1/

https://x.com/markchen90/status/1835143660746273185

https://mathstodon.xyz/@tao/113142753409304792

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛逾越99.8%选手

发表评论

快捷回复: 表情:
评论列表 (暂无评论,559人围观)

还没有评论,来说两句吧...

目录[+]