首页 资讯文章正文

OpenAI发布强大新模型o3:逼近通用人工智能AGI

资讯 2024年12月25日 08:25 108 金融中心

OpenAI在为期12天的技术分享活动最后一天发布了其最重要的终端产品——o3模型。o3是今年早些时候发布的o1模型的升级版本,是一个大型语言模型,同时提供o3和o3-mini两个版本,后者是更小、更精简的版本,针对特定任务进行了优化。OpenAI声称,在某些情况下,o3模型可以接近实现通用人工智能AGI。 AGI(Artificial General Intelligence)是指能够完成人类能够完成的任何任务的人工智能。OpenAI对AGI的定义是:在最具经济价值的工作中超越人类的高水平自主系统。实现AGI将是一个巨大的成就,对OpenAI来说,其未来也取决于AGI的实际定义。根据OpenAI与其投资者和合作伙伴之间的协议,一旦OpenAI达到AGI水平,将不再允许投资者使用其最先进的技术,而仅限于符合OpenAI AGI定义的技术。 OpenAI首席执行官Sam Altman介绍说,OpenAI计划在11月底前正式推出o3 mini,随后推出完整的o3版本。该公司希望更大的语言模型能够超越现有模型,吸引新的投资和用户。 OpenAI在一篇博客文章中表示,o1模型已经能够处理大量计算,并且与之前的科学、编码和数学模型相比,它能够解决更复杂的问题。而新发布的o3和o3 mini模型目前正在进行内部安全测试,它们将比之前的o1模型更加强大。 两年前,OpenAI发布了ChatGPT,开启了AI军备竞赛的序幕。ChatGPT是一个革命性的生成式AI,最初由大型语言模型GPT-3.5驱动。OpenAI随后在2023年发布了GPT-4,并称其更准确、更具创造性。最近,OpenAI又发布了其首个旗舰大型语言模型o1。 该公司发言人表示,OpenAI决定不将下一个新模型命名为o2,是因为与同名欧洲电信运营商o2的商标冲突。Altman开玩笑说,按照OpenAI极其不寻常的命名系统,它将被命名为o3。 那么,o3的实际表现究竟如何呢?根据OpenAI的描述,o3模型在ARC-AGI基准测试中取得了突破性的成绩。ARC-AGI由谷歌研究员François Chollet开发,主要通过图像推理来评估模型的能力。ARC-AGI结果显示,在抽象推理任务中,o3得分达到15.7%,在更复杂的推理任务中达到17.5%。这意味着o3的表现已经超过了达到人类水平的5%门槛,而目前开放的o1模型得分仅在5%到12%之间,o3的表现是o1的三倍。 在其他基准测试中,o3也表现出色。在Codeforces Elo排名中,o3获得727分,而o1为1891分。实际上,o3 mini在中间推理时间上的表现也已经超过了o1。在OpenAI两个月前发布的SWE-bench Verified代码生成基准测试中,o3的准确率为11.7%,比o1高出2.8个百分点。o3还在2024年美国IME数学竞赛中取得了96.7%的惊人成绩,只错了一道题,并在IPQA Diamond(一个研究生水平的生产、工程和物理问题)中获得了87.7%的惊人成绩。尤其值得一提的是,o3在Epoch AI的“Frontier Math”基准测试中取得了新的突破,解决了5.2%的问题——在该测试中,没有其他模型能够超过2%。Epoch AI目前与全球10名数学家合作,包括菲尔兹奖得主,共同发布了全新的Frontier Math基准。这些数学难题涵盖了当前数学研究的主要分支,从组合和数论中的推理问题到代数和拓扑中的理论问题。 行业评论和担忧:o3模型在上述测试中的表现令人印象深刻。无论是在软件工程、代码生成、数学竞赛还是捕捉人类级自然科学知识方面,o3都明显优于o1。OpenAI首席技术官Greg Brockman表示:“我们最新的o3模型是一个突破,在我们最具挑战性的基准测试中实现了显著的改进。我们现在开始进行安全测试和团队培训。”然而,如此强大的通用人工智能的突破,必然也会引发人们对AI安全性的担忧。 风险可能确实存在。安全测试人员发现,与传统的“非对齐”模型相比,o1模型已经导致对人类用户的尝试次数增加,Meta、Anthropic和谷歌的领先人工智能模型也出现了类似的情况。o3模型为用户提供的便利可能会比之前的模型更高,一旦OpenAI的红队测试结果出现,人们可能会了解到具体的风险。Altman也表示,在OpenAI发布新的模型之前,他希望有一个外部测试平台来指导管理和降低这些模型的风险。 在公开发布o3模型之前,OpenAI将向外部研究人员开放o3模型的红队测试,并要求在1月10日之前停止。 最近,在OpenAI发布其旗舰o1模型后,一些主要的竞争对手也积极发布了他们自己的模型。本月早些时候,谷歌就发布了其最新的Gemini模型,据称其速度是上一代模型的两倍,能够“思考”、“记忆”、“规划”,甚至“代表你采取行动”。Meta首席执行官马克·扎克伯格最近也宣布,计划在今年晚些时候发布Llama 4。 这些努力表明,人工智能领域的竞争日益激烈,各方都在努力开发能够解决更复杂问题的更强大模型。OpenAI发布o3模型的最新进展,也为其为期12天的产品发布活动画上了圆满的句号。在此之前,这家初创公司发布了更昂贵的ChatGPT Pro订阅服务(每月200美元),并正式对外发布了AI视频生成模型Sora Turbo和其他新产品。ChatGPT的搜索功能也得到了全面升级,增加了地点图像、实时翻译等功能,并向所有用户开放。

标签: 智能合约 以太坊 NFT Web3 元宇宙

发表评论

久久股民网 Copyright © 2024-2025 . All Right Reserved 备案号: 滇ICP备2023010141号-7

Sitemap