OpenAI发布强大新模型o3:逼近通用人工智能AGI
OpenAI在为期12天的技术分享活动最后一天发布了其最重要的终端产品——o3模型。o3是今年早些时候发布的o1模型的升级版本,是一个大型语言模型,同时提供o3和o3-mini两个版本,后者是更小、更精简的版本,针对特定任务进行了优化。OpenAI声称,在某些情况下,o3模型可以接近实现通用人工智能AGI。 AGI(Artificial General Intelligence)是指能够完成人类能够完成的任何任务的人工智能。OpenAI对AGI的定义是:在最具经济价值的工作中超越人类的高水平自主系统。实现AGI将是一个巨大的成就,对OpenAI来说,其未来也取决于AGI的实际定义。根据OpenAI与其投资者和合作伙伴之间的协议,一旦OpenAI达到AGI水平,将不再允许投资者使用其最先进的技术,而仅限于符合OpenAI AGI定义的技术。 OpenAI首席执行官Sam Altman介绍说,OpenAI计划在11月底前正式推出o3 mini,随后推出完整的o3版本。该公司希望更大的语言模型能够超越现有模型,吸引新的投资和用户。 OpenAI在一篇博客文章中表示,o1模型已经能够处理大量计算,并且与之前的科学、编码和数学模型相比,它能够解决更复杂的问题。而新发布的o3和o3 mini模型目前正在进行内部安全测试,它们将比之前的o1模型更加强大。 两年前,OpenAI发布了ChatGPT,开启了AI军备竞赛的序幕。ChatGPT是一个革命性的生成式AI,最初由大型语言模型GPT-3.5驱动。OpenAI随后在2023年发布了GPT-4,并称其更准确、更具创造性。最近,OpenAI又发布了其首个旗舰大型语言模型o1。 该公司发言人表示,OpenAI决定不将下一个新模型命名为o2,是因为与同名欧洲电信运营商o2的商标冲突。Altman开玩笑说,按照OpenAI极其不寻常的命名系统,它将被命名为o3。 那么,o3的实际表现究竟如何呢?根据OpenAI的描述,o3模型在ARC-AGI基准测试中取得了突破性的成绩。ARC-AGI由谷歌研究员François Chollet开发,主要通过图像推理来评估模型的能力。ARC-AGI结果显示,在抽象推理任务中,o3得分达到15.7%,在更复杂的推理任务中达到17.5%。这意味着o3的表现已经超过了达到人类水平的5%门槛,而目前开放的o1模型得分仅在5%到12%之间,o3的表现是o1的三倍。 在其他基准测试中,o3也表现出色。在Codeforces Elo排名中,o3获得727分,而o1为1891分。实际上,o3 mini在中间推理时间上的表现也已经超过了o1。在OpenAI两个月前发布的SWE-bench Verified代码生成基准测试中,o3的准确率为11.7%,比o1高出2.8个百分点。o3还在2024年美国IME数学竞赛中取得了96.7%的惊人成绩,只错了一道题,并在IPQA Diamond(一个研究生水平的生产、工程和物理问题)中获得了87.7%的惊人成绩。尤其值得一提的是,o3在Epoch AI的“Frontier Math”基准测试中取得了新的突破,解决了5.2%的问题——在该测试中,没有其他模型能够超过2%。Epoch AI目前与全球10名数学家合作,包括菲尔兹奖得主,共同发布了全新的Frontier Math基准。这些数学难题涵盖了当前数学研究的主要分支,从组合和数论中的推理问题到代数和拓扑中的理论问题。 行业评论和担忧:o3模型在上述测试中的表现令人印象深刻。无论是在软件工程、代码生成、数学竞赛还是捕捉人类级自然科学知识方面,o3都明显优于o1。OpenAI首席技术官Greg Brockman表示:“我们最新的o3模型是一个突破,在我们最具挑战性的基准测试中实现了显著的改进。我们现在开始进行安全测试和团队培训。”然而,如此强大的通用人工智能的突破,必然也会引发人们对AI安全性的担忧。 风险可能确实存在。安全测试人员发现,与传统的“非对齐”模型相比,o1模型已经导致对人类用户的尝试次数增加,Meta、Anthropic和谷歌的领先人工智能模型也出现了类似的情况。o3模型为用户提供的便利可能会比之前的模型更高,一旦OpenAI的红队测试结果出现,人们可能会了解到具体的风险。Altman也表示,在OpenAI发布新的模型之前,他希望有一个外部测试平台来指导管理和降低这些模型的风险。 在公开发布o3模型之前,OpenAI将向外部研究人员开放o3模型的红队测试,并要求在1月10日之前停止。 最近,在OpenAI发布其旗舰o1模型后,一些主要的竞争对手也积极发布了他们自己的模型。本月早些时候,谷歌就发布了其最新的Gemini模型,据称其速度是上一代模型的两倍,能够“思考”、“记忆”、“规划”,甚至“代表你采取行动”。Meta首席执行官马克·扎克伯格最近也宣布,计划在今年晚些时候发布Llama 4。 这些努力表明,人工智能领域的竞争日益激烈,各方都在努力开发能够解决更复杂问题的更强大模型。OpenAI发布o3模型的最新进展,也为其为期12天的产品发布活动画上了圆满的句号。在此之前,这家初创公司发布了更昂贵的ChatGPT Pro订阅服务(每月200美元),并正式对外发布了AI视频生成模型Sora Turbo和其他新产品。ChatGPT的搜索功能也得到了全面升级,增加了地点图像、实时翻译等功能,并向所有用户开放。
相关文章
-
韩国总统尹锡悦春节假期在拘留所度过:年糕汤、电视和户外锻炼详细阅读
据韩媒报道,韩国总统尹锡悦因“内乱头目”嫌疑被羁押,将在首尔拘留所度过春节假期。 与普通民众的春节假期大相径庭,尹锡悦的春节将简朴度过。报道指出,他...
2025-02-04 29
-
赛恩斯董事高伟荣增持3.57万股,彰显信心?深度解读及区块链关联性分析详细阅读
赛恩斯董事增持引关注,背后原因何在? 近日,赛恩斯(SH688480)董事高伟荣增持3.57万股的消息引发市场关注。此次增持共计99.57万元,成交...
2025-02-03 34
-
DeepSeek登顶苹果应用商店免费榜:对ChatGPT的冲击与AI应用的未来详细阅读
1月27日,DeepSeek应用一鸣惊人,登顶苹果中国及美国区应用商店免费榜榜首,并超越了此前占据榜首的ChatGPT,引发业界广泛关注。这一事件不仅...
2025-02-03 45
-
晓鸣股份涨逾6%带动农业股集体上涨:区块链技术应用前景分析详细阅读
1月27日,晓鸣股份股价上涨逾6%,引发市场关注,多家农业股也跟涨,其中华英农业等多股涨幅超过4%。这一现象值得我们深入探讨其背后的原因,以及对未来农...
2025-02-02 67
-
徐工机械接受美银证券调研:深度解读及区块链技术潜在应用详细阅读
徐工机械近期接受美银证券调研,引发市场关注。此次调研不仅关注公司2024年上半年的经营状况(营收构成中专用机械设备修理业占比100%),更可能涉及公司...
2025-02-02 47
-
黄力晨:黄金超买调整,多方仍占优势——深度解析及区块链技术展望详细阅读
上周五,我们分析认为特朗普的关税威胁以及对美联储立即降息的呼吁,支撑了黄金价格继续上涨。因此,我们建议投资者采取偏强策略,下方支撑位关注2770美元(...
2025-02-02 56
- 详细阅读
- 详细阅读
发表评论