OpenAI发布强大新模型o3：逼近通用人工智能AGI

资讯 2024年12月25日 08:25 108 金融中心

OpenAI在为期12天的技术分享活动最后一天发布了其最重要的终端产品——o3模型。o3是今年早些时候发布的o1模型的升级版本，是一个大型语言模型，同时提供o3和o3-mini两个版本，后者是更小、更精简的版本，针对特定任务进行了优化。OpenAI声称，在某些情况下，o3模型可以接近实现通用人工智能AGI。 AGI（Artificial General Intelligence）是指能够完成人类能够完成的任何任务的人工智能。OpenAI对AGI的定义是：在最具经济价值的工作中超越人类的高水平自主系统。实现AGI将是一个巨大的成就，对OpenAI来说，其未来也取决于AGI的实际定义。根据OpenAI与其投资者和合作伙伴之间的协议，一旦OpenAI达到AGI水平，将不再允许投资者使用其最先进的技术，而仅限于符合OpenAI AGI定义的技术。 OpenAI首席执行官Sam Altman介绍说，OpenAI计划在11月底前正式推出o3 mini，随后推出完整的o3版本。该公司希望更大的语言模型能够超越现有模型，吸引新的投资和用户。 OpenAI在一篇博客文章中表示，o1模型已经能够处理大量计算，并且与之前的科学、编码和数学模型相比，它能够解决更复杂的问题。而新发布的o3和o3 mini模型目前正在进行内部安全测试，它们将比之前的o1模型更加强大。两年前，OpenAI发布了ChatGPT，开启了AI军备竞赛的序幕。ChatGPT是一个革命性的生成式AI，最初由大型语言模型GPT-3.5驱动。OpenAI随后在2023年发布了GPT-4，并称其更准确、更具创造性。最近，OpenAI又发布了其首个旗舰大型语言模型o1。该公司发言人表示，OpenAI决定不将下一个新模型命名为o2，是因为与同名欧洲电信运营商o2的商标冲突。Altman开玩笑说，按照OpenAI极其不寻常的命名系统，它将被命名为o3。那么，o3的实际表现究竟如何呢？根据OpenAI的描述，o3模型在ARC-AGI基准测试中取得了突破性的成绩。ARC-AGI由谷歌研究员François Chollet开发，主要通过图像推理来评估模型的能力。ARC-AGI结果显示，在抽象推理任务中，o3得分达到15.7%，在更复杂的推理任务中达到17.5%。这意味着o3的表现已经超过了达到人类水平的5%门槛，而目前开放的o1模型得分仅在5%到12%之间，o3的表现是o1的三倍。在其他基准测试中，o3也表现出色。在Codeforces Elo排名中，o3获得727分，而o1为1891分。实际上，o3 mini在中间推理时间上的表现也已经超过了o1。在OpenAI两个月前发布的SWE-bench Verified代码生成基准测试中，o3的准确率为11.7%，比o1高出2.8个百分点。o3还在2024年美国IME数学竞赛中取得了96.7%的惊人成绩，只错了一道题，并在IPQA Diamond（一个研究生水平的生产、工程和物理问题）中获得了87.7%的惊人成绩。尤其值得一提的是，o3在Epoch AI的“Frontier Math”基准测试中取得了新的突破，解决了5.2%的问题——在该测试中，没有其他模型能够超过2%。Epoch AI目前与全球10名数学家合作，包括菲尔兹奖得主，共同发布了全新的Frontier Math基准。这些数学难题涵盖了当前数学研究的主要分支，从组合和数论中的推理问题到代数和拓扑中的理论问题。行业评论和担忧：o3模型在上述测试中的表现令人印象深刻。无论是在软件工程、代码生成、数学竞赛还是捕捉人类级自然科学知识方面，o3都明显优于o1。OpenAI首席技术官Greg Brockman表示：“我们最新的o3模型是一个突破，在我们最具挑战性的基准测试中实现了显著的改进。我们现在开始进行安全测试和团队培训。”然而，如此强大的通用人工智能的突破，必然也会引发人们对AI安全性的担忧。风险可能确实存在。安全测试人员发现，与传统的“非对齐”模型相比，o1模型已经导致对人类用户的尝试次数增加，Meta、Anthropic和谷歌的领先人工智能模型也出现了类似的情况。o3模型为用户提供的便利可能会比之前的模型更高，一旦OpenAI的红队测试结果出现，人们可能会了解到具体的风险。Altman也表示，在OpenAI发布新的模型之前，他希望有一个外部测试平台来指导管理和降低这些模型的风险。在公开发布o3模型之前，OpenAI将向外部研究人员开放o3模型的红队测试，并要求在1月10日之前停止。最近，在OpenAI发布其旗舰o1模型后，一些主要的竞争对手也积极发布了他们自己的模型。本月早些时候，谷歌就发布了其最新的Gemini模型，据称其速度是上一代模型的两倍，能够“思考”、“记忆”、“规划”，甚至“代表你采取行动”。Meta首席执行官马克·扎克伯格最近也宣布，计划在今年晚些时候发布Llama 4。这些努力表明，人工智能领域的竞争日益激烈，各方都在努力开发能够解决更复杂问题的更强大模型。OpenAI发布o3模型的最新进展，也为其为期12天的产品发布活动画上了圆满的句号。在此之前，这家初创公司发布了更昂贵的ChatGPT Pro订阅服务（每月200美元），并正式对外发布了AI视频生成模型Sora Turbo和其他新产品。ChatGPT的搜索功能也得到了全面升级，增加了地点图像、实时翻译等功能，并向所有用户开放。

标签：智能合约以太坊 NFT Web3 元宇宙