来源:金十数据
OpenAI的o3推理模型表现遥遥领先,但其高昂的价格可能让微软等客户转而选择更便宜的o3 mini。
人工智能公司在努力进入高级模型的下一阶段方面困难重重,OpenAI在GPT-4之后迟迟没有推出GPT-5就是最好的例证。最新发展的主要障碍是缺乏训练下一代尖端模型的数据。
既然模型在“智能”方面没有进步,OpenAI便转而通过“推理”来增强产出,将问题分解成易于处理的小块,并在每个阶段进行自我修正,从而使模型能够解决问题。但这增加了聊天机器人的输出时间:简单的询问只需几秒钟,但复杂的数学和科学问题则需要多达几分钟。
“思维链”(CoT)一直被认为是人类使用聊天机器人的最佳实践,但新的推理模型却能自己做到这一点。由于推理模型会自我纠正,因此可以减少所谓的“幻觉”,即一本正经地胡说八道。
推理模型始于9月发布的ChatGPT o1,上周五公布的o3是其下一代。谷歌也在上周发布了类似的Gemini 2.0 Flash Thinking。o1模型展示了推理改善输出的前景,而o3则在这方面又向前迈进了一大步。o3在数学方面的进步尤其令人印象深刻,它在一项高级数学测试中获得了25%的高分,而OpenAI表示,目前还没有其他模型的得分超过2%。
高昂的价格可能让微软等客户望而却步
o3的进步可能对微软尤为重要,因为OpenAI模型是微软人工智能助手Microsoft 365 Copilot的基础。对于企业客户来说,最大限度地减少幻觉至关重要,以免用户因为Copilot而犯错。微软一直指望GPT-5来解决这个问题,o3可能就是下一个最佳选择。
除了增加查询时间外,推理还有另一个缺点:成本更高,这也是人工智能的常见问题。OpenAI的企业客户将不得不为推理所需的所有额外底层计算付费。o1文本输入和输出的收费已是其前身4o的六倍,而目前我们还不知道o3的费用是多少。
如果用户提出的问题很难回答,费用就会迅速增加。OpenAI在其o3现场直播中展示了一项高级基准测试,每项任务的成本为20美元,平均任务完成时间为1.3分钟。而且当时使用的是所谓的“高效”版本模型,其中的推理还是有限的。该基准测试组织表示,使用o3的完整推理能力完成同样的任务平均需要13.8分钟,使用的计算能力是原来的172倍。尽管该组织没有提供成本明细,但不难想象,最初的成本可能令人咂舌。
对于想使用o3的微软来说,成本是个问题。微软每月向用户收取30美元的Copilot服务费用,因此即使仅用o3处理部分复杂任务,也会使削弱公司的利润。从这个角度来说,将在未来几个月内推出的更小、更便宜、更快的o3 mini可能才是包括微软在内的OpenAI企业客户更青睐的产品。虽然o3 mini比o3可能更容易出错,但与目前支持Copilot的4o模型相比,它仍然是一个重大改进。
微软还没有完全采用o1,原因可能就是成本上升,但收益有限。我们还不知道o3 mini的查询成本是多少,但它的技能已经比4o有了更大的飞跃。考虑到在商业运用中限制人工智能的错误也是一个关键,因此o3 mini可能会是众多选择中的一个甜点。
有话要说...