根据OpenAI公布的测试结果,o3在程式编码、科学推理、数学解题与视觉任务等多项基准中均刷新纪录:与第一代o1相比,大幅降低近二成的重大错误率,并在Codeforces、SWE‑bench以及MMMU等竞赛中名列前茅。o4‑mini则以轻量化设计为重点,运行速度更快、成本更低,却在AIME 2024与2025数学比赛中表现不俗,同时在资料科学与非理工领域的指令遵循度上,也超越前一代o3‑mini。
更值得一提的是,这两款模型能「图文一体」进行思考:使用者只需上传手绘草稿、白板笔记或教科书插图,模型即可自动进行旋转、放大、裁切等操作,并在内部加入文字连结与视觉推理,迅速提供整合性解答。这项能力在视觉基准测试中亦取得显著成绩,为教学应用与跨领域研究开启更多可能性。
以往需要多道人工流程才能完成的复杂任务,如「比较加州今年与去年夏季用电趋势」等,现可由模型自动搜寻公开资料、撰写预测程式、绘制图表,并同步解读影响因素,一气呵成。OpenAI指出,随著强化学习规模持续扩大,未来将在相同延迟与成本条件下,进一步延长模型思考时间,以满足更高阶的深度分析需求。
整体而言,o3与o4‑mini的发表也代表ChatGPT在自主式工具运用与跨模态推理上的重要突破,预计接下来将在企业分析、学术研究与创意内容产出等情境中,为用户带来更高效且更贴近实务需求的AI助理体验。这两款模型现已对ChatGPT Plus与Pro付费用户、企业版Teams与API用户全面开放。


不是人人都会!产业AI化调查 仅3成企业进入实作