开云(中国)Kaiyun·官方网站 - 登录入口每次输出最多为100-开云(中国)Kaiyun·官方网站 - 登录入口

时间：2025-07-28 10:03 点击：76 次

文 | 科技漩涡

为了轻视开源竞争敌手DeepSeek-R1的马上崛起，OpenAI发布了新的私有AI模子——o3-mini。然则，这款新模子是否足以松开DeepSeek的成功，仍然是一个疑问。

今天，OpenAI崇拜发布了o3-mini，这是其“推理者”系列中的第二款模子。该系列的模子需要更多工夫进行“念念考”，分析我方的经过，并反念念我方的“念念维链”，然后才能回答用户的发问。最终，这款模子约略在数学、科学、工程等多个边界提供通常博士生或学位抓有者的解答。

o3-mini现已在ChatGPT和OpenAI的API中提供，包括免费的用户也不错使用。而且，它的性能比之前的高端模子o1以偏激低参数版块o1-mini更优，且价钱更低。

尽管o3-mini发布的时机被以为可能是对DeepSeek-R1的复兴，但需要指出的是，o3和o3-mini早在2024年12月就一经文书。OpenAI的CEO Sam Altman曾示意，由于设立者和接洽东谈主员的反馈，o3将在ChatGPT和OpenAI API上同期发布。

与DeepSeek-R1不同，o3-mini并不会以开源相貌发布——这意味着用户无法下载代码进行离线使用，也不成像DeepSeek-R1那样进行高度定制，这可能会在某些愚弄场景下完了它的蛊卦力。

OpenAI莫得提供对于更大版块o3模子的更多细节，这款模子早在2024年12月与o3-mini一同发布。那时，OpenAI示意o3模子的测试将会有几周的蔓延，第三方测试需要恭候一段工夫。

性能与特色

通常于o1，o3-mini在数学、编程和科学推理方面施展出色。

在使用中等推理难度时，o3-mini的施展与o1十分，但它有以下几大上风：

·比较o1-mini，反应速率提高了24%(举例，o1-mini的反应工夫为12.8秒，处理100个token的输出。而o3-mini的反应工夫将裁汰至约10.32秒)。

·准确性擢升，外部测试者更倾向于聘用o3-mini的回答，偏好率达到56%。

·复杂的施行问题中，伪善率减少了39%。

·在编程和STEM任务中施展优异，尤其是在高推理难度时。

·提供三种推理难度级别(低、中、高)，使得用户和设立者不错在准确性与速率之间找到最好均衡。

o3-mini的高下文窗口为200,000个token，每次输出最多为100,000个token。这一性能与o1疏浚，况且优于DeepSeek-R1的高下文窗口(约128,000到130,000个token)。但这一数字仍然远低于Google Gemini 2.0 Flash Thinking的新高下文窗口，后者解救高达100万个token。

·GPQA Diamond: 这是一个评估模子在通用问题解答才能上的地方。

·AIME 2022-2024: 这是好意思国数学邀请赛(American Invitational Mathematics Examination)的一个分数段，用于评估模子在数学推理妥协题才能上的施展。

·Codeforces ELO: 这是编程竞赛平台Codeforces上的一种评分系统，通常于国际象棋中的Elo评级系统，用于评估模子在编程任务上的施展。

天然o3-mini专注于推理，但咫尺它还不具备视觉才能。如若设立者和用户需要上传图片或文献，仍然需要使用o1。

竞争加重

o3-mini的发布秀雅着OpenAI初度向免用度户提供推理模子。此前，o1系列模子仅限于ChatGPT Plus、Pro等付用度户使用，或者通过OpenAI的付费API。

通过2022年11月推出ChatGPT，OpenAI开启了假话语模子(LLM)聊天机器东谈主的新边界。而在2024年9月，OpenAI推出o1系列模子，崇拜始创了推理模子这一新类别，选定了新的检会机制和架构。

然则，OpenAI并莫得将o1开源，这与其称呼和当先的创立理念违反。与之相对，DeepSeek的R1模子选定了开源方式，且填塞免费，允许人人用户摆脱使用、修改和定制。R1模子的检会资本远低于o1和其他顶级实验室的模子，因此在虚耗市集和企业市麇集获得了平日愚弄，以致OpenAI的投资方微软和Anthropic的解救者亚马逊也快速将其添加到我方的云市麇集。

DeepSeek还推出了免费的愚弄和网站，并允许用户对R1模子进行修改和定制，这使得它在虚耗者和企业市集马上崛起。DeepSeek的这种开源政策以及低资本检会，使其成为了一个强有劲的竞争者。

ChatGPT中的可用性

o3当今在人人边界内推向ChatGPT Free、Plus、Team和Pro用户，Enterprise和Education版块将不才周推出。

免用度户不错通过聘用聊天栏中的“reason(推理)”按钮或从头生成回答来初度体验o3-mini。

Plus和Team用户的讯息完了提高了3倍，从每天50条增多到150条。

Pro用户将约略无完了使用o3-mini以及一个新的更高推理版块——o3-mini-high。

此外，o3-mini当今解救与搜索功能的集成，用户将约略获得包含联系网页贯穿的回答。这个功能仍处于初期阶段，OpenAI正在握住转变推理模子中的搜索才能。

API集成与订价

对于设立者，o3-mini已通过Chat Completions API、Assistants API和Batch API提供。该模子解救功能调用、结构化输出和设立者讯息，便于设立者将其集成到实质愚弄中。

o3-mini的最大上风之一是其资本效益：它比o1-mini低廉63%，比好意思满的o1模子低廉93%，每百万token的收支用度分辨为1.10好意思元/4.40好意思元(享有50%的缓存扣头)。

尽管如斯，DeepSeek的R1模子的API价钱仍然更具上风，仅为0.14好意思元/0.55好意思元每百万token收支。但接洽到DeepSeek总部位于中国，触及到一些海外须生常谭的“用户数据流动的安全与地缘政事问题”，OpenAI可能仍将是好意思国和欧洲一些谛视安全的客户和企业的首选。

设立者不错字据愚弄需求转机推理难度(低、中、高)，以规矩蔓延和准确性之间的均衡。

安全性与遁藏保护

OpenAI示意，在o3-mini中选定了“三念念尔后行对王人”的要领。这意味着模子会念念考并领悟东谈主类编写的安全指南，领悟这些指南的意图和辞让的危害，况且会建议我方的要领确保这些危害得到有用幸免。OpenAI示意，这么不错使模子在询查敏锐话题时愈加优容，同期保抓高安全性。

OpenAI称，o3-mini在处理安全性和逃狱挑战时，优于GPT-4o。该模子在发布前进行了平日的安全性测试。

最近有一些海外的第三方报谈指出，DeepSeek的R1模子在50次逃狱测试中“扫数失败”，这将使得一些海外媒体宣传o3-mini在需要高安全性的局势更具上风。

结语：翌日预测

o3-mini的发布秀雅着OpenAI进一步接力让先进的推理AI变得愈加普及和高效，特等是在DeepSeek R1等竞争者的压力下。Google也在推出其竞争性推理模子Gemini 2 Flash Thinking，并膨胀了输入高下文，解救高达100万个tokens。

OpenAI聚焦于STEM推理和资本效益，旨在扩大AI运行的科罚决议在虚耗者和设立者中的愚弄。

然则，跟着OpenAI握住膨胀宏愿，最近文书的一个由软银解救的5000亿好意思元数据中心基础法子风景Stargate，问题仍然存在：它的政策是否足以让这些多数投资获获得报?跟着开源模子握住接近OpenAI的性能并在资本上杰出它，OpenAI是否能凭借其安全性、高大的才能、易用的API和用户友好的界面保管现存客户，特等是在企业市集上?咱们将持续顺心这些发展。