AI模型o3性能遭质疑,测试分数远低于官方宣称

OpenAI的新模型o3和o4-mini近日上线,号称最强智能模型。然而,研究机构Epoch AI的测试结果显示,o3在FrontierMath上的得分仅为10%,远低于OpenAI宣称的25%。虽然可能存在测试设置差异,但公开版本的o3确实与预发布版不同,计算层更小,性能也可能有所下降。

AI模型o3性能遭质疑,测试分数远低于官方宣称

AI行业的基准测试争议已成常态。从马斯克的xAI被指图表误导,到Meta的Llama 4因版本不一致引发质疑,各大厂商为争夺市场关注,常在测试数据上引发争议。这反映出行业对透明度和测试标准的迫切需求。

最新快讯
  1. 购买基金的渠道有哪些 投资者可以选择哪些渠道

    2025-05-09 16:36
  2. 《冒险岛MapleStory》链游版封测招募开启!教你两种申请方法

    2025-05-09 16:26
  3. LPL新赛季EDG引入新秀受关注

    2025-05-09 16:13
  4. 京东外卖系统故障订单超时全免单

    2025-05-09 16:07
  5. 稳定币Tether投资比特小鹿!买入1亿美元BTDR成大股东

    2025-05-09 15:58