Codex

Codex 模型质量雷达

EN
公告

Tibo 的重置机制已转向“重置卡手工重置”,原重置预测、速蹬窗口提醒和历史窗口已下架。Codex 雷达接下来聚焦模型质量,保留 Model IQ 与社区体感分,并逐步提升监控频率和维度。

智商、速度、费用与 cache 命中率

低于基线
GPT-5.5-xhigh 62.5
GPT-5.4-xhigh 75.0

GPT-5.5-xhigh:6月14日 5/12 通过,基线 8/12

IQ指数 120 100 80 90-110常态区 费用 分钟 $50 210 $25 105 0 0 6月8日 GPT-5.5 xhigh: 费用 $40.73, cache命中率 94.8% 6月8日 GPT-5.4 xhigh: 费用 $21.06, cache命中率 96.2% 6月9日 GPT-5.5 xhigh: 费用 $43.35, cache命中率 95.2% 6月9日 GPT-5.4 xhigh: 费用 $22.56, cache命中率 95.6% 6月10日 GPT-5.5 xhigh: 费用 $43.50, cache命中率 94.3% 6月10日 GPT-5.4 xhigh: 费用 $22.49, cache命中率 95.4% 6月11日 GPT-5.5 xhigh: 费用 $39.61, cache命中率 94.8% 6月11日 GPT-5.4 xhigh: 费用 $23.34, cache命中率 96.0% 6月12日 GPT-5.5 xhigh: 费用 $40.58, cache命中率 96.2% 6月12日 GPT-5.4 xhigh: 费用 $21.70, cache命中率 96.0% 6月13日 GPT-5.5 xhigh: 费用 $42.41, cache命中率 94.5% 6月13日 GPT-5.4 xhigh: 费用 $23.19, cache命中率 94.1% 6月14日 GPT-5.5 xhigh: 费用 $37.59, cache命中率 94.3% 6月14日 GPT-5.4 xhigh: 费用 $21.33, cache命中率 95.7% 6月8日 GPT-5.5 xhigh: 耗时 158分钟, 实际耗时 43分钟 6月8日 GPT-5.4 xhigh: 耗时 187分钟, 实际耗时 52分钟 6月9日 GPT-5.5 xhigh: 耗时 186分钟, 实际耗时 51分钟 6月9日 GPT-5.4 xhigh: 耗时 181分钟, 实际耗时 51分钟 6月10日 GPT-5.5 xhigh: 耗时 165分钟, 实际耗时 48分钟 6月10日 GPT-5.4 xhigh: 耗时 208分钟, 实际耗时 58分钟 6月11日 GPT-5.5 xhigh: 耗时 163分钟, 实际耗时 47分钟 6月11日 GPT-5.4 xhigh: 耗时 199分钟, 实际耗时 66分钟 6月12日 GPT-5.5 xhigh: 耗时 156分钟, 实际耗时 43分钟 6月12日 GPT-5.4 xhigh: 耗时 199分钟, 实际耗时 56分钟 6月13日 GPT-5.5 xhigh: 耗时 170分钟, 实际耗时 46分钟 6月13日 GPT-5.4 xhigh: 耗时 203分钟, 实际耗时 55分钟 6月14日 GPT-5.5 xhigh: 耗时 183分钟, 实际耗时 51分钟 6月14日 GPT-5.4 xhigh: 耗时 206分钟, 实际耗时 55分钟 5.5-xhigh 费用 耗时 IQ 5.4-xhigh 费用 耗时 IQ 6月8日 GPT-5.5 xhigh: IQ指数 62.5, 5/12, 费用 $40.73, 耗时 158分钟, cache命中率 94.8% 6月8日 GPT-5.4 xhigh: IQ指数 75.0, 6/12, 费用 $21.06, 耗时 187分钟, cache命中率 96.2% 6月9日 GPT-5.5 xhigh: IQ指数 100.0, 8/12, 费用 $43.35, 耗时 186分钟, cache命中率 95.2% 6月9日 GPT-5.4 xhigh: IQ指数 62.5, 5/12, 费用 $22.56, 耗时 181分钟, cache命中率 95.6% 6月10日 GPT-5.5 xhigh: IQ指数 87.5, 7/12, 费用 $43.50, 耗时 165分钟, cache命中率 94.3% 6月10日 GPT-5.4 xhigh: IQ指数 100.0, 8/12, 费用 $22.49, 耗时 208分钟, cache命中率 95.4% 6月11日 GPT-5.5 xhigh: IQ指数 87.5, 7/12, 费用 $39.61, 耗时 163分钟, cache命中率 94.8% 6月11日 GPT-5.4 xhigh: IQ指数 75.0, 6/12, 费用 $23.34, 耗时 199分钟, cache命中率 96.0% 6月12日 GPT-5.5 xhigh: IQ指数 75.0, 6/12, 费用 $40.58, 耗时 156分钟, cache命中率 96.2% 6月12日 GPT-5.4 xhigh: IQ指数 62.5, 5/12, 费用 $21.70, 耗时 199分钟, cache命中率 96.0% 6月13日 GPT-5.5 xhigh: IQ指数 87.5, 7/12, 费用 $42.41, 耗时 170分钟, cache命中率 94.5% 6月13日 GPT-5.4 xhigh: IQ指数 75.0, 6/12, 费用 $23.19, 耗时 203分钟, cache命中率 94.1% 6月14日 GPT-5.5 xhigh: IQ指数 62.5, 5/12, 费用 $37.59, 耗时 183分钟, cache命中率 94.3% 6月14日 GPT-5.4 xhigh: IQ指数 75.0, 6/12, 费用 $21.33, 耗时 206分钟, cache命中率 95.7% 6月8日 6月9日 6月10日 6月11日 6月12日 6月13日 6月14日
项目GPT-5.5-xhighGPT-5.4-xhigh
通过数 5/12 6/12
IQ 62.5 75.0
Agent steps 437 491
费用 $37.59 $21.33
cache命中率 94.3% 95.7%
耗时 183分钟 206分钟
总tokens 35,246,564 40,065,045

固定评测任务集

每日 IQ 点固定使用这组混合语言 DeepSWE 任务;每行展示今天两组模型在同一道题上的结果。

12 题
  1. 01
    Add JSONPath query APIs to orderedmap and Starlark modules ytt-jsonpath-query-api
    GO 稳定通过题 基线通过
    5.5 通过 5.4 通过
  2. 02
    Add build-time grammar conflict analysis to participle participle-grammar-conflict-analysis
    GO 边界挑战题 基线未过
    5.5 未过 5.4 未过
  3. 03
    Harden module loading, cache introspection, and script flags abs-module-cache-flags
    GO 稳定通过题 基线通过
    5.5 未过 5.4 通过
  4. 04
    Add multipart response parsing to HTTPX httpx-multipart-response-parsing
    PYTHON 稳定通过题 基线通过
    5.5 未过 5.4 通过
  5. 05
    Add incremental cache controls to Bandit bandit-incremental-cache-control
    PYTHON 边界挑战题 基线未过
    5.5 未过 5.4 未过
  6. 06
    Add session bundle recording and replay to IPython ipython-session-bundle-replay
    PYTHON 稳定通过题 基线通过
    5.5 未过 5.4 未过
  7. 07
    Add a per-origin circuit breaker to ofetch ofetch-per-origin-circuit-breaker
    TYPESCRIPT 稳定通过题 基线通过
    5.5 通过 5.4 通过
  8. 08
    Add link format conversion between wiki and markdown syntax obsidian-linter-link-format-conversion
    TYPESCRIPT 边界挑战题 基线未过
    5.5 未过 5.4 未过
  9. 09
    Add atomic signal selectors to Kea kea-atomic-signal-selectors
    TYPESCRIPT 稳定通过题 基线通过
    5.5 通过 5.4 通过
  10. 10
    Add shorthand expansion and compression to the lexer csstree-shorthand-expansion-compression
    JAVASCRIPT 稳定通过题 基线通过
    5.5 通过 5.4 未过
  11. 11
    Add deterministic multi-key sorting to fd fd-deterministic-multi-key-sorting
    RUST 边界挑战题 基线未过
    5.5 未过 5.4 未过
  12. 12
    Preserve structure needed by stylesheet selectors oxvg-structural-selector-preservation
    RUST 高难通过题 基线通过
    5.5 通过 5.4 通过

社区体感分

诚邀蹬友根据当日实际体验进行评分,请只给用过的模型打分,以免引入噪声,谢谢~

每日评分

体感分参考:9-10 明显好用,7-8 正常可用,5-6 勉强可用,3-4 体验较差,1-2 几乎不可用。可综合准确性、返工次数、速度、稳定性和额度/服务影响。

GPT-5.5 xhigh
今日未评分
暂无 0 人评分
GPT-5.5 high
今日未评分
暂无 0 人评分
GPT-5.5 medium
今日未评分
暂无 0 人评分
GPT-5.4 xhigh
今日未评分
暂无 0 人评分

正在读取社区体感分...

社区入口

高质量codex技术交流社区

扫码进群聊 Codex、互助重置卡;关注公众号看后续更新。

大模型与小加一公众号二维码 公众号 更新和实用技巧
Codex 雷达蹬友群二维码 蹬友群 互助和交流
Tibo 时间
Tibo 的 X 头像
--:-- -- 计算中
San Francisco Bay Area / PT

JSON 当前状态,RSS 后续用于官方发卡/权益提醒。