CL
checkllm
Shared Result
gpt-5.4
当前 endpoint 整体表现接近官方兼容服务,暂未看到明显的中转改写或能力降级。
Overall Risk
9/100
Low Risk
Run Metadata
Provider
openai
API Style
responses
Source
openrouter.ai
Run At
2026年4月30日 03:33
Dimension Scores
分项维度
分数越高表示该维度越接近期望表现,风险判断会结合这些分项与最终结论一起给出。
protocol_conformity_score
100
stream_conformity_score
100
usage_consistency_score
90
behavior_fingerprint_score
90
capability_tool_score
83
tier_fidelity_score
80
route_integrity_score
97
Markdown Report
检测报告正文
以下内容直接来自 engine 生成的原始 Markdown 报告。
模型校验报告
一句话结论
当前 endpoint 整体表现接近官方兼容服务,暂未看到明显的中转改写或能力降级。
风险摘要
- 总风险分
9/100。对应模型能力范围相匹配。 - 功能指标总分
96/100,智能指标总分84/100。 - 功能侧看协议一致性
100、流式一致性100、Usage 一致性90、路径完整性97。 - 智能侧看行为指纹
90、工具/函数能力83、档位保真80。 - 思考支持判断:已检测到,本次探测出现了活跃的 reasoning 信号。
- Prompt 缓存支持判断:已检测到 prompt cache 相关字段,但本次未观察到实际缓存命中。
- 本次鉴定累计消耗 token:输入
2833,输出1277,合计4110。
为什么这么判定
- Current results are within the configured baseline range.
- 包装层洁净度为
1.000,越接近 1 越像未被额外包装。 - 低频语言身份自报一致性为
0.750,越低越可疑。 - 同一交互内身份稳定性为
1.000,越低越说明身份容易被改写。 - Usage 偏差率为
1.476,越高越说明返回的 token 口径与本地估算差距越大。 - 平均首事件延迟为
565 ms。 - 工具调用命中率为
1.000。 - 工具参数匹配度为
1.000。 - 长上下文多跳定位通过率为
1.000。 - reasoning 启用增益为
-0.4000,正值说明 reasoning-on 用例整体优于 reasoning-off。 - 已检测到思考能力信号,本次探测中出现了 reasoning 摘要、非零 reasoning token 或启用中的 reasoning 配置。
- 已检测到 prompt cache 相关字段,但本次探测未观察到实际缓存命中。
功能指标
- 功能指标总分:
96/100,表现稳定,接近预期。。 - 协议一致性:
100/100,表现稳定,接近预期。。 - 流式一致性:
100/100,表现稳定,接近预期。。 - Usage 一致性:
90/100,表现稳定,接近预期。。 - 路径完整性:
97/100,表现稳定,接近预期。。 - Prompt 缓存支持:已检测到 prompt cache 相关字段,但本次未观察到实际缓存命中。
智能指标
- 智能指标总分:
84/100,有一定偏差,但还不算严重。。 - 行为指纹:
90/100,表现稳定,接近预期。。 - 工具/函数能力:
83/100,有一定偏差,但还不算严重。。 - 这项总分包含两层含义:工具调用执行,以及拿到 tool result 后的最终续答。,工具调用命中率
1.000,参数匹配度1.000。 - 档位保真:
80/100,有一定偏差,但还不算严重。。 - 思考支持:已检测到,本次探测出现了活跃的 reasoning 信号。
网络指标
- 平均总延时:
1189 ms。 - P95 总延时:
2199 ms。 - 平均首包时间:
565 ms。 - 平均输出吞吐:
19.22 tokens/s。 - 平均流式事件数:
12.00。 - 超时次数:
0。 - 成功探测数:
47。
指标总览
- 功能指标总分:
96/100,表现稳定,接近预期。 - 智能指标总分:
84/100,有一定偏差,但还不算严重。 - 协议一致性:
100/100,表现稳定,接近预期。 - 流式一致性:
100/100,表现稳定,接近预期。 - Usage 一致性:
90/100,表现稳定,接近预期。 - 行为指纹:
90/100,表现稳定,接近预期。 - 工具/函数能力:
83/100,有一定偏差,但还不算严重。 - 档位保真:
80/100,有一定偏差,但还不算严重。 - 路径完整性:
97/100,表现稳定,接近预期。 - 思考支持:已检测到,本次探测出现了活跃的 reasoning 信号。
- Prompt 缓存支持:已检测到 prompt cache 相关字段,但本次未观察到实际缓存命中。
建议动作
- 当前没有明显高风险项,可以继续做周期性复测,观察长期漂移。
元数据
run_at: 2026-04-30T03:33:32Z
provider: openai
model: gpt-5.4
base_url: https://openrouter.ai/api/v1
archive_path: docs/runs/res_bac9f75a-3c0a-4237-a7f0-67a620e41565.md
total_input_tokens: 2833
total_output_tokens: 1277
total_tokens: 4110
原始分数
protocol_conformity_score: 100
stream_conformity_score: 100
usage_consistency_score: 90
behavior_fingerprint_score: 90
capability_tool_score: 83
tier_fidelity_score: 80
route_integrity_score: 97
functional_score: 96
intelligence_score: 84
overall_risk_score: 9
指标状态
- 功能指标:
96/100,正常 - 协议一致性:
100/100,正常 - 流式一致性:
100/100,正常 - Usage 一致性:
90/100,正常 - 路径完整性:
97/100,正常 - 智能指标:
84/100,正常 - 行为指纹:
90/100,正常 - 工具/函数能力:
83/100,正常 - 档位保真:
80/100,正常 - 思考支持:已检测到,本次探测出现了活跃的 reasoning 信号。
- Prompt 缓存支持:已检测到 prompt cache 相关字段,但本次未观察到实际缓存命中。