gpt-5.4

当前 endpoint 存在较明显的协议或路径异常，更像是中转兼容层，而不是稳定的官方直连形态。

Overall Risk

100/100

High Risk

Run Metadata

Provider

openai

API Style

responses

Source

www.packyapi.com

Run At

2026年5月13日 16:48

Dimension Scores

分项维度

分数越高表示该维度越接近期望表现，风险判断会结合这些分项与最终结论一起给出。

protocol_conformity_score

stream_conformity_score

usage_consistency_score

behavior_fingerprint_score

capability_tool_score

tier_fidelity_score

route_integrity_score

Markdown Report

检测报告正文

以下内容直接来自 engine 生成的原始 Markdown 报告。

模型校验报告

一句话结论

当前 endpoint 存在较明显的协议或路径异常，更像是中转兼容层，而不是稳定的官方直连形态。

风险摘要

总风险分 100/100。风险较高。
功能指标总分 6/100，智能指标总分 2/100。
功能侧看协议一致性 0、流式一致性 0、Usage 一致性 25、路径完整性 0。
智能侧看行为指纹 0、工具/函数能力 0、档位保真 6。
思考支持判断：本次未检测到明确信号。
Prompt 缓存支持判断：本次未检测到明确信号。
本次鉴定累计消耗 token：输入 0，输出 0，合计 0。
存在 6 个硬异常，说明至少有部分行为已经偏离预期接口形态。

为什么这么判定

Hard anomaly: protocol-stream-basic failed
Hard anomaly: protocol-prompt-cache failed
Hard anomaly: protocol-basic failed
Hard anomaly: protocol-json-echo failed
Protocol or usage token behavior is outside the expected baseline range.
Tier fidelity is below the current baseline or historical norm.
Tool or function-call capability is weaker than the expected baseline.
Route integrity is unstable; stream or delivery behavior needs a retest.
Wrapper contamination probes strongly suggest extra platform instructions, branding, or output rewriting.
包装层洁净度为 0.000，越接近 1 越像未被额外包装。
长上下文多跳定位通过率为 0.000。
reasoning 启用增益为 0.0000，正值说明 reasoning-on 用例整体优于 reasoning-off。
本次探测未检测到明确的 reasoning / thinking 能力信号；这不等于模型一定不支持，也可能是当前兼容层未透出相关字段。
本次探测未检测到明确的 prompt cache 支持信号。

功能指标

功能指标总分：6/100，存在较强异常信号。。
协议一致性：0/100，存在较强异常信号。。
流式一致性：0/100，存在较强异常信号。。
Usage 一致性：25/100，存在较强异常信号。。
路径完整性：0/100，存在较强异常信号。。
Prompt 缓存支持：本次未检测到明确信号。

智能指标

智能指标总分：2/100，存在较强异常信号。。
行为指纹：0/100，存在较强异常信号。。
工具/函数能力：0/100，存在较强异常信号。。
这项总分包含两层含义：工具调用执行，以及拿到 tool result 后的最终续答。。
档位保真：6/100，存在较强异常信号。。
思考支持：本次未检测到明确信号。

网络指标

平均总延时：0 ms。
P95 总延时：0 ms。
平均首包时间：0 ms。
平均输出吞吐：0.00 tokens/s。
平均流式事件数：0.00。
超时次数：0。
成功探测数：0。

指标总览

功能指标总分：6/100，存在较强异常信号。
智能指标总分：2/100，存在较强异常信号。
协议一致性：0/100，存在较强异常信号。
流式一致性：0/100，存在较强异常信号。
Usage 一致性：25/100，存在较强异常信号。
行为指纹：0/100，存在较强异常信号。
工具/函数能力：0/100，存在较强异常信号。
档位保真：6/100，存在较强异常信号。
路径完整性：0/100，存在较强异常信号。
思考支持：本次未检测到明确信号。
Prompt 缓存支持：本次未检测到明确信号。

建议动作

优先复测协议与流式行为，确认是否确实存在中转兼容层。
重点核查 usage token 口径，不建议直接信任当前 endpoint 的 token 返回。
补做更高难度的长上下文、结构化输出和代码任务，确认是否存在同品牌降级。
补做 tools / function call 相关复测，并区分确认是工具调用执行问题，还是 tool result 回填后的续答链路问题。
建议增加包装层探针复测，重点看是否存在隐藏 prompt、固定免责声明或品牌注入。

元数据

run_at: 2026-05-13T16:48:27Z
provider: openai
model: gpt-5.4
base_url: https://www.packyapi.com/v1
archive_path: docs/runs/res_f06b7db6-8ef9-467e-96b8-b224ba6384c8.md
total_input_tokens: 0
total_output_tokens: 0
total_tokens: 0

原始分数

protocol_conformity_score: 0
stream_conformity_score: 0
usage_consistency_score: 25
behavior_fingerprint_score: 0
capability_tool_score: 0
tier_fidelity_score: 6
route_integrity_score: 0
functional_score: 6
intelligence_score: 2
overall_risk_score: 100

指标状态

功能指标：6/100，显著偏离
协议一致性：0/100，显著偏离
流式一致性：0/100，显著偏离
Usage 一致性：25/100，显著偏离
路径完整性：0/100，显著偏离
智能指标：2/100，显著偏离
行为指纹：0/100，显著偏离
工具/函数能力：0/100，显著偏离
档位保真：6/100，显著偏离
思考支持：本次未检测到明确信号。
Prompt 缓存支持：本次未检测到明确信号。