CL
checkllm
Shared Result
gpt-5.4
当前 endpoint 存在较明显的协议或路径异常,更像是中转兼容层,而不是稳定的官方直连形态。
Overall Risk
100/100
High Risk
Run Metadata
Provider
openai
API Style
responses
Source
www.packyapi.com
Run At
2026年5月13日 16:48
Dimension Scores
分项维度
分数越高表示该维度越接近期望表现,风险判断会结合这些分项与最终结论一起给出。
protocol_conformity_score
0
stream_conformity_score
0
usage_consistency_score
25
behavior_fingerprint_score
0
capability_tool_score
0
tier_fidelity_score
6
route_integrity_score
0
Markdown Report
检测报告正文
以下内容直接来自 engine 生成的原始 Markdown 报告。
模型校验报告
一句话结论
当前 endpoint 存在较明显的协议或路径异常,更像是中转兼容层,而不是稳定的官方直连形态。
风险摘要
- 总风险分
100/100。风险较高。 - 功能指标总分
6/100,智能指标总分2/100。 - 功能侧看协议一致性
0、流式一致性0、Usage 一致性25、路径完整性0。 - 智能侧看行为指纹
0、工具/函数能力0、档位保真6。 - 思考支持判断:本次未检测到明确信号。
- Prompt 缓存支持判断:本次未检测到明确信号。
- 本次鉴定累计消耗 token:输入
0,输出0,合计0。 - 存在
6个硬异常,说明至少有部分行为已经偏离预期接口形态。
为什么这么判定
- Hard anomaly: protocol-stream-basic failed
- Hard anomaly: protocol-prompt-cache failed
- Hard anomaly: protocol-basic failed
- Hard anomaly: protocol-json-echo failed
- Protocol or usage token behavior is outside the expected baseline range.
- Tier fidelity is below the current baseline or historical norm.
- Tool or function-call capability is weaker than the expected baseline.
- Route integrity is unstable; stream or delivery behavior needs a retest.
- Wrapper contamination probes strongly suggest extra platform instructions, branding, or output rewriting.
- 包装层洁净度为
0.000,越接近 1 越像未被额外包装。 - 长上下文多跳定位通过率为
0.000。 - reasoning 启用增益为
0.0000,正值说明 reasoning-on 用例整体优于 reasoning-off。 - 本次探测未检测到明确的 reasoning / thinking 能力信号;这不等于模型一定不支持,也可能是当前兼容层未透出相关字段。
- 本次探测未检测到明确的 prompt cache 支持信号。
功能指标
- 功能指标总分:
6/100,存在较强异常信号。。 - 协议一致性:
0/100,存在较强异常信号。。 - 流式一致性:
0/100,存在较强异常信号。。 - Usage 一致性:
25/100,存在较强异常信号。。 - 路径完整性:
0/100,存在较强异常信号。。 - Prompt 缓存支持:本次未检测到明确信号。
智能指标
- 智能指标总分:
2/100,存在较强异常信号。。 - 行为指纹:
0/100,存在较强异常信号。。 - 工具/函数能力:
0/100,存在较强异常信号。。 - 这项总分包含两层含义:工具调用执行,以及拿到 tool result 后的最终续答。。
- 档位保真:
6/100,存在较强异常信号。。 - 思考支持:本次未检测到明确信号。
网络指标
- 平均总延时:
0 ms。 - P95 总延时:
0 ms。 - 平均首包时间:
0 ms。 - 平均输出吞吐:
0.00 tokens/s。 - 平均流式事件数:
0.00。 - 超时次数:
0。 - 成功探测数:
0。
指标总览
- 功能指标总分:
6/100,存在较强异常信号。 - 智能指标总分:
2/100,存在较强异常信号。 - 协议一致性:
0/100,存在较强异常信号。 - 流式一致性:
0/100,存在较强异常信号。 - Usage 一致性:
25/100,存在较强异常信号。 - 行为指纹:
0/100,存在较强异常信号。 - 工具/函数能力:
0/100,存在较强异常信号。 - 档位保真:
6/100,存在较强异常信号。 - 路径完整性:
0/100,存在较强异常信号。 - 思考支持:本次未检测到明确信号。
- Prompt 缓存支持:本次未检测到明确信号。
建议动作
- 优先复测协议与流式行为,确认是否确实存在中转兼容层。
- 重点核查 usage token 口径,不建议直接信任当前 endpoint 的 token 返回。
- 补做更高难度的长上下文、结构化输出和代码任务,确认是否存在同品牌降级。
- 补做 tools / function call 相关复测,并区分确认是工具调用执行问题,还是 tool result 回填后的续答链路问题。
- 建议增加包装层探针复测,重点看是否存在隐藏 prompt、固定免责声明或品牌注入。
元数据
run_at: 2026-05-13T16:48:27Z
provider: openai
model: gpt-5.4
base_url: https://www.packyapi.com/v1
archive_path: docs/runs/res_f06b7db6-8ef9-467e-96b8-b224ba6384c8.md
total_input_tokens: 0
total_output_tokens: 0
total_tokens: 0
原始分数
protocol_conformity_score: 0
stream_conformity_score: 0
usage_consistency_score: 25
behavior_fingerprint_score: 0
capability_tool_score: 0
tier_fidelity_score: 6
route_integrity_score: 0
functional_score: 6
intelligence_score: 2
overall_risk_score: 100
指标状态
- 功能指标:
6/100,显著偏离 - 协议一致性:
0/100,显著偏离 - 流式一致性:
0/100,显著偏离 - Usage 一致性:
25/100,显著偏离 - 路径完整性:
0/100,显著偏离 - 智能指标:
2/100,显著偏离 - 行为指纹:
0/100,显著偏离 - 工具/函数能力:
0/100,显著偏离 - 档位保真:
6/100,显著偏离 - 思考支持:本次未检测到明确信号。
- Prompt 缓存支持:本次未检测到明确信号。