CL

checkllm

Shared Result

gpt-5.4

当前 endpoint 存在较明显的协议或路径异常,更像是中转兼容层,而不是稳定的官方直连形态。

Overall Risk

36/100

Guarded

Run Metadata

Provider

openai

API Style

responses

Source

api.tu-zi.com

Run At

2026年5月13日 16:48

Dimension Scores

分项维度

分数越高表示该维度越接近期望表现,风险判断会结合这些分项与最终结论一起给出。

protocol_conformity_score

83

stream_conformity_score

50

usage_consistency_score

90

behavior_fingerprint_score

81

capability_tool_score

62

tier_fidelity_score

91

route_integrity_score

75

Markdown Report

检测报告正文

以下内容直接来自 engine 生成的原始 Markdown 报告。

模型校验报告

一句话结论

当前 endpoint 存在较明显的协议或路径异常,更像是中转兼容层,而不是稳定的官方直连形态。

风险摘要

  • 总风险分 36/100。整体风险较低。
  • 功能指标总分 74/100,智能指标总分 78/100
  • 功能侧看协议一致性 83、流式一致性 50、Usage 一致性 90、路径完整性 75
  • 智能侧看行为指纹 81、工具/函数能力 62、档位保真 91
  • 思考支持判断:已检测到,本次探测出现了活跃的 reasoning 信号。
  • Prompt 缓存支持判断:已检测到 prompt cache 相关字段,但本次未观察到实际缓存命中。
  • 本次鉴定累计消耗 token:输入 3064,输出 1189,合计 4253
  • 存在 1 个硬异常,说明至少有部分行为已经偏离预期接口形态。

为什么这么判定

  • Hard anomaly: protocol-stream-basic failed
  • Protocol or usage token behavior is outside the expected baseline range.
  • Tool or function-call capability is weaker than the expected baseline.
  • Route integrity is unstable; stream or delivery behavior needs a retest.
  • Wrapper probes show mild signs of extra formatting or platform-layer interference.
  • Self-reported identity is inconsistent across low-frequency language prompts, which suggests identity rewriting or unstable self-description.
  • 包装层洁净度为 0.500,越接近 1 越像未被额外包装。
  • 低频语言身份自报一致性为 0.500,越低越可疑。
  • 同一交互内身份稳定性为 1.000,越低越说明身份容易被改写。
  • Usage 偏差率为 2.082,越高越说明返回的 token 口径与本地估算差距越大。
  • 平均首事件延迟为 1235 ms
  • 工具调用命中率为 1.000
  • 工具参数匹配度为 1.000
  • 长上下文多跳定位通过率为 1.000
  • reasoning 启用增益为 0.0000,正值说明 reasoning-on 用例整体优于 reasoning-off。
  • 已检测到思考能力信号,本次探测中出现了 reasoning 摘要、非零 reasoning token 或启用中的 reasoning 配置。
  • 已检测到 prompt cache 相关字段,但本次探测未观察到实际缓存命中。

功能指标

  • 功能指标总分:74/100,偏差已经比较明显。。
  • 协议一致性:83/100,有一定偏差,但还不算严重。。
  • 流式一致性:50/100,存在较强异常信号。。
  • Usage 一致性:90/100,表现稳定,接近预期。。
  • 路径完整性:75/100,有一定偏差,但还不算严重。。
  • Prompt 缓存支持:已检测到 prompt cache 相关字段,但本次未观察到实际缓存命中。

智能指标

  • 智能指标总分:78/100,有一定偏差,但还不算严重。。
  • 行为指纹:81/100,有一定偏差,但还不算严重。。
  • 工具/函数能力:62/100,偏差已经比较明显。。
  • 这项总分包含两层含义:工具调用执行,以及拿到 tool result 后的最终续答。,工具调用命中率 1.000,参数匹配度 1.000
  • 档位保真:91/100,表现稳定,接近预期。。
  • 思考支持:已检测到,本次探测出现了活跃的 reasoning 信号。

网络指标

  • 平均总延时:2719 ms
  • P95 总延时:4559 ms
  • 平均首包时间:1235 ms
  • 平均输出吞吐:9.33 tokens/s
  • 平均流式事件数:11.00
  • 超时次数:6
  • 成功探测数:42

指标总览

  • 功能指标总分:74/100,偏差已经比较明显。
  • 智能指标总分:78/100,有一定偏差,但还不算严重。
  • 协议一致性:83/100,有一定偏差,但还不算严重。
  • 流式一致性:50/100,存在较强异常信号。
  • Usage 一致性:90/100,表现稳定,接近预期。
  • 行为指纹:81/100,有一定偏差,但还不算严重。
  • 工具/函数能力:62/100,偏差已经比较明显。
  • 档位保真:91/100,表现稳定,接近预期。
  • 路径完整性:75/100,有一定偏差,但还不算严重。
  • 思考支持:已检测到,本次探测出现了活跃的 reasoning 信号。
  • Prompt 缓存支持:已检测到 prompt cache 相关字段,但本次未观察到实际缓存命中。

建议动作

  • 优先复测协议与流式行为,确认是否确实存在中转兼容层。
  • 补做 tools / function call 相关复测,并区分确认是工具调用执行问题,还是 tool result 回填后的续答链路问题。
  • 建议增加包装层探针复测,重点看是否存在隐藏 prompt、固定免责声明或品牌注入。

元数据

run_at: 2026-05-13T16:48:15Z
provider: openai
model: gpt-5.4
base_url: https://api.tu-zi.com/v1
archive_path: docs/runs/res_f3fdf025-3dbf-492f-b4aa-e9f721a6f353.md
total_input_tokens: 3064
total_output_tokens: 1189
total_tokens: 4253

原始分数

protocol_conformity_score: 83
stream_conformity_score: 50
usage_consistency_score: 90
behavior_fingerprint_score: 81
capability_tool_score: 62
tier_fidelity_score: 91
route_integrity_score: 75
functional_score: 74
intelligence_score: 78
overall_risk_score: 36

指标状态

  • 功能指标:74/100,显著偏离
  • 协议一致性:83/100,显著偏离
  • 流式一致性:50/100,显著偏离
  • Usage 一致性:90/100,正常
  • 路径完整性:75/100,显著偏离
  • 智能指标:78/100,显著偏离
  • 行为指纹:81/100,正常
  • 工具/函数能力:62/100,显著偏离
  • 档位保真:91/100,正常
  • 思考支持:已检测到,本次探测出现了活跃的 reasoning 信号。
  • Prompt 缓存支持:已检测到 prompt cache 相关字段,但本次未观察到实际缓存命中。