gpt-5.4

当前 endpoint 存在较明显的协议或路径异常，更像是中转兼容层，而不是稳定的官方直连形态。

Overall Risk

26/100

Guarded

Run Metadata

Provider

openai

API Style

responses

Source

hk.doro.lol

Run At

2026年5月13日 16:19

Dimension Scores

分项维度

分数越高表示该维度越接近期望表现，风险判断会结合这些分项与最终结论一起给出。

protocol_conformity_score

stream_conformity_score

100

usage_consistency_score

behavior_fingerprint_score

capability_tool_score

tier_fidelity_score

route_integrity_score

Markdown Report

检测报告正文

以下内容直接来自 engine 生成的原始 Markdown 报告。

模型校验报告

一句话结论

当前 endpoint 存在较明显的协议或路径异常，更像是中转兼容层，而不是稳定的官方直连形态。

风险摘要

总风险分 26/100。整体风险较低。
功能指标总分 87/100，智能指标总分 85/100。
功能侧看协议一致性 83、流式一致性 100、Usage 一致性 80、路径完整性 86。
智能侧看行为指纹 86、工具/函数能力 83、档位保真 88。
思考支持判断：已检测到，本次探测出现了活跃的 reasoning 信号。
Prompt 缓存支持判断：已检测到 prompt cache 相关字段，但本次未观察到实际缓存命中。
本次鉴定累计消耗 token：输入 3248，输出 1152，合计 4400。
存在 1 个硬异常，说明至少有部分行为已经偏离预期接口形态。

为什么这么判定

Hard anomaly: protocol-prompt-cache failed
Protocol or usage token behavior is outside the expected baseline range.
Route integrity is unstable; stream or delivery behavior needs a retest.
Self-reported identity is inconsistent across low-frequency language prompts, which suggests identity rewriting or unstable self-description.
包装层洁净度为 1.000，越接近 1 越像未被额外包装。
低频语言身份自报一致性为 0.500，越低越可疑。
同一交互内身份稳定性为 1.000，越低越说明身份容易被改写。
Usage 偏差率为 2.005，越高越说明返回的 token 口径与本地估算差距越大。
平均首事件延迟为 1581 ms。
工具调用命中率为 1.000。
工具参数匹配度为 1.000。
长上下文多跳定位通过率为 1.000。
reasoning 启用增益为 0.0000，正值说明 reasoning-on 用例整体优于 reasoning-off。
已检测到思考能力信号，本次探测中出现了 reasoning 摘要、非零 reasoning token 或启用中的 reasoning 配置。
已检测到 prompt cache 相关字段，但本次探测未观察到实际缓存命中。

功能指标

功能指标总分：87/100，有一定偏差，但还不算严重。。
协议一致性：83/100，有一定偏差，但还不算严重。。
流式一致性：100/100，表现稳定，接近预期。。
Usage 一致性：80/100，有一定偏差，但还不算严重。。
路径完整性：86/100，有一定偏差，但还不算严重。。
Prompt 缓存支持：已检测到 prompt cache 相关字段，但本次未观察到实际缓存命中。

智能指标

智能指标总分：85/100，有一定偏差，但还不算严重。。
行为指纹：86/100，有一定偏差，但还不算严重。。
工具/函数能力：83/100，有一定偏差，但还不算严重。。
这项总分包含两层含义：工具调用执行，以及拿到 tool result 后的最终续答。，工具调用命中率 1.000，参数匹配度 1.000。
档位保真：88/100，有一定偏差，但还不算严重。。
思考支持：已检测到，本次探测出现了活跃的 reasoning 信号。

网络指标

平均总延时：2983 ms。
P95 总延时：6951 ms。
平均首包时间：1581 ms。
平均输出吞吐：8.59 tokens/s。
平均流式事件数：11.00。
超时次数：0。
成功探测数：45。

指标总览

功能指标总分：87/100，有一定偏差，但还不算严重。
智能指标总分：85/100，有一定偏差，但还不算严重。
协议一致性：83/100，有一定偏差，但还不算严重。
流式一致性：100/100，表现稳定，接近预期。
Usage 一致性：80/100，有一定偏差，但还不算严重。
行为指纹：86/100，有一定偏差，但还不算严重。
工具/函数能力：83/100，有一定偏差，但还不算严重。
档位保真：88/100，有一定偏差，但还不算严重。
路径完整性：86/100，有一定偏差，但还不算严重。
思考支持：已检测到，本次探测出现了活跃的 reasoning 信号。
Prompt 缓存支持：已检测到 prompt cache 相关字段，但本次未观察到实际缓存命中。

建议动作

优先复测协议与流式行为，确认是否确实存在中转兼容层。
重点核查 usage token 口径，不建议直接信任当前 endpoint 的 token 返回。

元数据

run_at: 2026-05-13T16:19:49Z
provider: openai
model: gpt-5.4
base_url: https://hk.doro.lol/v1
archive_path: docs/runs/res_64f6d2da-d34d-43dd-ad4b-68356368ce46.md
total_input_tokens: 3248
total_output_tokens: 1152
total_tokens: 4400

原始分数

protocol_conformity_score: 83
stream_conformity_score: 100
usage_consistency_score: 80
behavior_fingerprint_score: 86
capability_tool_score: 83
tier_fidelity_score: 88
route_integrity_score: 86
functional_score: 87
intelligence_score: 85
overall_risk_score: 26

指标状态

功能指标：87/100，显著偏离
协议一致性：83/100，显著偏离
流式一致性：100/100，正常
Usage 一致性：80/100，显著偏离
路径完整性：86/100，显著偏离
智能指标：85/100，正常
行为指纹：86/100，正常
工具/函数能力：83/100，正常
档位保真：88/100，正常
思考支持：已检测到，本次探测出现了活跃的 reasoning 信号。
Prompt 缓存支持：已检测到 prompt cache 相关字段，但本次未观察到实际缓存命中。