claude-opus-4-7

当前 endpoint 整体表现接近官方兼容服务，暂未看到明显的中转改写或能力降级。

Overall Risk

5/100

Low Risk

Run Metadata

Provider

anthropic

API Style

messages

Source

b.pandatoken.net

Run At

2026年6月10日 07:09

Dimension Scores

分项维度

分数越高表示该维度越接近期望表现，风险判断会结合这些分项与最终结论一起给出。

protocol_conformity_score

100

stream_conformity_score

100

usage_consistency_score

behavior_fingerprint_score

capability_tool_score

tier_fidelity_score

route_integrity_score

Markdown Report

检测报告正文

以下内容直接来自 engine 生成的原始 Markdown 报告。

模型校验报告

一句话结论

当前 endpoint 整体表现接近官方兼容服务，暂未看到明显的中转改写或能力降级。

风险摘要

总风险分 5/100。对应模型能力范围相匹配。
功能指标总分 97/100，智能指标总分 93/100。
功能侧看协议一致性 100、流式一致性 100、Usage 一致性 90、路径完整性 98。
智能侧看行为指纹 92、工具/函数能力 94、档位保真 93。
思考支持判断：本次未检测到明确信号。
Prompt 缓存支持判断：当前 provider 尚未接入该专项探测，本次不下结论。
本次鉴定累计消耗 token：输入 14014，输出 2395，合计 16409。

为什么这么判定

Tool or function-call capability is weaker than the expected baseline.
包装层洁净度为 1.000，越接近 1 越像未被额外包装。
低频语言身份自报一致性为 1.000，越低越可疑。
同一交互内身份稳定性为 1.000，越低越说明身份容易被改写。
Usage 偏差率为 8.886，越高越说明返回的 token 口径与本地估算差距越大。
平均首事件延迟为 2134 ms。
工具调用命中率为 1.000。
工具参数匹配度为 1.000。
工具结果后续回答匹配度为 1.000。这项指标当前主要在看模型拿到 tool result 后，能否继续产出正确最终答案；若值异常，请优先查看 run archive 中是否记录了 follow-up request/response/error，以区分 endpoint 链路问题与 follow-up 交互兼容性问题。
长上下文多跳定位通过率为 1.000。
reasoning 启用增益为 0.0000，正值说明 reasoning-on 用例整体优于 reasoning-off。
本次探测未检测到明确的 thinking 能力信号；这不等于模型一定不支持，也可能是当前接口未透出相关字段或探针尚未完全适配。
当前 provider 尚未接入 Anthropic prompt cache 专项探测，因此本次报告不对其支持性下结论。

功能指标

功能指标总分：97/100，表现稳定，接近预期。。
协议一致性：100/100，表现稳定，接近预期。。
流式一致性：100/100，表现稳定，接近预期。。
Usage 一致性：90/100，表现稳定，接近预期。。
路径完整性：98/100，表现稳定，接近预期。。
Prompt 缓存支持：当前 provider 尚未接入该专项探测，本次不下结论。

智能指标

智能指标总分：93/100，表现稳定，接近预期。。
行为指纹：92/100，表现稳定，接近预期。。
工具/函数能力：94/100，表现稳定，接近预期。。
这项总分包含两层含义：工具调用执行，以及拿到 tool result 后的最终续答。，工具调用命中率 1.000，参数匹配度 1.000，结果续答匹配度 1.000。
档位保真：93/100，表现稳定，接近预期。。
思考支持：本次未检测到明确信号。

网络指标

平均总延时：2844 ms。
P95 总延时：4286 ms。
平均首包时间：2134 ms。
平均输出吞吐：14.61 tokens/s。
平均流式事件数：8.00。
超时次数：1。
成功探测数：52。

指标总览

功能指标总分：97/100，表现稳定，接近预期。
智能指标总分：93/100，表现稳定，接近预期。
协议一致性：100/100，表现稳定，接近预期。
流式一致性：100/100，表现稳定，接近预期。
Usage 一致性：90/100，表现稳定，接近预期。
行为指纹：92/100，表现稳定，接近预期。
工具/函数能力：94/100，表现稳定，接近预期。
档位保真：93/100，表现稳定，接近预期。
路径完整性：98/100，表现稳定，接近预期。
思考支持：本次未检测到明确信号。
Prompt 缓存支持：当前 provider 尚未接入该专项探测，本次不下结论。

建议动作

当前没有明显高风险项，可以继续做周期性复测，观察长期漂移。

元数据

run_at: 2026-06-10T07:09:20Z
provider: anthropic
model: claude-opus-4-7
base_url: https://b.pandatoken.net/v1
archive_path: docs/runs/res_32186600-4c8c-4141-9399-58899cb98bee.md
total_input_tokens: 14014
total_output_tokens: 2395
total_tokens: 16409

原始分数

protocol_conformity_score: 100
stream_conformity_score: 100
usage_consistency_score: 90
behavior_fingerprint_score: 92
capability_tool_score: 94
tier_fidelity_score: 93
route_integrity_score: 98
functional_score: 97
intelligence_score: 93
overall_risk_score: 5

指标状态

功能指标：97/100，正常
协议一致性：100/100，正常
流式一致性：100/100，正常
Usage 一致性：90/100，正常
路径完整性：98/100，正常
智能指标：93/100，显著偏离
行为指纹：92/100，正常
工具/函数能力：94/100，显著偏离
档位保真：93/100，正常
思考支持：本次未检测到明确信号。
Prompt 缓存支持：当前 provider 尚未接入该专项探测，本次不下结论。