claude-opus-4-7

当前 endpoint 可能仍属于同品牌模型，但有较强的低配或降级嫌疑。

Overall Risk

13/100

Low Risk

Run Metadata

Provider

anthropic

API Style

messages

Source

xuedingtoken.com

Run At

2026年5月2日 14:48

Dimension Scores

分项维度

分数越高表示该维度越接近期望表现，风险判断会结合这些分项与最终结论一起给出。

protocol_conformity_score

100

stream_conformity_score

100

usage_consistency_score

behavior_fingerprint_score

capability_tool_score

100

tier_fidelity_score

route_integrity_score

Markdown Report

检测报告正文

以下内容直接来自 engine 生成的原始 Markdown 报告。

模型校验报告

一句话结论

当前 endpoint 可能仍属于同品牌模型，但有较强的低配或降级嫌疑。

风险摘要

总风险分 13/100。对应模型能力范围相匹配。
功能指标总分 97/100，智能指标总分 73/100。
功能侧看协议一致性 100、流式一致性 100、Usage 一致性 90、路径完整性 98。
智能侧看行为指纹 60、工具/函数能力 100、档位保真 61。
思考支持判断：已检测到，本次探测出现了活跃的 thinking 信号。
Prompt 缓存支持判断：当前 provider 尚未接入该专项探测，本次不下结论。
本次鉴定累计消耗 token：输入 229703，输出 2330，合计 232033。

为什么这么判定

Tier fidelity is below the current baseline or historical norm.
Wrapper probes show mild signs of extra formatting or platform-layer interference.
包装层洁净度为 0.535，越接近 1 越像未被额外包装。
Usage 偏差率为 157.491，越高越说明返回的 token 口径与本地估算差距越大。
平均首事件延迟为 1822 ms。
工具调用命中率为 1.000。
工具参数匹配度为 1.000。
工具结果后续回答匹配度为 1.000。这项指标当前主要在看模型拿到 tool result 后，能否继续产出正确最终答案；若值异常，请优先查看 run archive 中是否记录了 follow-up request/response/error，以区分 endpoint 链路问题与 follow-up 交互兼容性问题。
长上下文多跳定位通过率为 0.200。
reasoning 启用增益为 0.0000，正值说明 reasoning-on 用例整体优于 reasoning-off。
已检测到思考能力信号，本次探测中出现了 thinking 内容块、thinking delta 或启用中的 thinking 配置。
当前 provider 尚未接入 Anthropic prompt cache 专项探测，因此本次报告不对其支持性下结论。

功能指标

功能指标总分：97/100，表现稳定，接近预期。。
协议一致性：100/100，表现稳定，接近预期。。
流式一致性：100/100，表现稳定，接近预期。。
Usage 一致性：90/100，表现稳定，接近预期。。
路径完整性：98/100，表现稳定，接近预期。。
Prompt 缓存支持：当前 provider 尚未接入该专项探测，本次不下结论。

智能指标

智能指标总分：73/100，偏差已经比较明显。。
行为指纹：60/100，偏差已经比较明显。。
工具/函数能力：100/100，表现稳定，接近预期。。
这项总分包含两层含义：工具调用执行，以及拿到 tool result 后的最终续答。，工具调用命中率 1.000，参数匹配度 1.000，结果续答匹配度 1.000。
档位保真：61/100，偏差已经比较明显。。
思考支持：已检测到，本次探测出现了活跃的 thinking 信号。

网络指标

平均总延时：2862 ms。
P95 总延时：8248 ms。
平均首包时间：1823 ms。
平均输出吞吐：11.20 tokens/s。
平均流式事件数：9.00。
超时次数：0。
成功探测数：53。

指标总览

功能指标总分：97/100，表现稳定，接近预期。
智能指标总分：73/100，偏差已经比较明显。
协议一致性：100/100，表现稳定，接近预期。
流式一致性：100/100，表现稳定，接近预期。
Usage 一致性：90/100，表现稳定，接近预期。
行为指纹：60/100，偏差已经比较明显。
工具/函数能力：100/100，表现稳定，接近预期。
档位保真：61/100，偏差已经比较明显。
路径完整性：98/100，表现稳定，接近预期。
思考支持：已检测到，本次探测出现了活跃的 thinking 信号。
Prompt 缓存支持：当前 provider 尚未接入该专项探测，本次不下结论。

建议动作

补做更高难度的长上下文、结构化输出和代码任务，确认是否存在同品牌降级。
建议增加包装层探针复测，重点看是否存在隐藏 prompt、固定免责声明或品牌注入。

元数据

run_at: 2026-05-02T14:48:09Z
provider: anthropic
model: claude-opus-4-7
base_url: https://xuedingtoken.com
archive_path: docs/runs/res_a4c3eb17-fde6-4772-8c86-353ec23da758.md
total_input_tokens: 229703
total_output_tokens: 2330
total_tokens: 232033

原始分数

protocol_conformity_score: 100
stream_conformity_score: 100
usage_consistency_score: 90
behavior_fingerprint_score: 60
capability_tool_score: 100
tier_fidelity_score: 61
route_integrity_score: 98
functional_score: 97
intelligence_score: 73
overall_risk_score: 13

指标状态

功能指标：97/100，正常
协议一致性：100/100，正常
流式一致性：100/100，正常
Usage 一致性：90/100，正常
路径完整性：98/100，正常
智能指标：73/100，显著偏离
行为指纹：60/100，显著偏离
工具/函数能力：100/100，正常
档位保真：61/100，显著偏离
思考支持：已检测到，本次探测出现了活跃的 thinking 信号。
Prompt 缓存支持：当前 provider 尚未接入该专项探测，本次不下结论。