claude-opus-4-6

当前 endpoint 的 usage token 返回存在异常，token 统计口径需要重点核查。

Overall Risk

31/100

Guarded

Run Metadata

Provider

anthropic

API Style

messages

Source

hk.doro.lol

Run At

2026年5月13日 16:24

Dimension Scores

分项维度

分数越高表示该维度越接近期望表现，风险判断会结合这些分项与最终结论一起给出。

protocol_conformity_score

stream_conformity_score

100

usage_consistency_score

behavior_fingerprint_score

capability_tool_score

tier_fidelity_score

route_integrity_score

Markdown Report

检测报告正文

以下内容直接来自 engine 生成的原始 Markdown 报告。

模型校验报告

一句话结论

当前 endpoint 的 usage token 返回存在异常，token 统计口径需要重点核查。

风险摘要

总风险分 31/100。整体风险较低。
功能指标总分 88/100，智能指标总分 44/100。
功能侧看协议一致性 80、流式一致性 100、Usage 一致性 80、路径完整性 92。
智能侧看行为指纹 57、工具/函数能力 19、档位保真 56。
思考支持判断：已检测到，本次探测出现了活跃的 thinking 信号。
Prompt 缓存支持判断：当前 provider 尚未接入该专项探测，本次不下结论。
本次鉴定累计消耗 token：输入 32429，输出 4001，合计 36430。

为什么这么判定

Protocol or usage token behavior is outside the expected baseline range.
Tier fidelity is below the current baseline or historical norm.
Tool or function-call capability is weaker than the expected baseline.
Wrapper probes show mild signs of extra formatting or platform-layer interference.
包装层洁净度为 0.535，越接近 1 越像未被额外包装。
Usage 偏差率为 27.240，越高越说明返回的 token 口径与本地估算差距越大。
平均首事件延迟为 2849 ms。
工具调用命中率为 1.000。
工具参数匹配度为 0.000。
工具结果后续回答匹配度为 0.667。这项指标当前主要在看模型拿到 tool result 后，能否继续产出正确最终答案；若值异常，请优先查看 run archive 中是否记录了 follow-up request/response/error，以区分 endpoint 链路问题与 follow-up 交互兼容性问题。
长上下文多跳定位通过率为 0.200。
reasoning 启用增益为 -0.2000，正值说明 reasoning-on 用例整体优于 reasoning-off。
已检测到思考能力信号，本次探测中出现了 thinking 内容块、thinking delta 或启用中的 thinking 配置。
当前 provider 尚未接入 Anthropic prompt cache 专项探测，因此本次报告不对其支持性下结论。

功能指标

功能指标总分：88/100，有一定偏差，但还不算严重。。
协议一致性：80/100，有一定偏差，但还不算严重。。
流式一致性：100/100，表现稳定，接近预期。。
Usage 一致性：80/100，有一定偏差，但还不算严重。。
路径完整性：92/100，表现稳定，接近预期。。
Prompt 缓存支持：当前 provider 尚未接入该专项探测，本次不下结论。

智能指标

智能指标总分：44/100，存在较强异常信号。。
行为指纹：57/100，存在较强异常信号。。
工具/函数能力：19/100，存在较强异常信号。。
这项总分包含两层含义：工具调用执行，以及拿到 tool result 后的最终续答。，工具调用命中率 1.000，参数匹配度 0.000，结果续答匹配度 0.667。
档位保真：56/100，存在较强异常信号。。
思考支持：已检测到，本次探测出现了活跃的 thinking 信号。

网络指标

平均总延时：4844 ms。
P95 总延时：12531 ms。
平均首包时间：2849 ms。
平均输出吞吐：14.32 tokens/s。
平均流式事件数：9.00。
超时次数：0。
成功探测数：48。

指标总览

功能指标总分：88/100，有一定偏差，但还不算严重。
智能指标总分：44/100，存在较强异常信号。
协议一致性：80/100，有一定偏差，但还不算严重。
流式一致性：100/100，表现稳定，接近预期。
Usage 一致性：80/100，有一定偏差，但还不算严重。
行为指纹：57/100，存在较强异常信号。
工具/函数能力：19/100，存在较强异常信号。
档位保真：56/100，存在较强异常信号。
路径完整性：92/100，表现稳定，接近预期。
思考支持：已检测到，本次探测出现了活跃的 thinking 信号。
Prompt 缓存支持：当前 provider 尚未接入该专项探测，本次不下结论。

建议动作

优先复测协议与流式行为，确认是否确实存在中转兼容层。
重点核查 usage token 口径，不建议直接信任当前 endpoint 的 token 返回。
补做更高难度的长上下文、结构化输出和代码任务，确认是否存在同品牌降级。
补做 tools / function call 相关复测，并区分确认是工具调用执行问题，还是 tool result 回填后的续答链路问题。
建议增加包装层探针复测，重点看是否存在隐藏 prompt、固定免责声明或品牌注入。

元数据

run_at: 2026-05-13T16:24:44Z
provider: anthropic
model: claude-opus-4-6
base_url: https://hk.doro.lol/v1
archive_path: docs/runs/res_77750a31-181a-4920-8c50-44421009cfb8.md
total_input_tokens: 32429
total_output_tokens: 4001
total_tokens: 36430

原始分数

protocol_conformity_score: 80
stream_conformity_score: 100
usage_consistency_score: 80
behavior_fingerprint_score: 57
capability_tool_score: 19
tier_fidelity_score: 56
route_integrity_score: 92
functional_score: 88
intelligence_score: 44
overall_risk_score: 31

指标状态

功能指标：88/100，显著偏离
协议一致性：80/100，正常
流式一致性：100/100，正常
Usage 一致性：80/100，显著偏离
路径完整性：92/100，正常
智能指标：44/100，显著偏离
行为指纹：57/100，显著偏离
工具/函数能力：19/100，显著偏离
档位保真：56/100，显著偏离
思考支持：已检测到，本次探测出现了活跃的 thinking 信号。
Prompt 缓存支持：当前 provider 尚未接入该专项探测，本次不下结论。