CL

checkllm

Shared Result

claude-opus-4-6

当前 endpoint 的 usage token 返回存在异常,token 统计口径需要重点核查。

Overall Risk

31/100

Guarded

Run Metadata

Provider

anthropic

API Style

messages

Source

hk.doro.lol

Run At

2026年5月13日 16:24

Dimension Scores

分项维度

分数越高表示该维度越接近期望表现,风险判断会结合这些分项与最终结论一起给出。

protocol_conformity_score

80

stream_conformity_score

100

usage_consistency_score

80

behavior_fingerprint_score

57

capability_tool_score

19

tier_fidelity_score

56

route_integrity_score

92

Markdown Report

检测报告正文

以下内容直接来自 engine 生成的原始 Markdown 报告。

模型校验报告

一句话结论

当前 endpoint 的 usage token 返回存在异常,token 统计口径需要重点核查。

风险摘要

  • 总风险分 31/100。整体风险较低。
  • 功能指标总分 88/100,智能指标总分 44/100
  • 功能侧看协议一致性 80、流式一致性 100、Usage 一致性 80、路径完整性 92
  • 智能侧看行为指纹 57、工具/函数能力 19、档位保真 56
  • 思考支持判断:已检测到,本次探测出现了活跃的 thinking 信号。
  • Prompt 缓存支持判断:当前 provider 尚未接入该专项探测,本次不下结论。
  • 本次鉴定累计消耗 token:输入 32429,输出 4001,合计 36430

为什么这么判定

  • Protocol or usage token behavior is outside the expected baseline range.
  • Tier fidelity is below the current baseline or historical norm.
  • Tool or function-call capability is weaker than the expected baseline.
  • Wrapper probes show mild signs of extra formatting or platform-layer interference.
  • 包装层洁净度为 0.535,越接近 1 越像未被额外包装。
  • Usage 偏差率为 27.240,越高越说明返回的 token 口径与本地估算差距越大。
  • 平均首事件延迟为 2849 ms
  • 工具调用命中率为 1.000
  • 工具参数匹配度为 0.000
  • 工具结果后续回答匹配度为 0.667。这项指标当前主要在看模型拿到 tool result 后,能否继续产出正确最终答案;若值异常,请优先查看 run archive 中是否记录了 follow-up request/response/error,以区分 endpoint 链路问题与 follow-up 交互兼容性问题。
  • 长上下文多跳定位通过率为 0.200
  • reasoning 启用增益为 -0.2000,正值说明 reasoning-on 用例整体优于 reasoning-off。
  • 已检测到思考能力信号,本次探测中出现了 thinking 内容块、thinking delta 或启用中的 thinking 配置。
  • 当前 provider 尚未接入 Anthropic prompt cache 专项探测,因此本次报告不对其支持性下结论。

功能指标

  • 功能指标总分:88/100,有一定偏差,但还不算严重。。
  • 协议一致性:80/100,有一定偏差,但还不算严重。。
  • 流式一致性:100/100,表现稳定,接近预期。。
  • Usage 一致性:80/100,有一定偏差,但还不算严重。。
  • 路径完整性:92/100,表现稳定,接近预期。。
  • Prompt 缓存支持:当前 provider 尚未接入该专项探测,本次不下结论。

智能指标

  • 智能指标总分:44/100,存在较强异常信号。。
  • 行为指纹:57/100,存在较强异常信号。。
  • 工具/函数能力:19/100,存在较强异常信号。。
  • 这项总分包含两层含义:工具调用执行,以及拿到 tool result 后的最终续答。,工具调用命中率 1.000,参数匹配度 0.000,结果续答匹配度 0.667
  • 档位保真:56/100,存在较强异常信号。。
  • 思考支持:已检测到,本次探测出现了活跃的 thinking 信号。

网络指标

  • 平均总延时:4844 ms
  • P95 总延时:12531 ms
  • 平均首包时间:2849 ms
  • 平均输出吞吐:14.32 tokens/s
  • 平均流式事件数:9.00
  • 超时次数:0
  • 成功探测数:48

指标总览

  • 功能指标总分:88/100,有一定偏差,但还不算严重。
  • 智能指标总分:44/100,存在较强异常信号。
  • 协议一致性:80/100,有一定偏差,但还不算严重。
  • 流式一致性:100/100,表现稳定,接近预期。
  • Usage 一致性:80/100,有一定偏差,但还不算严重。
  • 行为指纹:57/100,存在较强异常信号。
  • 工具/函数能力:19/100,存在较强异常信号。
  • 档位保真:56/100,存在较强异常信号。
  • 路径完整性:92/100,表现稳定,接近预期。
  • 思考支持:已检测到,本次探测出现了活跃的 thinking 信号。
  • Prompt 缓存支持:当前 provider 尚未接入该专项探测,本次不下结论。

建议动作

  • 优先复测协议与流式行为,确认是否确实存在中转兼容层。
  • 重点核查 usage token 口径,不建议直接信任当前 endpoint 的 token 返回。
  • 补做更高难度的长上下文、结构化输出和代码任务,确认是否存在同品牌降级。
  • 补做 tools / function call 相关复测,并区分确认是工具调用执行问题,还是 tool result 回填后的续答链路问题。
  • 建议增加包装层探针复测,重点看是否存在隐藏 prompt、固定免责声明或品牌注入。

元数据

run_at: 2026-05-13T16:24:44Z
provider: anthropic
model: claude-opus-4-6
base_url: https://hk.doro.lol/v1
archive_path: docs/runs/res_77750a31-181a-4920-8c50-44421009cfb8.md
total_input_tokens: 32429
total_output_tokens: 4001
total_tokens: 36430

原始分数

protocol_conformity_score: 80
stream_conformity_score: 100
usage_consistency_score: 80
behavior_fingerprint_score: 57
capability_tool_score: 19
tier_fidelity_score: 56
route_integrity_score: 92
functional_score: 88
intelligence_score: 44
overall_risk_score: 31

指标状态

  • 功能指标:88/100,显著偏离
  • 协议一致性:80/100,正常
  • 流式一致性:100/100,正常
  • Usage 一致性:80/100,显著偏离
  • 路径完整性:92/100,正常
  • 智能指标:44/100,显著偏离
  • 行为指纹:57/100,显著偏离
  • 工具/函数能力:19/100,显著偏离
  • 档位保真:56/100,显著偏离
  • 思考支持:已检测到,本次探测出现了活跃的 thinking 信号。
  • Prompt 缓存支持:当前 provider 尚未接入该专项探测,本次不下结论。