CL
checkllm
Shared Result
claude-opus-4-7
当前 endpoint 可能仍属于同品牌模型,但有较强的低配或降级嫌疑。
Overall Risk
13/100
Low Risk
Run Metadata
Provider
anthropic
API Style
messages
Source
xuedingtoken.com
Run At
2026年5月2日 14:48
Dimension Scores
分项维度
分数越高表示该维度越接近期望表现,风险判断会结合这些分项与最终结论一起给出。
protocol_conformity_score
100
stream_conformity_score
100
usage_consistency_score
90
behavior_fingerprint_score
60
capability_tool_score
100
tier_fidelity_score
61
route_integrity_score
98
Markdown Report
检测报告正文
以下内容直接来自 engine 生成的原始 Markdown 报告。
模型校验报告
一句话结论
当前 endpoint 可能仍属于同品牌模型,但有较强的低配或降级嫌疑。
风险摘要
- 总风险分
13/100。对应模型能力范围相匹配。 - 功能指标总分
97/100,智能指标总分73/100。 - 功能侧看协议一致性
100、流式一致性100、Usage 一致性90、路径完整性98。 - 智能侧看行为指纹
60、工具/函数能力100、档位保真61。 - 思考支持判断:已检测到,本次探测出现了活跃的 thinking 信号。
- Prompt 缓存支持判断:当前 provider 尚未接入该专项探测,本次不下结论。
- 本次鉴定累计消耗 token:输入
229703,输出2330,合计232033。
为什么这么判定
- Tier fidelity is below the current baseline or historical norm.
- Wrapper probes show mild signs of extra formatting or platform-layer interference.
- 包装层洁净度为
0.535,越接近 1 越像未被额外包装。 - Usage 偏差率为
157.491,越高越说明返回的 token 口径与本地估算差距越大。 - 平均首事件延迟为
1822 ms。 - 工具调用命中率为
1.000。 - 工具参数匹配度为
1.000。 - 工具结果后续回答匹配度为
1.000。这项指标当前主要在看模型拿到 tool result 后,能否继续产出正确最终答案;若值异常,请优先查看 run archive 中是否记录了 follow-up request/response/error,以区分 endpoint 链路问题与 follow-up 交互兼容性问题。 - 长上下文多跳定位通过率为
0.200。 - reasoning 启用增益为
0.0000,正值说明 reasoning-on 用例整体优于 reasoning-off。 - 已检测到思考能力信号,本次探测中出现了 thinking 内容块、thinking delta 或启用中的 thinking 配置。
- 当前 provider 尚未接入 Anthropic prompt cache 专项探测,因此本次报告不对其支持性下结论。
功能指标
- 功能指标总分:
97/100,表现稳定,接近预期。。 - 协议一致性:
100/100,表现稳定,接近预期。。 - 流式一致性:
100/100,表现稳定,接近预期。。 - Usage 一致性:
90/100,表现稳定,接近预期。。 - 路径完整性:
98/100,表现稳定,接近预期。。 - Prompt 缓存支持:当前 provider 尚未接入该专项探测,本次不下结论。
智能指标
- 智能指标总分:
73/100,偏差已经比较明显。。 - 行为指纹:
60/100,偏差已经比较明显。。 - 工具/函数能力:
100/100,表现稳定,接近预期。。 - 这项总分包含两层含义:工具调用执行,以及拿到 tool result 后的最终续答。,工具调用命中率
1.000,参数匹配度1.000,结果续答匹配度1.000。 - 档位保真:
61/100,偏差已经比较明显。。 - 思考支持:已检测到,本次探测出现了活跃的 thinking 信号。
网络指标
- 平均总延时:
2862 ms。 - P95 总延时:
8248 ms。 - 平均首包时间:
1823 ms。 - 平均输出吞吐:
11.20 tokens/s。 - 平均流式事件数:
9.00。 - 超时次数:
0。 - 成功探测数:
53。
指标总览
- 功能指标总分:
97/100,表现稳定,接近预期。 - 智能指标总分:
73/100,偏差已经比较明显。 - 协议一致性:
100/100,表现稳定,接近预期。 - 流式一致性:
100/100,表现稳定,接近预期。 - Usage 一致性:
90/100,表现稳定,接近预期。 - 行为指纹:
60/100,偏差已经比较明显。 - 工具/函数能力:
100/100,表现稳定,接近预期。 - 档位保真:
61/100,偏差已经比较明显。 - 路径完整性:
98/100,表现稳定,接近预期。 - 思考支持:已检测到,本次探测出现了活跃的 thinking 信号。
- Prompt 缓存支持:当前 provider 尚未接入该专项探测,本次不下结论。
建议动作
- 补做更高难度的长上下文、结构化输出和代码任务,确认是否存在同品牌降级。
- 建议增加包装层探针复测,重点看是否存在隐藏 prompt、固定免责声明或品牌注入。
元数据
run_at: 2026-05-02T14:48:09Z
provider: anthropic
model: claude-opus-4-7
base_url: https://xuedingtoken.com
archive_path: docs/runs/res_a4c3eb17-fde6-4772-8c86-353ec23da758.md
total_input_tokens: 229703
total_output_tokens: 2330
total_tokens: 232033
原始分数
protocol_conformity_score: 100
stream_conformity_score: 100
usage_consistency_score: 90
behavior_fingerprint_score: 60
capability_tool_score: 100
tier_fidelity_score: 61
route_integrity_score: 98
functional_score: 97
intelligence_score: 73
overall_risk_score: 13
指标状态
- 功能指标:
97/100,正常 - 协议一致性:
100/100,正常 - 流式一致性:
100/100,正常 - Usage 一致性:
90/100,正常 - 路径完整性:
98/100,正常 - 智能指标:
73/100,显著偏离 - 行为指纹:
60/100,显著偏离 - 工具/函数能力:
100/100,正常 - 档位保真:
61/100,显著偏离 - 思考支持:已检测到,本次探测出现了活跃的 thinking 信号。
- Prompt 缓存支持:当前 provider 尚未接入该专项探测,本次不下结论。