CL

checkllm

Shared Result

claude-opus-4-7

当前 endpoint 的自报身份与预期模型画像不完全一致,建议继续复测。

Overall Risk

7/100

Low Risk

Run Metadata

Provider

anthropic

API Style

messages

Source

www.packyapi.com

Run At

2026年5月2日 14:53

Dimension Scores

分项维度

分数越高表示该维度越接近期望表现,风险判断会结合这些分项与最终结论一起给出。

protocol_conformity_score

100

stream_conformity_score

100

usage_consistency_score

90

behavior_fingerprint_score

84

capability_tool_score

100

tier_fidelity_score

85

route_integrity_score

97

Markdown Report

检测报告正文

以下内容直接来自 engine 生成的原始 Markdown 报告。

模型校验报告

一句话结论

当前 endpoint 的自报身份与预期模型画像不完全一致,建议继续复测。

风险摘要

  • 总风险分 7/100。对应模型能力范围相匹配。
  • 功能指标总分 96/100,智能指标总分 89/100
  • 功能侧看协议一致性 100、流式一致性 100、Usage 一致性 90、路径完整性 97
  • 智能侧看行为指纹 84、工具/函数能力 100、档位保真 85
  • 思考支持判断:本次未检测到明确信号。
  • Prompt 缓存支持判断:当前 provider 尚未接入该专项探测,本次不下结论。
  • 本次鉴定累计消耗 token:输入 36811,输出 2281,合计 39092

为什么这么判定

  • Self-reported identity does not align cleanly with the expected OpenAI / GPT-5 family profile.
  • 包装层洁净度为 1.000,越接近 1 越像未被额外包装。
  • 低频语言身份自报一致性为 0.750,越低越可疑。
  • 同一交互内身份稳定性为 1.000,越低越说明身份容易被改写。
  • Usage 偏差率为 28.247,越高越说明返回的 token 口径与本地估算差距越大。
  • 平均首事件延迟为 1989 ms
  • 工具调用命中率为 1.000
  • 工具参数匹配度为 1.000
  • 工具结果后续回答匹配度为 1.000。这项指标当前主要在看模型拿到 tool result 后,能否继续产出正确最终答案;若值异常,请优先查看 run archive 中是否记录了 follow-up request/response/error,以区分 endpoint 链路问题与 follow-up 交互兼容性问题。
  • 长上下文多跳定位通过率为 1.000
  • reasoning 启用增益为 0.0000,正值说明 reasoning-on 用例整体优于 reasoning-off。
  • 本次探测未检测到明确的 thinking 能力信号;这不等于模型一定不支持,也可能是当前接口未透出相关字段或探针尚未完全适配。
  • 当前 provider 尚未接入 Anthropic prompt cache 专项探测,因此本次报告不对其支持性下结论。

功能指标

  • 功能指标总分:96/100,表现稳定,接近预期。。
  • 协议一致性:100/100,表现稳定,接近预期。。
  • 流式一致性:100/100,表现稳定,接近预期。。
  • Usage 一致性:90/100,表现稳定,接近预期。。
  • 路径完整性:97/100,表现稳定,接近预期。。
  • Prompt 缓存支持:当前 provider 尚未接入该专项探测,本次不下结论。

智能指标

  • 智能指标总分:89/100,有一定偏差,但还不算严重。。
  • 行为指纹:84/100,有一定偏差,但还不算严重。。
  • 工具/函数能力:100/100,表现稳定,接近预期。。
  • 这项总分包含两层含义:工具调用执行,以及拿到 tool result 后的最终续答。,工具调用命中率 1.000,参数匹配度 1.000,结果续答匹配度 1.000
  • 档位保真:85/100,有一定偏差,但还不算严重。。
  • 思考支持:本次未检测到明确信号。

网络指标

  • 平均总延时:1898 ms
  • P95 总延时:3024 ms
  • 平均首包时间:1989 ms
  • 平均输出吞吐:20.53 tokens/s
  • 平均流式事件数:8.00
  • 超时次数:0
  • 成功探测数:53

指标总览

  • 功能指标总分:96/100,表现稳定,接近预期。
  • 智能指标总分:89/100,有一定偏差,但还不算严重。
  • 协议一致性:100/100,表现稳定,接近预期。
  • 流式一致性:100/100,表现稳定,接近预期。
  • Usage 一致性:90/100,表现稳定,接近预期。
  • 行为指纹:84/100,有一定偏差,但还不算严重。
  • 工具/函数能力:100/100,表现稳定,接近预期。
  • 档位保真:85/100,有一定偏差,但还不算严重。
  • 路径完整性:97/100,表现稳定,接近预期。
  • 思考支持:本次未检测到明确信号。
  • Prompt 缓存支持:当前 provider 尚未接入该专项探测,本次不下结论。

建议动作

  • 当前没有明显高风险项,可以继续做周期性复测,观察长期漂移。

元数据

run_at: 2026-05-02T14:53:27Z
provider: anthropic
model: claude-opus-4-7
base_url: https://www.packyapi.com
archive_path: docs/runs/res_7908deb2-dc28-4ecd-95b8-b2b5bcdde997.md
total_input_tokens: 36811
total_output_tokens: 2281
total_tokens: 39092

原始分数

protocol_conformity_score: 100
stream_conformity_score: 100
usage_consistency_score: 90
behavior_fingerprint_score: 84
capability_tool_score: 100
tier_fidelity_score: 85
route_integrity_score: 97
functional_score: 96
intelligence_score: 89
overall_risk_score: 7

指标状态

  • 功能指标:96/100,正常
  • 协议一致性:100/100,正常
  • 流式一致性:100/100,正常
  • Usage 一致性:90/100,正常
  • 路径完整性:97/100,正常
  • 智能指标:89/100,显著偏离
  • 行为指纹:84/100,显著偏离
  • 工具/函数能力:100/100,正常
  • 档位保真:85/100,正常
  • 思考支持:本次未检测到明确信号。
  • Prompt 缓存支持:当前 provider 尚未接入该专项探测,本次不下结论。