当前任务摘要
比较 Sonnet 4.6 与 Opus 4.6 的输出一致性,并判断是否继续调整 prompt 与 max_tokens。
可继续推进
停止应用
Bash
Sonnet 4.6 测试完成,结果对比如下
内容完整
| 指标 | Opus 4.6 | Sonnet 4.6 |
|---|---|---|
| 模型 | claude-opus-4-6 | claude-sonnet-4-6 |
| LLM 调用耗时 | 上次未精确记录 | 约 77s |
| input tokens | 约 50987 | 50987 |
| output tokens | 约 6200 | 6223 / 6299 |
| 生成质量 | 内容完整 | 内容完整,样式一致 |
由于输入 token 较大,当前真正的瓶颈仍然在 prompt 的处理量,而不是单纯的模型速度。 如果下一步要进一步提速,可以优先考虑:
- 精简 prompt,只保留关键业务字段
- 尝试更轻量的 Sonnet 变体
- 适度下调 max_tokens,减少无效冗余输出