Vấn đề Anthropic phát hiện
Benchmark agentic coding (SWE-bench, Terminal-Bench) cho ra điểm khác nhau lên tới 6 điểm % tuỳ cấu hình infrastructure — đôi khi vượt khoảng cách giữa các top model trên leaderboard.
"Runtime is no longer a passive container — it's an integral component of the problem-solving process."
Cách quantify
Anthropic chạy Terminal-Bench 2.0 trên 6 cấu hình resource:
| Cấu hình | Infrastructure error rate |
|---|---|
| 1x (strict) | 5.8% |
| 3x headroom | 2.1% (p < 0.001) |
| Uncapped | 0.5% |
Tổng lift (1x → uncapped): +6 điểm % (p < 0.01)
→ Phần lớn improvement đến từ giảm OOM-kill do transient memory spike.
Hệ quả
Nếu so 2 model A và B chênh nhau 3 điểm % trên leaderboard, có thể chỉ là noise infrastructure, không phải model khác biệt thật.
Khuyến nghị Anthropic
-
Tách 2 parameter riêng biệt:
- Guaranteed allocation (floor)
- Hard kill threshold (ceiling)
-
Calibrate band giữa floor và ceiling sao cho điểm score nằm trong noise margin. 3x multiplier là sweet spot — cắt error rate nhiều, không làm score lệch quá noise.
-
Document + control resource config như biến thực nghiệm bậc nhất — tương tự prompt format hay sampling temperature.
-
Chạy eval ở nhiều thời điểm để average API latency noise.
Threshold skepticism
Chênh dưới 3 điểm % trên leaderboard → đáng nghi ngờ cho đến khi config được document đầy đủ.
Bài học áp dụng
- Khi đánh giá agent của bạn, lock infrastructure trước khi so model
- Đừng dựa chỉ vào "X model beat Y by 2.5 points" để đổi vendor
- Build eval suite riêng + chạy nhiều round → trust real numbers
Nguồn chính thống: anthropic.com/engineering/infrastructure-noise