Bài học · taw·lms

Infrastructure noise — vì sao benchmark agent không nên tin 100%

Bài học này chưa có video. Cứ đọc nội dung phía dưới nhé.

Vấn đề Anthropic phát hiện

Benchmark agentic coding (SWE-bench, Terminal-Bench) cho ra điểm khác nhau lên tới 6 điểm % tuỳ cấu hình infrastructure — đôi khi vượt khoảng cách giữa các top model trên leaderboard.

"Runtime is no longer a passive container — it's an integral component of the problem-solving process."

Cách quantify

Anthropic chạy Terminal-Bench 2.0 trên 6 cấu hình resource:

Cấu hình	Infrastructure error rate
1x (strict)	5.8%
3x headroom	2.1% (p < 0.001)
Uncapped	0.5%

Tổng lift (1x → uncapped): +6 điểm % (p < 0.01)

→ Phần lớn improvement đến từ giảm OOM-kill do transient memory spike.

Hệ quả

Nếu so 2 model A và B chênh nhau 3 điểm % trên leaderboard, có thể chỉ là noise infrastructure, không phải model khác biệt thật.

Khuyến nghị Anthropic

Tách 2 parameter riêng biệt:
- Guaranteed allocation (floor)
- Hard kill threshold (ceiling)
Calibrate band giữa floor và ceiling sao cho điểm score nằm trong noise margin. 3x multiplier là sweet spot — cắt error rate nhiều, không làm score lệch quá noise.
Document + control resource config như biến thực nghiệm bậc nhất — tương tự prompt format hay sampling temperature.
Chạy eval ở nhiều thời điểm để average API latency noise.

Threshold skepticism

Chênh dưới 3 điểm % trên leaderboard → đáng nghi ngờ cho đến khi config được document đầy đủ.

Bài học áp dụng

Khi đánh giá agent của bạn, lock infrastructure trước khi so model
Đừng dựa chỉ vào "X model beat Y by 2.5 points" để đổi vendor
Build eval suite riêng + chạy nhiều round → trust real numbers

Nguồn chính thống: anthropic.com/engineering/infrastructure-noise

Bạn đang xem ở chế độ preview công khai. Để nộp bài tập, hỏi AI tutor, và làm quiz — đăng nhập.