taw·lmsĐăng nhập
Claude Code thực chiến — best practices từ Anthropic

Bài 7 · Best practices từ Anthropic Engineering

Infrastructure noise — vì sao benchmark agent không nên tin 100%

Bài học này chưa có video. Cứ đọc nội dung phía dưới nhé.

Vấn đề Anthropic phát hiện

Benchmark agentic coding (SWE-bench, Terminal-Bench) cho ra điểm khác nhau lên tới 6 điểm % tuỳ cấu hình infrastructure — đôi khi vượt khoảng cách giữa các top model trên leaderboard.

"Runtime is no longer a passive container — it's an integral component of the problem-solving process."

Cách quantify

Anthropic chạy Terminal-Bench 2.0 trên 6 cấu hình resource:

Cấu hìnhInfrastructure error rate
1x (strict)5.8%
3x headroom2.1% (p < 0.001)
Uncapped0.5%

Tổng lift (1x → uncapped): +6 điểm % (p < 0.01)

→ Phần lớn improvement đến từ giảm OOM-kill do transient memory spike.

Hệ quả

Nếu so 2 model A và B chênh nhau 3 điểm % trên leaderboard, có thể chỉ là noise infrastructure, không phải model khác biệt thật.

Khuyến nghị Anthropic

  1. Tách 2 parameter riêng biệt:

    • Guaranteed allocation (floor)
    • Hard kill threshold (ceiling)
  2. Calibrate band giữa floor và ceiling sao cho điểm score nằm trong noise margin. 3x multiplier là sweet spot — cắt error rate nhiều, không làm score lệch quá noise.

  3. Document + control resource config như biến thực nghiệm bậc nhất — tương tự prompt format hay sampling temperature.

  4. Chạy eval ở nhiều thời điểm để average API latency noise.

Threshold skepticism

Chênh dưới 3 điểm % trên leaderboard → đáng nghi ngờ cho đến khi config được document đầy đủ.

Bài học áp dụng

  • Khi đánh giá agent của bạn, lock infrastructure trước khi so model
  • Đừng dựa chỉ vào "X model beat Y by 2.5 points" để đổi vendor
  • Build eval suite riêng + chạy nhiều round → trust real numbers

Nguồn chính thống: anthropic.com/engineering/infrastructure-noise

Bạn đang xem ở chế độ preview công khai. Để nộp bài tập, hỏi AI tutor, và làm quiz — đăng nhập.
Claude Agent SDK — Claude Code thành librarySub-agents — tách context riêng cho task chuyên biệt→