taw·lmsĐăng nhập
Claude Code thực chiến — best practices từ Anthropic

Bài 5 · Best practices từ Anthropic Engineering

Evals cho AI agent — đo chất lượng đúng cách

Bài học này chưa có video. Cứ đọc nội dung phía dưới nhé.

Eval cho agent khác eval cho model

Eval cho 1-turn LLM: cho prompt → check output. Đơn giản.

Eval cho agent: multi-turn, dùng tool, modify state → bug propagate + compound qua nhiều bước. Phức tạp hơn nhiều.

Từ vựng cần biết

  • Task / Problem: 1 test có input + success criteria
  • Trial: 1 lần chạy task. Nhiều trial → result ổn định hơn
  • Grader: logic chấm điểm
  • Transcript / Trace: ghi đầy đủ output + tool call + reasoning
  • Outcome: state environment cuối cùng
  • Harness: infrastructure chạy eval end-to-end

3 loại grader

Code-based

  • Phương pháp: string match, binary test, static analysis
  • Mạnh: nhanh, rẻ, objective, reproducible
  • Yếu: brittle với variation hợp lệ; không dùng được cho task subjective

Model-based (LLM-as-judge)

  • Phương pháp: rubric score, NL assertion, pairwise compare
  • Mạnh: flexible, scale tốt, handle open-ended
  • Yếu: non-deterministic, đắt, cần calibrate với human

Human

  • Phương pháp: SME review, spot-check, A/B test
  • Mạnh: gold-standard
  • Yếu: đắt, chậm, không scale

Metrics cho non-deterministic

  • pass@k: xác suất ít nhất 1 trong k trial PASS. Tăng khi k tăng.
  • pass^k: xác suất TẤT CẢ k trial pass. Giảm khi k tăng — đo độ ổn định cho production.

Ví dụ: agent có 75% per-trial success → pass^3 = 0.75³ ≈ 42%. Để customer-facing cần pass^k cao.

Roadmap zero-to-one

Phase 1: Task collection

  1. Bắt đầu với 20-50 task đơn giản từ failure thực, không phải hundreds
  2. Convert manual test đang chạy thành eval
  3. Spec rõ ràng: SME độc lập đọc → cùng verdict
  4. Balance positive + negative cases

Phase 2: Harness + grader

  1. Mỗi trial state sạch — không share state
  2. Grader đo output, không đo path (cho phép agent giải khác hợp lệ)
  3. Calibrate LLM-judge với human trước khi tin

Phase 3: Long-term

  1. Đọc transcript thường xuyên — verify grader đúng
  2. Theo dõi saturation — khi pass rate cao quá → refresh eval suite
  3. Eval team riêng cho infra

Anti-pattern cần tránh

Anti-patternVấn đề
Grade RIGID step sequencePunish valid alternative solution
Spec ambiguousFail vì spec tệ, không phải agent dở
Eval one-directionalTối ưu lệch
Share state giữa trialCorrelated failure
Trust score mà không đọc transcriptBỏ sót edge case

Frameworks gợi ý

  • Harbor — containerized eval, scale lớn
  • Braintrust — eval + production observability
  • LangSmith — tracing + eval (Lang ecosystem)
  • Langfuse — self-hosted alternative
  • Arize Phoenix — open-source

Nguồn chính thống: anthropic.com/engineering/demystifying-evals-for-ai-agents

Bạn đang xem ở chế độ preview công khai. Để nộp bài tập, hỏi AI tutor, và làm quiz — đăng nhập.
Sandboxing — Claude code an toàn hơn, ít hỏi hơnClaude Agent SDK — Claude Code thành library→