Vấn đề MCP truyền thống
Khi agent dùng MCP, có 2 lãng phí lớn:
- Context overload — mọi tool definition load vào prompt từ đầu, dù chỉ dùng 2/100 tool. Có thể ngốn 150.000+ token chỉ định nghĩa.
- Token redundant — data từ tool A đi qua model, lại từ model sang tool B → cùng data nằm trong context 2-3 lần.
Giải pháp Anthropic đề xuất: Code execution
Thay vì gọi tool trực tiếp, expose MCP server thành code API trong filesystem:
servers/
├── google-drive/
│ ├── getDocument.ts
│ └── index.ts
├── salesforce/
│ ├── updateRecord.ts
│ └── index.ts
Agent chỉ load tool nào cần bằng cách đọc đúng file, không load hết.
Ví dụ code
Trước (mỗi data đi qua model 2 lần):
// Transcript flows through context twice
gdrive.getDocument() // → model context
salesforce.updateRecord(data: transcript) // transcript in context AGAIN
Sau (data chỉ ở runtime, không vào context):
const transcript = (await gdrive.getDocument({
documentId: 'abc123'
})).content;
await salesforce.updateRecord({
objectType: 'SalesMeeting',
recordId: '00Q5f000001abcXYZ',
data: { Notes: transcript }
});
Con số kết quả
- Giảm 98.7% token — task tương tự từ 150.000 → 2.000 token
- Tool load on-demand thay vì upfront
- Filter data ở runtime — xử lý dataset 10.000 row mà KHÔNG bỏ hết vào model context
Lợi ích phụ
- Privacy: sensitive data không nằm trong model context → ít rủi ro leak
- State persistence: agent giữ progress giữa các operation
- Skills development: agent có thể lưu code đã viết để dùng lại
Khi nào nên áp dụng?
- Agent xử lý workflow >5 tool, hoặc handle dataset lớn
- Quan tâm chi phí token (production agent chạy 24/7)
- Đang gặp context window quota issues
Có chạy được production ngay không?
Pattern này là kiến trúc gợi ý, chưa phải tính năng built-in của Claude Code. Phải implement runtime sandbox tự (Anthropic gợi ý dùng container hoặc serverless function).
Nguồn chính thống: anthropic.com/engineering/code-execution-with-mcp