Vấn đề: token bị đốt vô ích
Chạy AI agent 24/7 nghe hấp dẫn — cho đến khi bạn nhận hoá đơn API cuối tháng.
Phần lớn chi phí chạy AI agent không đến từ những tác vụ phức tạp. Nó đến từ token bị lãng phí: hội thoại cũ gửi lại mỗi lần, system prompt dài dòng, model đắt tiền được dùng cho việc đơn giản. OpenClaw có đầy đủ công cụ để giải quyết những vấn đề này — nhưng nhiều người chưa tận dụng hết.
Bài viết này hướng dẫn bạn cách giảm đáng kể token tiêu thụ mà agent vẫn hoạt động thông minh, vẫn nhớ mọi thứ cần nhớ.
Chọn đúng model cho đúng việc
Sai lầm phổ biến nhất: dùng model mạnh nhất (GPT-4o, Claude Opus) cho mọi tác vụ.
Thực tế, phần lớn công việc của agent không cần model đắt tiền. Phân loại tin nhắn, trích xuất thông tin đơn giản, format dữ liệu — những việc này model nhỏ làm tốt ngang model lớn, mà rẻ hơn 10–20 lần.
| Tác vụ | Model phù hợp | Ví dụ | Chi phí tương đối |
|---|---|---|---|
| Phân loại, trích xuất đơn giản | Haiku · GPT-4o mini | "Tin nhắn này là hỏi giá hay hỏi kỹ thuật?" | Rẻ nhất |
| Chat thông thường, tóm tắt | Sonnet · GPT-4o | Trả lời khách hàng, viết email | Trung bình |
| Phân tích phức tạp, viết code | Opus · o1 | Debug code, lập kế hoạch dự án | Cao nhất |
OpenClaw hỗ trợ multi-provider — bạn có thể cấu hình nhiều API key (Anthropic, OpenAI, Google) và chọn model phù hợp cho từng agent hoặc từng workflow. Không cần dùng một model cho tất cả.
Viết system prompt ngắn gọn
System prompt được gửi đi mỗi lần agent nhận request. Một system prompt 2.000 token × 100 request/ngày = 200.000 token/ngày chỉ cho phần hướng dẫn.
System prompt dài không có nghĩa là tốt hơn. Model hiện đại hiểu hướng dẫn ngắn gọn tốt hơn hướng dẫn dài dòng lặp đi lặp lại.
Cùng ý nghĩa — tiết kiệm ~70% token system prompt
Nhân với hàng trăm request mỗi ngày, bạn tiết kiệm được rất nhiều mà agent vẫn hoạt động đúng như thiết kế.
Tận dụng Persistent Memory
Đây là tính năng quan trọng nhất mà nhiều người bỏ qua.
Mặc định, mỗi cuộc hội thoại mới, agent phải được "nhắc lại" mọi thứ — tên khách hàng, lịch sử mua hàng, preference. Mỗi lần nhắc lại là token bị đốt.
OpenClaw có hệ thống Persistent Memory 3 tầng — agent ghi nhớ thông tin quan trọng giữa các phiên, tự động truy xuất khi cần. Thay vì gửi toàn bộ lịch sử mỗi lần, agent chỉ tải đúng phần memory liên quan.
-
Bật memory cho agent Cho phép agent tự lưu thông tin quan trọng (tên, preference, context dự án) vào bộ nhớ dài hạn. Phiên sau không cần giải thích lại.
-
Dùng RAG cho tài liệu lớn Thay vì nhét toàn bộ tài liệu vào prompt, kết nối vector database. Agent chỉ truy xuất đoạn liên quan — tiết kiệm hàng nghìn token mỗi request.
-
Không gửi toàn bộ history thủ công OpenClaw tự quản lý conversation history. Bạn không cần gửi lại mọi tin nhắn cũ — chỉ context gần nhất + memory là đủ.
Quản lý Context Window thông minh
Mỗi model có giới hạn context window (số token tối đa trong một lần gọi). Khi hội thoại dài vượt giới hạn, có hai cách xử lý:
- Cắt bỏ: Mất thông tin cũ, agent "quên" nội dung đầu cuộc hội thoại
- Tóm tắt: Nén nội dung cũ thành bản tóm tắt ngắn gọn, giữ lại ý chính
OpenClaw hỗ trợ tự động tóm tắt context khi vượt ngưỡng. Thay vì gửi 50.000 token lịch sử hội thoại, hệ thống nén lại còn 2.000–3.000 token mà vẫn giữ được bối cảnh quan trọng.
- Đặt ngưỡng tóm tắt ở khoảng 70–80% context window — đừng để đầy mới xử lý
- Cho phép agent đánh dấu thông tin "quan trọng" để không bị tóm tắt mất
- Với hội thoại dài (debug session, phân tích dữ liệu), cân nhắc tạo conversation mới khi chuyển sang chủ đề khác
Dùng Tool đúng cách
OpenClaw hỗ trợ Tool Use (function calling) và MCP. Mỗi tool definition tốn token vì nó được gửi kèm mỗi request.
-
Chỉ gắn tool agent thực sự cần Agent hỗ trợ khách hàng không cần tool đọc file hệ thống. Mỗi tool thừa = token lãng phí mỗi request.
-
Viết description tool ngắn gọn Tương tự system prompt — description dài không có nghĩa model hiểu tốt hơn. Một câu rõ ràng thường đủ.
-
Chọn lọc MCP server Mỗi MCP server kết nối thêm tool definitions vào context. Chỉ kết nối những server bạn thực sự dùng trong workflow đó.
Theo dõi và đo lường
Không đo được thì không tối ưu được. OpenClaw Web UI cho phép theo dõi:
- Token usage per conversation — xem cuộc hội thoại nào tốn nhiều token nhất
- Model usage breakdown — biết bao nhiêu token đi vào model nào
- Conversation length — nhận diện những cuộc hội thoại dài bất thường
Kết hợp với monitoring VPS (CPU, RAM, disk qua Telegram alert), bạn có cái nhìn toàn diện về chi phí vận hành agent — và biết chính xác nên tối ưu chỗ nào trước.
Checklist tối ưu token
| # | Hành động | Tiết kiệm ước tính |
|---|---|---|
| 1 | Dùng model nhỏ cho tác vụ đơn giản Routing, phân loại, format dữ liệu → Haiku / GPT-4o mini |
10–20× chi phí / request |
| 2 | Rút gọn system prompt Bỏ lặp, giữ ý chính, không quá 100 token |
50–70% token system prompt |
| 3 | Bật Persistent Memory Không nhắc lại context mỗi phiên — để agent tự nhớ |
Giảm token context lặp lại |
| 4 | Cấu hình auto-summarize context Tóm tắt tự động khi vượt 70–80% context window |
Giảm 80–90% token history |
| 5 | Bỏ tool không dùng Chỉ giữ tool agent thực sự cần trong từng workflow |
100–500 token / request |
| 6 | Theo dõi usage hàng tuần Phát hiện conversation bất thường, tối ưu sớm |
Phát hiện lãng phí sớm |
- Bài 1: Cài đặt và khởi động nhanh
- Bài 2: Cấu hình Workspace từ A-Z
- Bài 3: Hệ thống trí nhớ 3 tầng
- Bài 4: HEARTBEAT.md — tự động hóa 24/7
- Bài 5: Skills, MCP Servers & Plugins
- Bài 6: Dùng OpenClaw hiệu quả — Giảm token (bài này)