Dùng OpenClaw hiệu quả: Giảm token, giữ trí nhớ

Vấn đề: token bị đốt vô ích

Chạy AI agent 24/7 nghe hấp dẫn — cho đến khi bạn nhận hoá đơn API cuối tháng.

Phần lớn chi phí chạy AI agent không đến từ những tác vụ phức tạp. Nó đến từ token bị lãng phí: hội thoại cũ gửi lại mỗi lần, system prompt dài dòng, model đắt tiền được dùng cho việc đơn giản. OpenClaw có đầy đủ công cụ để giải quyết những vấn đề này — nhưng nhiều người chưa tận dụng hết.

Bài viết này hướng dẫn bạn cách giảm đáng kể token tiêu thụ mà agent vẫn hoạt động thông minh, vẫn nhớ mọi thứ cần nhớ.

Chọn đúng model cho đúng việc

Sai lầm phổ biến nhất: dùng model mạnh nhất (GPT-4o, Claude Opus) cho mọi tác vụ.

Thực tế, phần lớn công việc của agent không cần model đắt tiền. Phân loại tin nhắn, trích xuất thông tin đơn giản, format dữ liệu — những việc này model nhỏ làm tốt ngang model lớn, mà rẻ hơn 10–20 lần.

Tác vụ	Model phù hợp	Ví dụ	Chi phí tương đối
Phân loại, trích xuất đơn giản	Haiku · GPT-4o mini	"Tin nhắn này là hỏi giá hay hỏi kỹ thuật?"	Rẻ nhất
Chat thông thường, tóm tắt	Sonnet · GPT-4o	Trả lời khách hàng, viết email	Trung bình
Phân tích phức tạp, viết code	Opus · o1	Debug code, lập kế hoạch dự án	Cao nhất

OpenClaw hỗ trợ multi-provider — bạn có thể cấu hình nhiều API key (Anthropic, OpenAI, Google) và chọn model phù hợp cho từng agent hoặc từng workflow. Không cần dùng một model cho tất cả.

Mẹo thực hành: Bắt đầu với model nhỏ nhất. Chỉ upgrade lên model lớn hơn khi kết quả không đạt yêu cầu. Hầu hết routing logic và tóm tắt đơn giản chạy tốt trên Haiku / GPT-4o mini.

Viết system prompt ngắn gọn

System prompt được gửi đi mỗi lần agent nhận request. Một system prompt 2.000 token × 100 request/ngày = 200.000 token/ngày chỉ cho phần hướng dẫn.

System prompt dài không có nghĩa là tốt hơn. Model hiện đại hiểu hướng dẫn ngắn gọn tốt hơn hướng dẫn dài dòng lặp đi lặp lại.

Trước — Dài, lặp (≈ 80 token)

Bạn là trợ lý hỗ trợ khách hàng của công ty ABC. Bạn phải luôn luôn trả lời bằng tiếng Việt. Nhớ rằng bạn là trợ lý hỗ trợ, không được trả lời câu hỏi ngoài phạm vi hỗ trợ. Luôn giữ giọng điệu thân thiện và chuyên nghiệp. Không được đưa ra thông tin sai. Nếu không biết câu trả lời, hãy nói rằng bạn sẽ chuyển cho nhân viên hỗ trợ...

Sau — Ngắn, rõ (≈ 24 token)

Trợ lý hỗ trợ khách hàng công ty ABC. Trả lời bằng tiếng Việt, thân thiện. Chỉ trả lời trong phạm vi hỗ trợ sản phẩm. Không chắc → chuyển nhân viên.

Cùng ý nghĩa — tiết kiệm ~70% token system prompt

Nhân với hàng trăm request mỗi ngày, bạn tiết kiệm được rất nhiều mà agent vẫn hoạt động đúng như thiết kế.

Tận dụng Persistent Memory

Đây là tính năng quan trọng nhất mà nhiều người bỏ qua.

Mặc định, mỗi cuộc hội thoại mới, agent phải được "nhắc lại" mọi thứ — tên khách hàng, lịch sử mua hàng, preference. Mỗi lần nhắc lại là token bị đốt.

OpenClaw có hệ thống Persistent Memory 3 tầng — agent ghi nhớ thông tin quan trọng giữa các phiên, tự động truy xuất khi cần. Thay vì gửi toàn bộ lịch sử mỗi lần, agent chỉ tải đúng phần memory liên quan.

📌

MEMORY.md

Luôn được tải — chứa những gì agent cần biết ở mọi phiên. Giữ ngắn gọn, cập nhật thường xuyên.

📅

Daily Notes

Tự động tải hôm nay + hôm qua — ngữ cảnh công việc gần nhất, không cần nhắc lại.

🔍

Semantic Search

SQLite vector store — chỉ truy xuất đoạn liên quan khi query. Tiết kiệm hàng nghìn token/request.

Bật memory cho agent Cho phép agent tự lưu thông tin quan trọng (tên, preference, context dự án) vào bộ nhớ dài hạn. Phiên sau không cần giải thích lại.
Dùng RAG cho tài liệu lớn Thay vì nhét toàn bộ tài liệu vào prompt, kết nối vector database. Agent chỉ truy xuất đoạn liên quan — tiết kiệm hàng nghìn token mỗi request.
Không gửi toàn bộ history thủ công OpenClaw tự quản lý conversation history. Bạn không cần gửi lại mọi tin nhắn cũ — chỉ context gần nhất + memory là đủ.

Quản lý Context Window thông minh

Mỗi model có giới hạn context window (số token tối đa trong một lần gọi). Khi hội thoại dài vượt giới hạn, có hai cách xử lý:

Cắt bỏ: Mất thông tin cũ, agent "quên" nội dung đầu cuộc hội thoại
Tóm tắt: Nén nội dung cũ thành bản tóm tắt ngắn gọn, giữ lại ý chính

OpenClaw hỗ trợ tự động tóm tắt context khi vượt ngưỡng. Thay vì gửi 50.000 token lịch sử hội thoại, hệ thống nén lại còn 2.000–3.000 token mà vẫn giữ được bối cảnh quan trọng.

Thiết lập hợp lý:

Đặt ngưỡng tóm tắt ở khoảng 70–80% context window — đừng để đầy mới xử lý
Cho phép agent đánh dấu thông tin "quan trọng" để không bị tóm tắt mất
Với hội thoại dài (debug session, phân tích dữ liệu), cân nhắc tạo conversation mới khi chuyển sang chủ đề khác

Dùng Tool đúng cách

OpenClaw hỗ trợ Tool Use (function calling) và MCP. Mỗi tool definition tốn token vì nó được gửi kèm mỗi request.

Chỉ gắn tool agent thực sự cần Agent hỗ trợ khách hàng không cần tool đọc file hệ thống. Mỗi tool thừa = token lãng phí mỗi request.
Viết description tool ngắn gọn Tương tự system prompt — description dài không có nghĩa model hiểu tốt hơn. Một câu rõ ràng thường đủ.
Chọn lọc MCP server Mỗi MCP server kết nối thêm tool definitions vào context. Chỉ kết nối những server bạn thực sự dùng trong workflow đó.

Quy tắc đơn giản: Ít tool hơn = ít token hơn = phản hồi nhanh hơn. Đừng gắn tool "phòng khi cần" — gắn khi thực sự cần.

Theo dõi và đo lường

Không đo được thì không tối ưu được. OpenClaw Web UI cho phép theo dõi:

Token usage per conversation — xem cuộc hội thoại nào tốn nhiều token nhất
Model usage breakdown — biết bao nhiêu token đi vào model nào
Conversation length — nhận diện những cuộc hội thoại dài bất thường

Kết hợp với monitoring VPS (CPU, RAM, disk qua Telegram alert), bạn có cái nhìn toàn diện về chi phí vận hành agent — và biết chính xác nên tối ưu chỗ nào trước.

Checklist tối ưu token

#	Hành động	Tiết kiệm ước tính
1	Dùng model nhỏ cho tác vụ đơn giản Routing, phân loại, format dữ liệu → Haiku / GPT-4o mini	10–20× chi phí / request
2	Rút gọn system prompt Bỏ lặp, giữ ý chính, không quá 100 token	50–70% token system prompt
3	Bật Persistent Memory Không nhắc lại context mỗi phiên — để agent tự nhớ	Giảm token context lặp lại
4	Cấu hình auto-summarize context Tóm tắt tự động khi vượt 70–80% context window	Giảm 80–90% token history
5	Bỏ tool không dùng Chỉ giữ tool agent thực sự cần trong từng workflow	100–500 token / request
6	Theo dõi usage hàng tuần Phát hiện conversation bất thường, tối ưu sớm	Phát hiện lãng phí sớm

Không cần làm tất cả cùng lúc. Bắt đầu từ chọn đúng model (tiết kiệm nhiều nhất), rồi tối ưu dần các phần còn lại. Một tuần một bước — sau một tháng hóa đơn API sẽ khác hẳn.

Series: Làm chủ OpenClaw

Dùng OpenClaw hiệu quả:Giảm token, giữ trí nhớ

Vấn đề: token bị đốt vô ích

Chọn đúng model cho đúng việc

Viết system prompt ngắn gọn

Tận dụng Persistent Memory

Quản lý Context Window thông minh

Dùng Tool đúng cách

Theo dõi và đo lường

Checklist tối ưu token

Dùng OpenClaw hiệu quả:
Giảm token, giữ trí nhớ