Cách AI "Suy nghĩ": Tokens, Context & Attention

TL;DR

AI xử lý ngôn ngữ qua 4 cơ chế: Tokens (đơn vị nhỏ nhất, tiếng Việt tốn 1.5-2x tokens so với tiếng Anh), Context Window (bộ nhớ tạm - thông tin quan trọng nên để đầu/cuối vì khúc giữa AI hay lơ đễnh), Embedding (bản đồ ý nghĩa - biến từ thành vector tọa độ), Attention (cơ chế chú ý - tính mối liên kết giữa các từ). Hiểu 4 khái niệm này giúp bạn viết prompt gãy gọn, logic, kiểm soát được sự chú ý của AI (làm nổi bật chỗ quan trọng). AI không hiểu ngôn ngữ, chỉ tính xác suất.

Đừng để AI lừa bạn

Thấy AI trả lời trôi chảy, bạn tưởng nó HIỂU tiếng Việt? Không hề. Với nó, chữ viết của bạn chỉ là một đống số vô hồn.

Để điều khiển được nó, bạn cần hiểu cách nó “tiêu hóa” dữ liệu. Đây là 4 khái niệm kỹ thuật cốt lõi (được giải thích theo ngôn ngữ bình dân):

Tokens (Mảnh ghép)
Context Window (Bộ nhớ tạm)
Embedding (Bản đồ ý nghĩa)
Attention (Cơ chế chú ý)

1. Tokens: AI không đọc từng từ

Con người đọc: Tui yêu AnkiVN (3 từ).

AI đọc: Tui_yêu_AnkiVN (7 tokens).

🧱 Token là đơn vị nhỏ nhất mà AI xử lý. Nó có thể là một từ, một chữ cái, hoặc một phần của từ.

Tại sao cần quan tâm?

Giới hạn: Mỗi lần hỏi/đáp đều bị giới hạn số tokens.
Chi phí: Dùng API tính tiền theo tokens.
Tiếng Việt lỗ vốn: Tiếng Anh 1 từ ~ 1 token. Tiếng Việt dấu nhiều, chữ ghép nhiều → tốn tokens hơn gấp 1.5 - 2 lần.

👉 Mẹo: Viết prompt ngắn gọn, súc tích. Đừng lan man tốn tiền.

2. Context Window: Bộ nhớ cá vàng

Hãy tưởng tượng Context Window như cái bảng trắng để AI ghi nhớ thông tin.

Bảng nhỏ (ChatGPT free): Chỉ viết được vài trang A4. Muốn viết thêm thì phải xóa bớt đoạn đầu → AI quên sạch những gì bạn nói lúc đầu.
Bảng lớn (Claude 3, Gemini 1.5): To như cái sân vận động, chép được cả bộ Harry Potter mà không cần xóa chữ nào.

⚠️ Lưu ý: Cái gì rớt ra khỏi Context Window là biến mất vĩnh viễn. Đừng trách AI “sao mày nhanh quên thế”.

👉 Chiến thuật:

Thông tin quan trọng nhất (như Vai trò của AI, Định dạng trả lời mong muốn) nên để đầu hoặc cuối prompt.
Khúc giữa (Middle) là nơi AI dễ “lơ đễnh” nhất.

3. Embedding: Bản đồ ý nghĩa

Làm sao AI biết “Vua” và “Hoàng hậu” có liên quan đến nhau? Nó biến mọi từ thành các con số tọa độ (Vector).

Trên bản đồ không gian số:

Tọa độ từ “Vua” nằm sát cạnh “Hoàng hậu”.
Tọa độ từ “Cà phê” nằm sát cạnh “Tỉnh táo”.

Đây gọi là Embedding.

👉 Ứng dụng: Khi bạn muốn AI viết văn phong “Sang trọng”, hãy dùng những từ khóa (keywords) thuộc vùng “Sang trọng” để “neo” nó vào đó.

4. Chú ý (Attention): “Bạn đang nhìn cái gì?”

Đây là bước đột phá nhất của công nghệ này (chữ T trong GPT là Transformer, dịch nôm na là “Bộ chuyển đổi”, sử dụng cơ chế Chú ý).

Ví dụ câu: "Con chó cắn con mèo vì nó rất hung dữ." Từ "nó" ở đây là ai?

Con người hiểu ngay là con chó.
AI dùng cơ chế “Tự chú ý” (Self-Attention) để tính toán mối quan hệ giữa các từ. Nó thấy "nó" có mối liên kết cực mạnh với "con chó" và tính từ "hung dữ".

Nếu không có cơ chế Chú ý này, AI sẽ viết lan man không đầu không đuôi.

🎯 Kỹ thuật viết lệnh (Prompt Engineering) chính là việc điều khiển sự Chú ý này. Bạn muốn nó tập trung vào đâu? Hãy làm nổi bật chỗ đó lên (Viết hoa, dùng dấu ngoặc, đưa lên đầu).

Tổng kết

Bạn không cần code được một con AI, nhưng bạn phải hiểu:

Nó tính xác suất theo các mảnh ghép (Tokens).
Nó có bộ nhớ tạm (Context Window).
Nó hiểu nghĩa qua bản đồ ý nghĩa (Embedding).
Nó kết nối thông tin nhờ sự chú ý (Attention).

Hiểu 4 cái này, tự nhiên bạn sẽ biết cách ra lệnh (viết prompt) gãy gọn, logic và hiệu quả hơn hẳn mấy người chỉ biết “Chat chít”.