Bỏ qua đến nội dung
Cách dùng A.I

Xử lý input đa phương tiện

10 phút
21/11/2025

🖼️ Multimodal Input là gì?

Gemini 3.0 Pro coi text, hình ảnh, audio, video như các input ngang hàng. Bạn có thể kết hợp nhiều loại dữ liệu trong cùng một prompt.

⚠️ Quy tắc quan trọng nhất

Bạn PHẢI đánh chỉ số hoặc đặt tên rõ ràng cho mỗi file upload. Gemini không tự động phân biệt khi có nhiều file!

So sánh: Cách sai vs. Cách đúng

❌ SAI - Không đánh index

Hãy phân tích cái này. [upload 3 ảnh screenshots]

Vấn đề: Gemini không biết "cái này" là ảnh nào!

✅ ĐÚNG - Đánh index rõ ràng

Tôi upload 3 screenshots:
- Screenshot 1: Trang chủ hiện tại
- Screenshot 2: Thiết kế đề xuất A
- Screenshot 3: Thiết kế đề xuất B

Hãy so sánh Screenshot 2 và Screenshot 3 với Screenshot 1, 
chỉ ra điểm mạnh/yếu của từng thiết kế.

<output_format>
| Tiêu chí | Thiết kế A | Thiết kế B |
| UX | ... | ... |
| Visual | ... | ... |
</output_format>

Các loại input được hỗ trợ

Loại Format Giới hạn
Hình ảnh PNG, JPEG, WebP, GIF Nhiều ảnh cùng lúc
Video MP4, MOV, WebM Lên đến 8.4 giờ
Audio MP3, WAV, FLAC Lên đến 8.4 giờ
PDF PDF documents Hàng trăm trang

Template xử lý multimodal

<context>
Đã upload:
- Image 1: [Mô tả ngắn về ảnh 1]
- Image 2: [Mô tả ngắn về ảnh 2]
- Image 3: [Mô tả ngắn về ảnh 3]
- Video 1: [Mô tả ngắn về video]
</context>

<task>
[Yêu cầu cụ thể - refer đến Image/Video bằng số]

Ví dụ:
- So sánh Image 1 với Image 2
- Phân tích hành vi trong Video 1 từ phút 2:00 đến 3:30
- Trích xuất text từ Image 3
</task>

<output_format>
[Định dạng kết quả mong muốn]
</output_format>

Ví dụ thực tế: Phân tích UX

<context>
Đã upload:
- Image 1: Homepage (giao diện chính)
- Image 2: Product page (trang sản phẩm)
- Image 3: Checkout page (thanh toán)
- Video 1: User journey từ trang chủ đến hoàn thành đơn hàng
</context>

<task>
Phân tích UX dựa trên:
1. Image 1-3: Đánh giá thiết kế, layout, call-to-action
2. Video 1: Xác định friction points (điểm người dùng bị vướng)
</task>

<output_format>
## Điểm mạnh
- [Bullet points, trích dẫn Image/Video cụ thể]

## Vấn đề UX
| Vấn đề | Vị trí (Image/Video) | Mức độ | Giải pháp |
|--------|---------------------|---------|-----------|

## Ưu tiên sửa chữa
1. [Vấn đề quan trọng nhất]
2. ...
</output_format>

Checklist khi dùng multimodal

  • [ ] Mỗi file đã được đánh số/đặt tên rõ ràng?
  • [ ] Mỗi file có mô tả ngắn về nội dung?
  • [ ] Task có refer cụ thể đến file nào?
  • [ ] Nếu video dài, có chỉ định timestamp không?

✅ Pro tip

Khi upload nhiều ảnh, hãy đặt tên theo quy tắc nhất quán: Image 1, Image 2... hoặc theo chức năng: Before, After, Reference.