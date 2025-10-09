Sora 2 và Veo 3 - Những công cụ AI tạo video từ văn bản hàng đầu hiện nay

Những công cụ AI tạo sinh (công cụ trí tuệ nhân tạo có khả năng tự tạo ra nội dung mới từ mô tả của người dùng) đang ngày càng trở nên phổ biến, cho phép người dùng có thể tạo ra những bài viết, hình ảnh, đoạn nhạc… một cách dễ dàng và nhanh chóng.

Giờ đây, xuất hiện thêm ngày càng nhiều những công cụ AI cho phép người dùng tạo ra những đoạn video ngắn với nội dung sắc nét, chi tiết và chuyển động mượt mà giống như thật… chỉ từ văn bản mô tả của người dùng.

2 công cụ AI nổi bật và được giới công nghệ đánh giá cao nhất hiện nay về khả năng biến văn bản thành video là Veo 3 của Google và Sora 2 của OpenAI.

Veo 3 là công cụ tạo video bằng AI được Google giới thiệu vào cuối tháng 5 vừa qua. Đây là phiên bản thứ 3 của dòng công cụ AI tạo video Veo, với điểm nổi bật là nâng cấp chất lượng video được tạo ra từ văn bản mô tả.

Những đoạn video lồng tiếng Việt được tạo ra bởi Veo 3 (Video: Lê Minh Thiện Toàn).

Mới đây, OpenAI - công ty đứng sau phần mềm ChatGPT nổi tiếng - cũng đã cho ra mắt Sora 2, công cụ tạo video từ văn bản mô tả mới nhất do hãng phát triển. Đây là phiên bản nâng cấp của công cụ tạo video từ văn bản Sora được OpenAI ra mắt vào tháng 2/2024.

Điểm chung của Veo 3 và Sora 2 là đều cho phép người dùng tạo video từ văn bản mô tả, với khả năng mô phỏng các định luật vật lý một cách chính xác, giúp video trở nên chân thật và thực tế hơn, đặc biệt khi các vật thể chuyển động và tương tác với nhau.

Đặc biệt, cả 2 công cụ AI này đều có thể tự động tạo ra âm thanh và lồng thêm tiếng nói theo yêu cầu của người dùng. Gương mặt của nhân vật trong video có khả năng mấp máy môi để phù hợp với tiếng nói của họ. Đây là ưu điểm vượt trội của Veo 3 và Sora 2 so với các công cụ tạo video bằng AI khác hiện nay.

Những video hội thoại bằng tiếng Việt do Sora 2 tạo ra (Video: FBG).

Điểm nổi bật và vượt trội của Sora 2 so với Veo 3 là tính năng có tên gọi “Cameo”, cho phép người dùng có thể tự chèn bản thân vào đoạn video được tạo ra.

Để thực hiện điều này, người dùng chỉ việc tải lên một đoạn video ngắn ghi lại gương mặt và giọng nói của mình để làm mẫu, Sora 2 sẽ dựa vào nội dung do người dùng cung cấp để chèn họ vào đoạn video được tạo ra một cách mượt mà nhất, theo đúng mô tả của người dùng.

Ngoài ra, Sora 2 cũng cho phép người dùng tạo những đoạn video với độ dài tối đa 10 giây, trong khi Veo 3 chỉ cho phép tạo video với độ dài tối đa 8 giây. Tuy nhiên, người dùng có thể sử dụng 2 công cụ này để tạo ra những đoạn video ngắn và ghép lại thành một video dài hoàn chỉnh.

So sánh khả năng tạo video từ văn bản mô tả của Veo 3 và Sora 2

Giữa Veo 3 và Sora 2, công cụ nào có khả năng tạo ra những đoạn video từ văn bản mô tả với mức độ chuẩn xác và sắc nét hơn?

Nhiều nhà sáng tạo nội dung đã đi tìm câu trả lời cho câu hỏi kể trên bằng cách yêu cầu Veo 3 và Sora 2 cùng tạo ra hai đoạn video từ cùng một nội dung văn bản mô tả.

Dưới đây là một vài video được tạo ra bởi Veo 3 và Sora 2 từ cùng một yêu cầu của người dùng, bao gồm cả nội dung lẫn âm thanh, để bạn đọc có thể xem và so sánh chất lượng video tạo ra bởi từng công cụ.

So sánh Veo 3 và Sora 2 khi yêu cầu tạo ra những đoạn video theo phong cách khác nhau (Video: IDK).

Đặt song song những khung hình do Veo 3 và Sora 2 tạo ra để so sánh chất lượng (Video: Vosu).

Theo bạn, Veo 3 và Sora 2, công cụ nào tạo ra những sản phẩm với hình ảnh sắc nét, chi tiết và giống thật hơn? Hãy chia sẻ cảm nghĩ của mình ở phần bình luận bên dưới.