1. Dòng sự kiện:
  2. Triển lãm CES 2025

Công ty Trung Quốc ra mắt AI tạo video giả mạo giống hệt như thật

T.Thủy

(Dân trí) - ByteDance, công ty mẹ của TikTok, đã gây kinh ngạc khi giới thiệu một công cụ AI có khả năng tạo video với nội dung giống y như thật.

ByteDance, hãng công nghệ đứng sau mạng xã hội TikTok, vừa giới thiệu một mô hình trí tuệ nhân tạo (AI) mới mang tên gọi OmniHuman-1, với khả năng tạo ra những đoạn video sinh động giống như thật.

ByteDance cho biết OmniHuman-1 dựa trên công nghệ deepfake, cho phép tạo ra những video với các chuyển động hết sức mượt mà và rất khó để nhận ra đó là sản phẩm của AI. ByteDance tự tin tuyên bố công cụ AI của mình có thể tạo ra sản phẩm với chất lượng vượt trội so với các công cụ AI tạo video khác hiện có.

Video buổi nói chuyện của Albert Einstein được OmniHuman-1 tạo ra từ hình ảnh của nhà khoa học này (Video: ByteDance).

Theo các nhà nghiên cứu của ByteDance, OmniHuman-1 chỉ cần một hình ảnh và âm thanh duy nhất để làm mẫu, như giọng nói hoặc giọng hát của một người bất kỳ. Dựa vào những dữ liệu này, công cụ AI có thể tạo ra những đoạn video với độ dài tùy ý, với giọng nói hoặc giọng hát giống hệt âm thanh mẫu.

OmniHuman-1 cũng có thể biên tập và chỉnh sửa các đoạn video có sẵn để thay đổi nội dung của video gốc.

Ngoài ra, OmniHuman-1 còn cho phép người dùng tạo ra các video mới với nhiều phong cách hình ảnh và âm thanh, chẳng hạn video hoạt hình hoặc phong cách điện ảnh hoặc video giống người thật.

Video do OmniHuman-1 tạo ra theo yêu cầu của người dùng (Video: ByteDance).

Người dùng chỉ việc đưa ra các yêu cầu về tỷ lệ khung hình, tỷ lệ cơ thể (chân dung, nửa người, toàn thân hoặc tất cả trong một), công cụ AI này có thể tạo ra video với tính chân thực cao nhất, bao gồm các chuyển động, ánh sáng, chi tiết xung quanh…

ByteDance vẫn chưa chính thức phát hành OmniHuman-1 ra công chúng, nhưng công ty đã chia sẻ những đoạn video mẫu được tạo ra bởi công cụ này.

Một đoạn video dài 23 giây được tạo ra từ hình ảnh của Albert Einstein, trong đó nhà khoa học nổi tiếng này đã có một buổi nói chuyện, với các chuyển động trên gương mặt và môi mấp máy giống hệt như thật.

Nhiều đoạn video ngắn khác do OmniHuman-1 tạo ra cho thấy những người đứng thuyết trình với các cử chỉ và biểu cảm gương mặt giống như người thật.

Video các nhân vật đang thuyết trình, được OmniHuman-1 tạo ra từ ảnh tĩnh (Video: ByteDance).

Những video mẫu minh họa về khả năng của OmniHuman-1 đã khiến cộng đồng mạng và giới công nghệ kinh ngạc. Nhiều người thừa nhận đây là video giả mạo giống thật nhất mà họ từng biết đến.

Các nhà nghiên cứu của ByteDance cho biết đã xây dựng mô hình AI với khả năng trộn dữ liệu từ hình ảnh, video và âm thanh để tạo ra những video chân thực, với tỷ lệ gương mặt, cơ thể đến các biểu cảm trên khuôn mặt, hành động… giống người nhất có thể.

Nhóm nghiên cứu cho biết các đoạn video được AI tạo ra có gương mặt, chuyển động đầu, cử chỉ tự nhiên… phù hợp với âm thanh và khung cảnh xung quanh, giúp tăng tính "thật" trong các đoạn video.

ByteDance vẫn chưa tiết lộ thời điểm cung cấp OmniHuman-1 đến người dùng.

Video do OmniHuman-1 tạo ra từ hình ảnh, với khung cảnh bên ngoài cửa sổ tàu thay đổi giống như thật (Video: ByteDance).

Sự xuất hiện của OmniHuman-1 cho thấy khả năng đáng kinh ngạc của các công cụ AI đến từ Trung Quốc, nhưng nhiều người lo ngại rằng OmniHuman-1 có thể bị lợi dụng cho các mục đích xấu, chẳng hạn tạo ra các video giả mạo người nổi tiếng để chia sẻ thông tin sai sự thật, lừa đảo hoặc thậm chí tạo ra các video khiêu dâm giả mạo để tống tiền.

Cuộc đua phát triển AI đang trở nên gay cấn hơn giữa Mỹ và Trung Quốc, khi 2 cường quốc này liên tục giới thiệu những công cụ AI với tính năng vượt trội để đánh bại đối thủ.

Cách đây ít ngày, OpenAI cũng đã tích hợp tính năng mới lên ChatGPT, cho phép công cụ này chỉ mất vài phút để hoàn tất một bài báo cáo từ lượng dữ liệu khổng lồ, vốn là công việc mà con người phải mất nhiều giờ để hoàn thiện.

Deepfake là công nghệ trí tuệ nhân tạo, sử dụng kỹ thuật tổng hợp hình ảnh của một người nào đó để kết hợp và chồng hình ảnh gương mặt lên một video hoặc hình ảnh của người khác.

Deepfake sẽ trải qua một "quá trình học", dựa vào các dữ liệu đầu vào nhằm tạo ra mô hình và lựa chọn thuật toán phù hợp để liên tục xử lý và học từ các mô hình đó. Sau một thời gian "học", deepfake đã có thể ghép khuôn mặt với độ chính xác cao mà khó có thể nhận ra bằng mắt thường.