“AI mới” giúp tập trung vào một giọng nói trong đám đông

Dân trí Một AI mới có thể lọc các cuộc hội thoại xung quanh và những tiếng ồn khác trong các đoạn băng để tách biệt điều một người cụ thể trên màn hình đang nói. Chương trình này có thể nhận diện và khử tiếng ồn xung quanh nhờ sử dụng cả gợi ý hình ảnh và âm thanh.

Giống như một người lắng nghe một cuộc trò chuyện tại một bữa tiệc nhộn nhịp, một trí tuệ nhân tạo (AI) mới có thể loại bỏ tiếng ồn làm nền trong các đoạn băng để nghe xem một người cụ thể trên hình đang nói gì.

Con người vốn rất giỏi tập trung vào những giọng nói cụ thể giữa tiếng ầm ĩ – hiện tượng được biết đến là hiệu ứng tiệc cocktail. Nhưng cho đến nay, những chương trình được thiết kế để nghe những người nói cụ thể trong các đoạn băng âm thanh ồn ào rất vất vả để chọn lọc âm thanh cần thiết. AI mới được thiết kế để sử dụng cả gợi ý hình ảnh và âm thanh, như chuyển động miệng, để phân biệt âm thanh được tạo ra bởi những người nói khác nhau trong băng hình.

Các nhà nghiên cứu ở Google đã thử nghiệm AI của họ bằng những đoạn băng giống tiệc cocktail có hai hay ba người đang nói chuyện với nhau, với nhiều mức độ của tiếng ồn ở nền. Bằng việc xem là lắng nghe các đoạn băng, AI mới có thể phân biệt âm thanh nào là của người nào với độ chính xác cao hơn nhiều một thuật toán tương tự chỉ nghe âm thanh.

AI này, sẽ được ra mắt vào tháng tám năm 2018 tại hội nghị SIGGRAPH ở Vancouver, có thể được sử dụng để thuyết minh các đoạn băng chính xác hơn hệ thống phiên âm hiện tại. Shmuel Peled, một nhà khoa học máy tính tại Đại học Hebrew của Jerusalem, cho biết, một phiên bản tương lai nhanh hơn của chương trình này có thể lọc tiếng ồn nền từ các đường truyền video trực tiếp có thể giúp mọi người nghe tiếng nhau rõ hơn trong các hội nghị từ xa.

Hơn nữa, Jen-Cheng Hou, một kĩ sư tại Trung tâm nghiên cứu Cải cách Công nghệ Thông tin, Học viện Sinica, Đài Loan, cho hay, loại AI này có thể giúp các trợ lí ảo nghe giọng của chỉ huy rõ ràng hơn.

Lộc Xuân (Theo Science News)