"Dữ liệu biết về các bạn nhiều hơn những gì chúng ta biết về chúng"

Thứ sáu, 14/12/2018 - 07:59

(Dân trí) - Trong Cách mạng công nghiệp 4.0, dữ liệu có nhiều tiềm năng tích cực đóng góp cho sự phát triển của nhân loại, tuy nhiên nó có mặt trái tương đối khó lường và mang đến nguy cơ khi ta quản trị không tốt.

"Dữ liệu biết về các bạn nhiều hơn những gì chúng ta biết về chúng" - 1

Hướng tới giúp cộng đồng doanh nghiệp có những nhận thức đúng đắn về vai trò tác động của Big Data, AI và tìm ra giải pháp phù hợp trong quản trị dữ liệu, Orchestra Networks và tổ chức Smart-up.org đã đồng tổ chức Hội thảo: "Quản trị dữ liệu - Thách thức vượt tầm công nghiệp 4.0" diễn ra sáng ngày 13/12 tại Hà Nội.

Buổi hội thảo thu hút sự tham gia của các diễn giả, chuyên gia, nhà nghiên cứu, đại diện của các doanh nghiệp hàng đầu trong lĩnh vực quản trị dữ liệu (Data Management), dữ liệu lớn (Big Data), trí tuệ nhân tạo (AI), công nghệ khối (Blockchain), Internet vạn vật (IoT) trong và ngoài nước.

Phát biểu khai mạc tại buổi hội thảo, ông Pierre Bonnet, Giám đốc vận hành Orchestra Networks Việt Nam khẳng định chưa bao giờ trong quá khứ, ranh giới giữa ứng dụng tích cực và tiêu cực của các công nghệ như Big Data và AI lại trở nên mong manh như hiện nay.

"Một mặt, xã hội tiếp tục tăng trưởng chóng mặt để đáp ứng nhu cầu của mình bằng cách loại bỏ các ảnh hưởng từ bên ngoài; cùng với đó, Big Data và AI được sử dụng để theo đuổi một sự tăng trưởng không bền vững cho hành tinh này", ông Bonnet cho biết. "Mặt khác, xã hội đang sử dụng Big Data và AI để thúc đẩy tăng trưởng tương thích bền vững, phục vụ tất cả mọi người như nhau, và tận dụng lợi thế của việc quản lý kiến thức tốt hơn."

Ông Pierre Bonnet, Giám đốc vận hành Orchestra Networks Việt Nam nhấn mạnh về những điểm tích cực và tiêu cực của dữ liệu đối với Big Data, AI.

Cũng theo đó, công nghệ đang tác động mạnh mẽ, góp phần làm thay đổi cách chúng ta sống, lao động và tương tác với nhau, cách chúng ta suy nghĩ. Nó thậm chí có thể thay đổi cả bản chất con người dựa trên những gì chúng ta được nhìn thấy và tiếp xúc hàng ngày.

Do vậy, việc "thanh lọc" môi trường, biến các nguồn dữ liệu xung quanh chúng ta trở nên có ích, đúng hướng, tránh sai lạc và thông tin xấu độc là một trong những mối quan tâm hàng đầu của các cơ quan chính phủ và nhiều doanh nghiệp tại Việt Nam.

Theo lời ông Ngô Tự Lập, Viện trưởng Viện Đổi mới Pháp ngữ (FHI) - Đại học Quốc gia Hà Nội, tại buổi Hội thảo, xã hội càng phát triển, ứng dụng công nghệ càng nhiều, thì những thách thức đến từ khâu quản lý dữ liệu ngày càng lớn.

Lấy thí dụ bối cảnh mạng xã hội Facebook đang phủ rộng và có tác động lớn đến đời sống của người dân, ông Ngô Tự Lập chia sẻ quan điểm rằng ngay cả một luồng tư tưởng xấu, một chủ nghĩa xấu, cũng có thể lan rộng và làm ảnh hưởng tới tư duy của những người khác trong cộng đồng. "Khi lượng thông tin và dữ liệu xung quanh chúng ta ngày một nhiều, cũng như khi loài người đạt tới giới hạn của sự tăng trưởng, thì lượng "rác" xung quanh chúng ta ngày một nhiều, và để sàng lọc, loại bỏ chúng là cả một vấn đề lớn."

Cùng quan điểm nêu trên, TS. Nguyễn Xuân Hoài, Đồng sáng lập & Giám đốc Học viện AI Việt Nam đã có bài phát biểu đặc biệt nhấn mạnh về tầm quan trọng của quản lý dữ liệu trong việc theo đuổi những xu thế của CMCN 4.0, điển hình là công nghệ AI.

TS. cho biết mặc dù công nghệ AI phụ thuộc vào dữ liệu, nhưng không phải cứ có nhiều dữ liệu thì "mặc nhiên" chúng ta sẽ có AI tốt. "Tại thời điểm hiện nay, loài người đã sở hữu trong tay những ứng dụng, công cụ thông minh,... giúp chúng ta lấy được thông tin, tri thức từ dữ liệu. Có lẽ chỉ cần một hoặc hai tháng là đã có thể tạo ra dữ liệu lớn bằng cả nghìn năm loài người tạo ra", TS. Nguyễn Xuân Hoài nhận định. "Song, vấn đề ở đây không phải là có bao nhiêu dữ liệu, mà dữ liệu đó liệu có đủ tốt. Hay còn gọi là sự thiên lệch về dữ liệu".

TS. Nguyễn Xuân Hoài, Đồng sáng lập & Giám đốc Học viện AI Việt Nam khẳng định không phải cứ có nhiều dữ liệu thì mặc nhiên chúng ta sẽ có AI tốt. — TS. Nguyễn Xuân Hoài, Đồng sáng lập & Giám đốc Học viện AI Việt Nam khẳng định không phải cứ có nhiều dữ liệu thì "mặc nhiên" chúng ta sẽ có AI tốt.

"Chúng ta phải đặt những câu hỏi như, bản thân của dữ liệu ấy có chính xác, có thể tin tưởng, có khách quan hay không. Có thể có những dữ liệu rất khách quan lấy từ quá trình tương tác với khách hàng, nhưng cũng có những dữ liệu mang tính chủ quan, thí dụ như lấy từ các cuộc khảo sát."

TS. trích dẫn 2 trường hợp tiêu biểu cho thực trạng dữ liệu kém hay dữ liệu thiên lệch, gồm sự cố AI của Google nhận nhầm hình ảnh một người da màu thành khỉ Gorilla năm 2015, và sự cố AI ứng dụng trong y tế của IBM mang tên Watson Oncology chuẩn đoán sai hàng loạt về bệnh ung thư hồi tháng 7/2018. Trong trường hợp của Watson Oncology, lỗi thuộc về các kỹ sư của IBM đã thêm vào những triệu chứng không có thật trong lúc huấn luyện AI, khiến nó trở nên thiếu chính xác.

Không chỉ gói gọn trong những trường hợp được nêu trên, vấn đề về chất lượng dữ liệu thấp được cho là đã gây thiệt hại cho nước Mỹ hơn 3.000 tỷ USD trong năm vừa qua. Đây sẽ còn tiếp tục là một vấn đề được nhắc tới, trong bối cảnh thế giới đang hướng tới CMCN 4.0, và nhiều hoạt động của con người đã bắt đầu chịu những ảnh hưởng nhất định từ AI.

Một câu ngạn ngữ nổi tiếng được nhắc đến trong buổi hội thảo đó là GIGO (Garbage in, Garbage out), tạm dịch là "Đầu vào không ra gì, thì đầu ra cũng chẳng thể tốt đẹp". Câu ngạn ngữ này vẫn đúng khi áp dụng với trường hợp của AI, bởi "chất lượng thông tin đầu ra không thể vượt quá chất lượng đầu vào".

Nói cách khác, nếu như không đảm bảo được việc quản lý tốt dữ liệu, thì AI nói riêng và nhiều công nghệ khác như IoT, blockchain,... nói chung, không những không phát huy được những thế mạnh của nó, mà còn tạo ra những vấn đề, trở ngại rất lớn, thậm chí gây ra hậu quả nghiêm trọng.

Hội thảo cũng ghi nhận nhiều giải pháp, ý kiến đóng góp thiết thực từ các chuyên gia, GS.TS, giám đốc,... trong và ngoài nước để tận dụng chất lượng dữ liệu, tránh việc sử dụng và thực hiện không đúng.

Nguyễn Nguyễn