Vì sao lại phải phát triển khoa học dữ liệu ở Việt Nam?
(Dân trí) - Viện Nghiên cứu cao cấp về Toán (VIASM) vừa thành lập Phòng thí nghiệm Khoa học dữ liệu nhằm mục tiêu kết nối chuyên gia trong và ngoài nước để thúc đẩy việc đào tạo, nghiên cứu và ứng dụng khoa học dữ liệu, đóng góp vào phát triển của đất nước. Vậy khoa học dữ liệu sẽ giúp ích gì cho Việt Nam trong cuộc cách mạng công nghiệp lần thứ tư?
Trao đổi với Dân trí về vấn đề này, Giáo sư (GS) Hồ Tú Bảo, Giám đốc Phòng thí nghiệm Khoa học Dữ liệu, Viện Nghiên cứu cao cấp về Toán (VIASM) cho biết: Có thể nói các đột phá của công nghệ số trong vài năm vừa qua (công nghệ số hiểu nôm na là công nghệ cho các thiết bị điện tử và các ứng dụng dùng thông tin dưới dạng mã số, chẳng hạn mã số đó là các tín hiệu số rời rạc do chuyển đổi từ tín hiệu điện tử liên tục) đã tạo ra nền tảng cho những thay đổi lớn lao của sản xuất và xã hội trong thời ta đang sống, vốn được gọi là “thời chuyển đổi số”, cũng thường được gọi khác là cuộc “cách mạng công nghiệp lần thứ tư”.
Những đột phá tiêu biểu đó là điện toán đám mây (dịch vụ về lưu trữ dữ liệu và tính toán), internet vạn vật (thu nhận và kết nối dữ liệu của các vật thể được số hoá), dữ liệu lớn (các nguồn dữ liệu rất lớn và rất phức tạp), trí tuệ nhân tạo (làm cho máy móc hoạt động như có trí thông minh của con người), và gần đây là khoa học dữ liệu.
Những đột phá kể trên đều là của những công nghệ số về dữ liệu. Đối với nền kinh tế số và xã hội số, có thể coi điện toán đám mây như môi trường, dữ liệu lớn như năng lượng, internet vạn vật như huyết mạch, trí tuệ nhân tạo là các hoạt động thông minh, và cũng có thể xem khoa học dữ liệu như “bộ não” nhằm phân tích nguồn dữ liệu lớn do các đột phá kia tạo ra, để hỗ trợ con người đưa ra các quyết định và hành động.
Tuy nhiên, những người không làm trong nghề trí tuệ nhân tạo ít biết rằng các đột phá của ngành này trong những năm vừa qua phần lớn dựa trên các tiến bộ rất nhanh của ngành học máy (machine learning), một thành phần chính của khoa học dữ liệu.
Thưa GS, việc ra đời Phòng thí nghiệm Khoa học dữ liệu (DSLab) thuộc VIASM giúp ích gì cho Việt Nam trong cuộc cách mạng công nghiệp lần thứ tư?
GS Hồ Tú Bảo: Sự hội tụ các đột phá của công nghệ số trong thời gian gần đây đã tạo ra cơ hội cho nền sản xuất mới của con người trong thời chuyển đổi số (tức cũng là đặc điểm quan trọng nhất của cuộc cách mạng công nghiệp lần thứ tư), đó là sản xuất thông minh. Sản xuất thông minh ta nói ở đây là sản xuất với máy móc có những khả năng của trí thông minh con người, tiêu biểu là máy tính. Đó là sản xuất với trí tuệ nhân tạo như ta vẫn thường nghe.
Điều ta cần nhấn mạnh là sản xuất thông minh với trí tuệ nhân tạo sẽ có ở rất nhiều mức, như với các robot thông minh, như xe tự lái... nhưng cũng có nhiều việc không nhất thiết gắn với chế tạo máy móc hiện đại, với việc theo đuổi các công nghệ cao, như việc tính toán được đúng nhu cầu về thịt lợn trên toàn quốc kể cả xuất khẩu để tránh tình trạng thịt lợn rớt giá gần hai năm qua, hay việc làm cho du lịch “thông minh” hơn.
Hầu hết những việc trên đều dựa vào quản lý và khai thác dữ liệu, tức dựa vào khoa học dữ liệu. Điều rất đáng nói là khoa học dữ liệu là lĩnh vực cần sự kết hợp hài hòa của toán học và công nghệ thông tin, mà nếu đứng một mình theo cách truyền thống thì mỗi lĩnh vực này đều không làm được việc “hiểu” và “dùng” những nguồn dữ liệu rất lớn. Vai trò của toán học trong thời chuyển đổi số do đó càng quan trọng. Toán học đã cần cho cuộc sống hàng ngày của mỗi người.
Nói Phòng thí nghiệm Khoa học dữ liệu của VIASM giúp ích gì cho Việt Nam thì to tát quá, nhưng DSLab hướng tới những đóng góp sau:
Một là, đóng góp vào việc nhận thức rõ hơn của xã hội về thời chuyển đổi số và vai trò của dữ liệu.
Hai là, góp phần đào tạo nhân lực số của chúng ta, đặc biệt là lực lượng tinh nhuệ để phát triển các công nghệ số cần thiết của đất nước. Để làm việc này, DSLab hướng đến hình thành và xây dựng một môi trường nghiên cứu tốt về khoa học dữ liệu, làm điểm kết nối và chia sẻ của lực lượng làm việc trong lĩnh vực này.
Ba là, tiến hành một số đề tài giải quyết những bài toán thực tế có ý nghĩa.
Vì sao chúng ta lại đặt Phòng thí nghiệm Khoa học dữ liệu (PTN KHDL) ở Viện Nghiên cứu cao cấp về Toán (VIASM)?
GS Hồ Tú Bảo: Đây là một câu hỏi hay, vì tất nhiên một PTN KHDL kết nối người làm trong lĩnh vực này có thể đặt ở chỗ này chỗ khác. Tuy nhiên có hai lý do cơ bản để đặt PTN KHDL ở Viện Nghiên cứu cao cấp về Toán.
GS Hồ Tú Bảo (ngoài cùng bên trái) chụp ảnh lưu niệm cùng với Lãnh đạo của Viện Nghiên cứu cao cấp về Toán và Đại diện Hanel, Vietnam Airlines trong lễ ra mắt Phòng thí nghiệm Khoa học Dữ liệu.
Thứ nhất, như đã nói ở trên, KHDL là một khoa học liên ngành, cần sự kết hợp chặt chẽ của toán học và CNTT. Ví dụ, như để phân tích một bảng dữ liệu (tức một ma trận theo ngôn ngữ toán học), máy tính cần thực hiện nhiều phép tính trên các ma trận. Khi số dòng số cột của dữ liệu lớn lên đến hàng triệu hoặc hơn, thì dù máy tính có mạnh cũng không tính nổi một số phép tính, như nghịch đảo các ma trận này (khi ta chứa dữ liệu mỗi người dân trên một dòng của ma trận thì dữ liệu cả nước sẽ là một ma trận lớn có 95 triệu dòng).
Khi này, ta phải dùng đến nhiều phương pháp toán học hiện đại để giải quyết. Về chuyện này, trong tuần đầu của tháng 5 (06-11/5/2018) này GS Vũ Hà Văn của đại học Yale, sẽ giảng một tuần ở VIASM về các phương pháp toán học để xử lý các bảng dữ liệu rất lớn, có nhiễu và làm thưa ma trận (để có thể tính được trên máy tính).
Thứ hai là, Viện Nghiên cứu cao cấp về Toán có uy tín cao trong giới toán học nói riêng và giới khoa học nói chung trên cả nước. VIASM là điểm đến, điểm nối kết những người làm toán và những người làm công nghệ thông tin, và đã chứng tỏ làm tốt việc này trong những năm qua. Theo tôi, việc PTN KHDL đặt ở VIASM không chỉ thích hợp hơn cả, mà còn là cơ may. Theo các ý nghĩa truyền thống, thì PTN KHDL đang có “thiên thời” (xã hội số và nền kinh tế số có nhu cầu lớn về KHDL), có “địa lợi” (đặt ở VIASM là nơi có điều kiện kết nối anh chị em làm về KHDL từ các nơi), và có “nhân hoà” (thực tế là VIASM chủ trương xây dựng PTN KHDL như thêm một hướng đi mới trong ứng dụng toán học, và nhóm hạt nhân cùng mọi người tham gia hoạt động luôn có chung chí hướng).
Thưa GS, để nâng cao nhận thức của cộng đồng về khoa học dữ liệu cần phải làm gì? Vai trò của Chính phủ cần ra sao?
GS Hồ Tú Bảo: Theo tôi cách tốt nhất để nâng cao nhận thức cộng đồng về khoa học dữ liệu là những người làm khoa học dữ liệu phải tham gia giải quyết được những bài toán thực tế lớn và có ý nghĩa. Suốt một năm qua, chúng ta đã nói đến cách mạng công nghiệp lần thứ tư với một mật độ dày đặc, nhưng hiểu cho tới và bắt tay làm thì dường như chưa được bao nhiêu.
Muốn làm gì cũng phải có hạ tầng tốt, tức những thứ nền tảng để trên đó mà làm. Trong thời chuyển đổi số này, một xã hội số và nền kinh tế số bắt buộc phải có hạ tầng số tốt. Trong các thành phần của hạ tầng số, hạ tầng dữ liệu là cái chúng ta đang thiếu và yếu nhất. Do đó đầu tiên cần làm việc này. Trong câu chuyện ta đang nói, tôi nghĩ xây dựng được hạ tầng dữ liệu nhất thiết phải có vai trò lãnh đạo cao của Chính phủ.
Xin cảm ơn GS đã dành cho Dân trí cuộc trao đổi này!
Nguyễn Hùng (Thực hiện)