Học khoa học dữ liệu từ đâu nếu không có chuyên môn về công nghệ?
(Dân trí) - Nhiều người ngoài ngành e ngại sẽ không theo kịp lĩnh vực nặng tính kỹ thuật như khoa học dữ liệu. Theo đó, nhiều chương trình đào tạo đang nỗ lực để hóa giải nỗi lo này và hướng đến đào tạo năng lực dữ liệu cho những người không chuyên.
Hơn 95% dữ liệu đang có trên toàn thế giới được tạo ra trong khoảng 10 năm trở lại đây, theo thống kê của Statista. Với sự phổ biến của các thiết bị cá nhân hiện đại được kết nối với nhau trong một mạng lưới ngày càng dày đặc, có thể gọi thời đại này là thời đại của dữ liệu.
Đi cùng với đó là xu hướng dùng dữ liệu để giải các bài toán kinh doanh hay xã hội. Việc ra quyết định dựa trên dữ liệu trở thành một xu hướng không thể đảo ngược trong thời đại này, kể cả ở các doanh nghiệp, tập đoàn hay ở khu vực nhà nước. Dữ liệu trở thành một "mỏ vàng" mà không ai có thể bỏ qua.
Nhận ra nhu cầu chuyên môn về dữ liệu rất cao, những người học trái ngành (không có nền tảng về toán - tin) lo sợ rằng mình không thể theo kịp trong một lĩnh vực nặng tính kỹ thuật. Nhiều chương trình đào tạo đang nỗ lực để hóa giải nỗi lo này và hướng đến đào tạo năng lực dữ liệu cho những người không chuyên.
Trở về từ Úc sau hơn 10 năm làm việc trong các dự án ứng dụng dữ liệu lớn để giải quyết vấn đề xã hội, Tiến sĩ Huỳnh Nhật Nam là người tiên phong đưa khoa học dữ liệu vào chương trình đào tạo tại Trường Chính sách Công và Quản lý Fulbright (FSPPM), thuộc Đại học Fulbright Việt Nam.
Ngôi trường này đang đi theo xu hướng đào tạo chính sách công trên toàn cầu, đó là vận dụng dữ liệu lớn để giải các bài toán chính sách và nâng cao trải nghiệm dịch vụ công.
Khi được hỏi về những khó khăn trong đào tạo nhóm học viên với nền tảng kỹ thuật rất khác nhau, TS. Nhật Nam cho rằng sự đa dạng của học viên, vốn là đặc trưng của FSPPM, thật ra là một lợi thế. Ông cho biết mình không đòi hỏi học viên trong lớp Nhập môn Khoa học dữ liệu có sẵn năng lực kỹ thuật.
Hai yêu cầu của ông là học viên phải vào lớp với một nỗi trăn trở mà họ mong muốn giải quyết, và phải nắm được kiến thức căn bản về xác suất thống kê.
"Khi đào tạo khoa học dữ liệu ứng dụng, các bài toán phải gắn với một lĩnh vực cụ thể. Chính sự đa dạng chuyên môn của các học viên, từ tài chính, xây dựng, cho đến luật, báo chí, giáo dục, đã giúp đáp ứng yêu cầu này," TS. Nam nói.
Phần còn lại là kiến thức căn bản về xác suất thống kê, vốn đã là một môn học nền tảng của FSPPM - ngôi trường nổi tiếng với khả năng "xóa mù số" cho người ngoài ngành.
Nhiều người thường nghĩ rằng khoa học dữ liệu tương đương với phân tích dữ liệu, nhưng thực tế không phải vậy. Theo TS. Nhật Nam, đây chỉ là một phần trong một khái niệm rộng hơn, đó là năng lực dữ liệu (data competency). Xác suất thống kê là một phần không thể thiếu của năng lực này, nhưng để nhập cuộc, người học chỉ cần nắm thật chắc các kiến thức căn bản.
"Người có năng lực dữ liệu tốt không chỉ biết phân tích dữ liệu hay xây dựng mô hình. Quan trọng hơn, họ phải biết định hình đề bài, thiết kế cách giải sao cho khả thi về mặt dữ liệu, biết tạo ra hoặc biết tìm dữ liệu ở đâu, đánh giá dữ liệu thế nào là tốt, quản trị và lưu trữ dữ liệu thế nào, cập nhật ra sao. Bạn sẽ làm tất cả những việc này tốt hơn rất nhiều nếu như có hiểu biết chuyên môn trong lĩnh vực mà bạn đang làm việc", TS. Nam giải thích.
Việc coi trọng kiến thức chuyên môn (domain knowledge) cũng là xu hướng mà nhiều chuyên gia về khoa học dữ liệu đồng tình. Trong cuốn sách "Phân tích chính sách công: lập trình và bối cảnh cho Khoa học dữ liệu trong khu vực công" (Public Policy Analytics: Code & Context for Data Science in Government), TS. Ken Steif (Đại học Pennsylvania, Hoa Kỳ) khẳng định rằng trong việc ứng dụng dữ liệu vào các vấn đề công, một người với kiến thức chuyên môn tốt và năng lực dữ liệu ở mức trung bình có thể đóng góp tốt hơn một nhà khoa học máy tính xuất sắc nhưng chưa từng tìm hiểu các vấn đề xã hội.
Theo TS. Huỳnh Nhật Nam, kỹ thuật chỉ chiếm nhiều nhất là 1/3 trong toàn bộ quá trình xử lý một bài toán dữ liệu. Hơn nữa, trong bối cảnh ChatGPT đã có thể viết được những đoạn code chính xác theo yêu cầu, thứ tạo ra khác biệt sẽ là khả năng đặt đúng câu hỏi, đánh giá sản phẩm, và truyền thông nhằm phối hợp các bên liên quan mà phần lớn sẽ không có chuyên môn kỹ thuật.
Cách đánh giá môn Khoa học dữ liệu tại FSPPM cũng dần thích ứng với bối cảnh này. "Tôi hướng đến việc không kiểm tra năng lực viết code của học viên nữa, vì chuyện đó họ luôn có thể hỏi ChatGPT. Thứ tôi yêu cầu là học viên phải trình bày được cách mà họ thiết kế lời giải cho bài toán đó", TS. Nhật Nam cho biết.