Bùng nổ dữ liệu số và sức mạnh thống kê

(Dân trí) - Ở Đại học Harvard, Carrie Grimes theo học khảo cổ học và cô đã mạo hiểm tới những vùng đất như Honduras, nơi cô nghiên cứu nền văn minh của người Mayan cổ. Nhưng cô đã thất vọng khi nhận ra máy tính và công cụ toán học mới là những thứ cô cần.

Bùng nổ dữ liệu số và sức mạnh thống kê - 1

Carrie Grimes, 32 tuổi, kỹ sư cao cấp của Google. Cô đã tốt nghiệp chuyên ngành nhân học, khảo cổ học ĐH Harvard, sau đó lấy bằng tiến sĩ khoa học thống kê tại ĐH Stanford.

“Mọi người hình dung lĩnh vực khảo cổ học như bộ phim Indiana Jones, nhưng phần lớn những gì các nhà khảo cổ học đang thực sự làm là đi phân tích dữ liệu”, cô nói.

Bây giờ, cô Grimes đang làm một công việc chẳng liên quan gì tới đào bới cổ vật. Cô làm việc tại Google, nơi cô sử dụng các phân tích thống kê từ hàng núi dữ liệu để tìm ra phương án cải thiện công cụ tìm kiếm.

Cô Grimes là một chuyên gia thống kê Internet, một trong số rất nhiều người đã chọn thay đổi sang nghề này. Họ muốn thỏa mãn nhu cầu của bản thân đang ngày một tăng lên.

“Tôi nói thống kê vẫn sẽ là công việc hấp dẫn trong 10 năm tới”, ông Hal Varian, giám đốc tài chính Google, nói. “Và không phải tôi đang lừa phỉnh đâu”.

Sự gia tăng số lượng các chuyên gia thống kê, những người có thể kiếm tới 125.000 USD ở các công ty hàng đầu chỉ trong 1 năm sau khi có học vị tiến sĩ, là hệ quả của sự bùng nổ dữ liệu số trong những năm gần đây. Theo thời gian, máy tính và thế giới web đang sinh ra các lĩnh vực nghiên cứu giữ liệu mới, như thăm dò tín hiệu cảm biến, theo dõi băng ghi âm, thông tin trao đổi trên mạng xã hội, số liệu công khai và còn nhiều lĩnh vực nữa.

Theo nhận định của IDC, quy mô giữ liệu số sẽ chỉ tăng ngày một nhanh hơn, có thể gấp tới 5 lần hiện tại vào năm 2012.

Nhưng, dù gì, dữ liệu vẫn chỉ đơn thuần là nguyên liệu thô của tri thức.

“Chúng ta đang tiến rất nhanh vào một thế giới mà ở đó mọi thứ đều có thể bị giám sát và ghi lại”, Erik Brynjolfsson nhận xét. Ông là một nhà kinh tế học và là giám đốc Trung tâm thương mại điện tử thuộc Học viện công nghệ Massachusetts. “Vấn đề quan trọng ở đây là khả năng con người có thể sử dụng, phân tích và tạo thành quả từ dữ liệu đến đâu?”.

Thế hệ các chuyên gia thống kê mới sẽ giải quyết bài toán đó.

Họ sử dụng sức mạnh của máy tính và các mô hình toán học tinh vi để săn tìm những mô hình có ý nghĩa và xuyên thấu biển bao la kết quả từ dữ liệu. Từ đó, kết quả được đem vào các ứng dụng đa dạng như tăng hiệu quả tìm kiếm Internet và quảng cáo trực tuyến, chọn lọc thông tin chuỗi gen phục vụ nghiên cứu bệnh ung thư, phân tích thông tin định vị giúp ích cho việc vận chuyển thực phẩm bằng tàu biển.

Ngay cả Netflix, giải thưởng trị giá 1 triệu USD cho bất kỳ ai đưa ra được thuật toán giúp tăng chất lượng phim ảnh trực tuyến lên 10%, cũng chỉ là cuộc chiến của những vũ khí thống kê hiện đại.

Tuy nhiên, các chuyên gia thống kê chỉ là một phần của đội quân tinh nhuệ chuyên sử dụng các công nghệ thống kê hiện đại để phân tích dữ liệu. Tin học và kỹ năng xử lý số liệu vẫn chưa phải là những diễn viên chính. Vậy là các thám tử dữ liệu đến từ những nguồn nhân lực khác như kinh tế học, khoa học máy tính hay toán học.

Họ tất nhiên được chào đón ở Nhà Trắng những ngày này. “Có được dữ liệu phong phú, khách quan là bước đi đầu tiên của việc định hướng kế hoạch dài hạn cho nền kinh tế, và là chìa khóa của các chính sách ưu tiên”, Peter R. Orszag, giám đốc Văn phòng Quản lý và Chính sách, khẳng định trong một tuyên bố hồi tháng 5. Sau đó, ông Orszag đã thú nhận khẳng định của ông về tầm quan trọng của thống kê một đề tài ông rất quan tâm.

IBM đã nhận ra cơ hội từ dịch vụ săn tìm dữ liệu. Hãng đã lập ra một đơn vị chuyên phân tích kinh doanh và tối ưu hóa dịch vụ hồi Tháng tư. Đơn vị này hàng ngày thu thập đóng góp của hơn 200 nhà toán học, chuyên gia thống kê và cả những chuyên gia phân tích dữ liệu. Nhưng IBM cho rằng con số kia vẫn chưa đủ. Hãng chuẩn bị tiếp tục tuyển hoặc thuê thêm 4.000 chuyên gia phân tích.

Một dấu hiệu khác cho thấy tầm quan trọng đang tăng trong lĩnh vực thống kê: khoảng 6.400 người đã tụ họp về hội nghị hàng năm dành cho những người làm nghề thống kê, vừa được tổ chức tại Washington DC tuần trước. Những năm gần đây, hội nghị chỉ thu hút được khoảng 5.400 người tham gia.

Những người tham dự hội nghị năm nay, đàn ông và phụ nữ, người trẻ và cả người trung niên, trông chẳng khác bất cứ đoàn khách du lịch nào. Nhưng các cuộc thảo luận say sưa được lấp đầy những tham biến, tính ngẫu nhiên, các hồi quy và các cụm dữ liệu.

Sự bùng nổ dữ liệu đã nâng cao nhận thức về một nghề trước kia ít được nhắc đến và có thu nhập thấp, ví dụ như công việc tính toán ước lượng tuổi thọ trung bình của người mua bảo hiểm.

Cô Grimes, 32 tuổi, nhận bằng tiến sĩ khoa học thống kê của Đại học Stanford năm 2003 và cuối năm đó cô gia nhập Google. Bây giờ cô là một trong số rất nhiều chuyên gia thống kê thuộc một nhóm 250 chuyên gia phân tích dữ liệu. Cô sử dụng các mô hình thống kê để giúp công ty cải tiến công nghệ tìm kiếm.

Một ví dụ, cô Grimes áp dụng một thuật toán cho phần mềm khảo sát của Google. Phần mềm này liên tục quét khắp Internet để cập nhật các chỉ mục tìm kiếm cho Google. Thuật toán này giúp giảm số lần phần mềm của Google phải quét qua các trang web tĩnh.

Mục đích, theo giải thích của Grimes, là để cải thiện chút ít hiệu quả của việc sử dụng máy tính và mạng. “Mức tăng chỉ 1 hay 2% cũng đã là khổng lồ, khi nó được áp dụng đến hàng triệu, thậm chí hàng tỷ người đang tìm kiếm trên Google”.

Quy mô của dữ liệu trên Internet mở ra những thể giới mới để khám phá. Theo truyền thống, những người hoạt động xã hội theo dõi hành vi đối tượng bằng cách phỏng vấn hoặc khảo sát. “Nhưng thế giới web cung cấp nguồn dữ liệu lớn kinh ngạc, giúp theo dõi xem hàng triệu người đã tương tác với nhau như thế nào”, Jon Kleinberg, nhà khoa học máy tính và nhà nghiên cứu mạng xã hội thuộc ĐH Cornell, cho biết.

Một ví dụ, trong một nghiên cứu vừa được công bố, ông Kleinberg và hai đồng nghiệp đã theo dõi các luồng thông tin qua lại trong không gian ảo. Họ theo dõi 1,6 triệu trang web và blog mới trong suốt chiến dịch vận động tranh cử tổng thống năm 2008, sử dụng các thuật toán để quét ra những cụm từ có liên quan đến một chủ đề chọn trước.

Và họ đã chỉ ra rằng, nói chung, các phương tiện truyền thông kiểu cũ đăng thông tin đầu tiên, các blog theo sau, thường là chậm hơn 2,5 giờ. Nhưng một số ít trường hợp blog đăng thông tin nhanh nhất và thu hút được sự chú ý.

Nguồn dữ liệu Web quá lớn cũng có những mặt trái của nó. Khối lượng lớn dữ liệu có thể dễ dàng chôn vùi các mô hình thống kê.

Các chuyên gia thống kê cũng cảnh báo những dữ liệu không nhất thiết phản ánh mối liên hệ giữa nguyên nhân và hậu quả.

“Cuối thập niên 40 của thế kỷ trước, trước khi ra đời vắc-xin chống viêm tủy sống, các chuyên gia y tế cộng đồng ở Mỹ đã loan báo số ca viêm tủy sống tăng cùng với nhu cầu sử dụng kem và nước ngọt”, ông David Alan Grier, một sử gia và là một nhà thống kê thuộc Đại học George Washington, kể lại. “Nó thậm chí còn được thổi phồng lên rằng các đợt dịch viêm tủy sống hầu hết xảy ra trong những tháng hè nóng nực, khi mọi người thường ăn nhiều kem hơn. Đó là một sai lầm”.

Quý Đoàn
Theo NY Times