(Dân trí) - Ở Đại học Harvard, Carrie Grimes theo học khảo cổ học và cô đã mạo hiểm tới những vùng đất như Honduras, nơi cô nghiên cứu nền văn minh của người Mayan cổ. Nhưng cô đã thất vọng khi nhận ra máy tính và công cụ toán học mới là những thứ cô cần.
Carrie Grimes, 32 tuổi, kỹ sư cao cấp của Google. Cô đã tốt nghiệp chuyên ngành nhân học, khảo cổ học ĐH Harvard, sau đó lấy bằng tiến sĩ khoa học thống kê tại ĐH Stanford.“Mọi người hình dung lĩnh vực khảo cổ học như bộ phim Indiana Jones, nhưng phần
lớn những gì các nhà khảo cổ học đang thực sự làm là đi phân tích dữ liệu”, cô
nói.
Bây giờ, cô Grimes đang làm một công việc chẳng liên quan gì tới đào bới cổ
vật. Cô làm việc tại Google, nơi cô sử dụng các phân tích thống kê từ hàng
núi dữ liệu để tìm ra phương án cải thiện công cụ tìm kiếm.
Cô Grimes là một chuyên gia thống kê Internet, một trong số rất nhiều người đã
chọn thay đổi sang nghề này. Họ muốn thỏa mãn nhu cầu của bản thân đang ngày một tăng
lên.
“Tôi nói thống kê vẫn sẽ là công việc hấp dẫn trong 10 năm tới”, ông Hal
Varian, giám đốc tài chính Google, nói. “Và không phải tôi đang lừa phỉnh đâu”.
Sự gia tăng số lượng các chuyên gia thống kê, những người có thể kiếm tới
125.000 USD ở các công ty hàng đầu chỉ trong 1 năm sau khi có học vị tiến sĩ,
là hệ quả của sự bùng nổ dữ liệu số trong những năm gần đây. Theo thời gian,
máy tính và thế giới web đang sinh ra các lĩnh vực nghiên cứu giữ liệu mới, như
thăm dò tín hiệu cảm biến, theo dõi băng ghi âm, thông tin trao đổi trên mạng
xã hội, số liệu công khai và còn nhiều lĩnh vực nữa.
Theo nhận định của IDC, quy mô giữ liệu số sẽ chỉ tăng ngày một nhanh hơn,
có thể gấp tới 5 lần hiện tại vào năm 2012.
Nhưng, dù gì, dữ liệu vẫn chỉ đơn thuần là nguyên liệu thô của tri thức.
“Chúng ta đang tiến rất nhanh vào một thế giới mà ở đó mọi thứ đều có thể bị
giám sát và ghi lại”, Erik Brynjolfsson nhận xét. Ông là một nhà kinh tế học và
là giám đốc Trung tâm thương mại điện tử thuộc Học viện công nghệ Massachusetts. “Vấn đề
quan trọng ở đây là khả năng con người có thể sử dụng, phân tích và tạo thành
quả từ dữ liệu đến đâu?”.
Thế hệ các chuyên gia thống kê mới sẽ giải quyết bài toán đó.
Họ sử dụng sức mạnh của máy tính và các mô hình toán học tinh vi để săn tìm
những mô hình có ý nghĩa và xuyên thấu biển bao la kết quả từ dữ liệu. Từ đó, kết
quả được đem vào các ứng dụng đa dạng như tăng hiệu quả tìm kiếm Internet và
quảng cáo trực tuyến, chọn lọc thông tin chuỗi gen phục vụ nghiên cứu bệnh ung
thư, phân tích thông tin định vị giúp ích cho việc vận chuyển thực phẩm bằng
tàu biển.
Ngay cả Netflix, giải thưởng trị giá 1 triệu USD cho bất kỳ ai đưa ra được
thuật toán giúp tăng chất lượng phim ảnh trực tuyến lên 10%, cũng chỉ là cuộc
chiến của những vũ khí thống kê hiện đại.
Tuy nhiên, các chuyên gia thống kê chỉ là một phần của đội quân tinh nhuệ
chuyên sử dụng các công nghệ thống kê hiện đại để phân tích dữ liệu. Tin học và
kỹ năng xử lý số liệu vẫn chưa phải là những diễn viên chính. Vậy là các thám
tử dữ liệu đến từ những nguồn nhân lực khác như kinh tế học, khoa học máy tính hay
toán học.
Họ tất nhiên được chào đón ở Nhà Trắng những ngày này. “Có được dữ liệu phong
phú, khách quan là bước đi đầu tiên của việc định hướng kế hoạch dài hạn cho nền
kinh tế, và là chìa khóa của các chính sách ưu tiên”, Peter R. Orszag, giám đốc
Văn phòng Quản lý và Chính sách, khẳng định trong một tuyên bố hồi tháng 5. Sau
đó, ông Orszag đã thú nhận khẳng định của ông về tầm quan trọng của thống kê một
đề tài ông rất quan tâm.
IBM đã nhận ra cơ hội từ dịch vụ săn tìm dữ liệu. Hãng đã lập ra một đơn vị
chuyên phân tích kinh doanh và tối ưu hóa dịch vụ hồi Tháng tư. Đơn vị này hàng
ngày thu thập đóng góp của hơn 200 nhà toán học, chuyên gia thống kê và cả
những chuyên gia phân tích dữ liệu. Nhưng IBM cho rằng con số kia vẫn chưa đủ. Hãng
chuẩn bị tiếp tục tuyển hoặc thuê thêm 4.000 chuyên gia phân tích.
Một dấu hiệu khác cho thấy tầm quan trọng đang tăng trong lĩnh vực thống kê:
khoảng 6.400 người đã tụ họp về hội nghị hàng năm dành cho những người làm nghề
thống kê, vừa được tổ chức tại Washington
DC tuần trước. Những năm gần đây,
hội nghị chỉ thu hút được khoảng 5.400 người tham gia.
Những người tham dự hội nghị năm nay, đàn ông và phụ nữ, người trẻ và cả
người trung niên, trông chẳng khác bất cứ đoàn khách du lịch nào. Nhưng các
cuộc thảo luận say sưa được lấp đầy những tham biến, tính ngẫu nhiên, các hồi
quy và các cụm dữ liệu.
Sự bùng nổ dữ liệu đã nâng cao nhận thức về một nghề trước kia ít được
nhắc đến và có thu nhập thấp, ví dụ như công việc tính toán ước lượng tuổi thọ trung
bình của người mua bảo hiểm.
Cô Grimes, 32 tuổi, nhận bằng tiến sĩ khoa học thống kê của Đại học Stanford
năm 2003 và cuối năm đó cô gia nhập Google. Bây giờ cô là một trong số rất
nhiều chuyên gia thống kê thuộc một nhóm 250 chuyên gia phân tích dữ liệu. Cô
sử dụng các mô hình thống kê để giúp công ty cải tiến công nghệ tìm kiếm.
Một ví dụ, cô Grimes áp dụng một thuật toán cho phần mềm khảo sát của
Google. Phần mềm này liên tục quét khắp Internet để cập nhật các chỉ mục tìm
kiếm cho Google. Thuật toán này giúp giảm số lần phần mềm của Google phải quét
qua các trang web tĩnh.
Mục đích, theo giải thích của Grimes, là để cải thiện chút ít hiệu quả của
việc sử dụng máy tính và mạng. “Mức tăng chỉ 1 hay 2% cũng đã là khổng lồ, khi
nó được áp dụng đến hàng triệu, thậm chí hàng tỷ người đang tìm kiếm trên
Google”.
Quy mô của dữ liệu trên Internet mở ra những thể giới mới để khám phá. Theo
truyền thống, những người hoạt động xã hội theo dõi hành vi đối tượng bằng cách
phỏng vấn hoặc khảo sát. “Nhưng thế giới web cung cấp nguồn dữ liệu lớn kinh
ngạc, giúp theo dõi xem hàng triệu người đã tương tác với nhau như thế nào”,
Jon Kleinberg, nhà khoa học máy tính và nhà nghiên cứu mạng xã hội thuộc ĐH Cornell,
cho biết.
Một ví dụ, trong một nghiên cứu vừa được công bố, ông Kleinberg và hai đồng
nghiệp đã theo dõi các luồng thông tin qua lại trong không gian ảo. Họ theo dõi
1,6 triệu trang web và blog mới trong suốt chiến dịch vận động tranh cử tổng
thống năm 2008, sử dụng các thuật toán để quét ra những cụm từ có liên quan đến
một chủ đề chọn trước.
Và họ đã chỉ ra rằng, nói chung, các phương tiện truyền thông kiểu cũ đăng
thông tin đầu tiên, các blog theo sau, thường là chậm hơn 2,5 giờ. Nhưng một số
ít trường hợp blog đăng thông tin nhanh nhất và thu hút được sự chú ý.
Nguồn dữ liệu Web quá lớn cũng có những mặt trái của nó. Khối lượng lớn dữ
liệu có thể dễ dàng chôn vùi các mô hình thống kê.
Các chuyên gia thống kê cũng cảnh báo những dữ liệu không nhất thiết phản
ánh mối liên hệ giữa nguyên nhân và hậu quả.
“Cuối thập niên 40 của thế kỷ trước, trước khi ra đời vắc-xin chống viêm tủy
sống, các chuyên gia y tế cộng đồng ở Mỹ đã loan báo số ca viêm tủy sống tăng cùng
với nhu cầu sử dụng kem và nước ngọt”, ông David Alan Grier, một sử gia và là một
nhà thống kê thuộc Đại học George Washington, kể lại. “Nó thậm chí còn được
thổi phồng lên rằng các đợt dịch viêm tủy sống hầu hết xảy ra trong những tháng
hè nóng nực, khi mọi người thường ăn nhiều kem hơn. Đó là một sai lầm”.
Quý Đoàn
Theo NY Times