Dữ liệu lớn

SÁCH “DỮ LIỆU LỚN” - GÓC NHÌN VÀ CẢM NHẬN 

Khi tôi ngồi đây và viêt bài cảm nhận sách này thì Sài Gòn của tôi đang bệnh, năm tháng đã trôi qua và số ca Covid-19 vẫn tăng bất chấp, những đứa con của thành phố này đã hy sinh rất nhiều để mong có một ngày “bình thường mới” trở lại. Và cũng thật tình cờ trong những ngày buồn bã này, tôi cầm trên tay cuốn sách này với mở đầu không thể trùng hợp hơn. Quyển sách nói về cách nước Mỹ bên kia đại dương, đã dùng một “công cụ mới” của thời đại 4.0 để dự báo về sự lan rộng của dịch bệnh cúm qua các tiểu bang cách đây nhiều năm hoành hành tại Mỹ. Với điều đặc biệt là họ - công ty Google chứ không phải CDC - tên viết tắt cơ quan kiểm soát và quản lý dịch bệnh ở cả Việt Nam và Mỹ, cũng như số thuốc hay cuộc gọi khám bệnh, mà đó là tất cả - mẫu số N của những… cú nhấp chuột. Tên công cụ cũng chính là tên của quyển sách - “Dữ liệu lớn” đồng tác giả bởi Giáo sư Viktor Mayer-Schönberger và nhà báo khoa học kỳ cựu Kenneth Cukier, bản dịch tiếng Việt thực hiện bởi dịch giả Vũ Duy Mẫn, nhà xuất bản Trẻ ấn hành tháng 3 năm 2014. 

Điểm đầu tiên của quyển sách làm tôi ấn tượng là lối gợi mở tư duy rất kích thích với những ứng dụng khoa học liên tiếp được lặp lại với cùng một kiến giải, sự lặp lại ở từng cá nhân, từng công ty như những điển phạm nghiên cứu (case study) cho ta những gợi mở cực kỳ thú vị về thế giới của Dữ liệu lớn (Big Data). Có thể nói, khi đồng tác giả là một nhà khoa học kết hợp với một nhà báo chuyên về khoa học khám phá thì sự truyền tải kiến thức đến rất tự nhiên, đơn giản bất kể bạn có là kiến thức chuyên môn về kỹ thuật và IT hay không. Nhưng khoan “những tín đồ của khoa học” sẽ không phải thất vọng khi nghĩ rằng dẫn chứng trong đó chắc là những câu chuyện qua loa cốt nói cho vào chủ đề. Khi tua nhanh đến những trang cuối, ta sẽ thấy có đến hàng chục đến cả trăm tài liệu nghiên cứu, tổng hợp gần như tất cả những kiến thức tiêu biểu liên quan đến lĩnh vực Khoa học dữ liệu cho đến thời điểm mà cuốn sách xuất bản. Sự đồ sộ này không hề thua kém bất cứ bài báo khoa học tổng hợp (review paper) nào, và có lẽ đây là cuốn sách đầu tiên mà tôi biết dùng những mã QR code để bạn có thể tìm những video trên Youtube cho từng case study mà các công ty công nghệ và ứng dụng đang thực hiện với dữ liệu lớn, một cách trình bày trực quan và sáng tạo. 

Một bài báo khoa học thường bắt đầu bằng gì? Thực trạng nghiên cứu, đó chính là chương đầu tiên. Thú thật là quyển sách sẽ làm chúng ta choáng ngợp bởi sự bao vây của dữ liệu quanh chúng ta và cách mà những công ty, cá nhân xây dựng chúng thành “lớn” - N mẫu chung cũng tức là khai thác tất cả, lấy hết những yếu tố có thể nhất để trả lời cho câu hỏi cái gì chứ không phải tại sao. Hai cụm từ in đậm này bạn sẽ thấy lặp đi lặp lại trong suốt quyển sách như sự đấu tranh của hai học thuyết tương quan và nhân quả, mà trong đó những điển phạm sẽ chỉ cho ta thấy tương quan với kết quả trả lời cho câu hỏi cái gì đang chi phối chúng ta như thế nào. Nhấp chuột trên một trang web mua sắm, ta đâu cần lý do để chọn một quyển sách tiểu thuyết và chọn một cuốn khác có vẻ hay hay về máy bay, cũng không thể hiểu vì sao trước mỗi cơn bão người ta hay chọn một loại thức ăn nhẹ bên cạnh dù hay áo mưa, bởi vì “tiếng leng keng của máy tính tiền” vang lên mới là điều “người ta” thực sự quan tâm, “biết cái gì là đủ tốt rồi”. Và “người ta” ở đây là ai - những công ty thương mại điện tử, bán hàng (Walmart, Target…) và không có gì ngạc nhiên, nhà thông thái ảo phổ biến nhất (và hình như là duy nhất) trong thời hiện đại của chúng ta - Google, nơi thu giữ là hàng tỷ cú click chuột được thực hiện hằng ngày từ ngần như cả thế giới trong đó chắc chắn có bạn và tôi.

Và đây như những ai từng làm báo cáo khoa học hay luận văn tốt nghiệp sẽ không bao giờ quên những tháng ngày miệt mài đọc những tài liệu nghiên cứu, những bài báo để trích dẫn cho mục “Literature Review” mà mình sẽ áp dụng. Tác giả cho chúng ta cái nhìn khái quát dữ liệu về khát vọng, về việc ghi chép và phân tích của con người từ thuở xa xưa khi những hang đá với những hình vẽ cố gắng mô tả thế giới dữ dội ngoài kia, đến những bước tiến xa hơn của chữ viết và kỹ thuật in ấn. Ta thấy rằng dữ liệu của buổi đầu vốn rất hữu hạn, chính vì vậy nó bị bao phủ bởi thần quyền và thế quyền cố gắng giải thích cho cái gì và tại sao trong cuộc sống hằng ngày, thậm chí là phi thực tế. Nhưng con người luôn “tư duy” để “tồn tại”, càng nhiều dữ liệu hơn tích lũy, con người đã dùng để “đo cả thế giới”, để phá bỏ những điều lệ cũ. Nếu những ứng dụng đầu tiên trong việc phân tích dữ liệu như của người lính trẻ Maury vẽ bản đồ hàng hải thế giới, xảy ra như những phát súng tình cờ, khi con người vì hoàn cảnh được ngồi trên hàng đống tài liệu ghi chép mà người ta xem như phế liệu. Thì khi “có sự thay đổi về lượng sẽ dẫn đến sự tiến bộ về chất” - câu nói kinh điển của chủ nghĩa Mác thực sự đã ứng nghiệm. Internet, mạng xã hội, đã khiến dữ liệu xuất hiện ngày một nhiều hơn và đến một ngày chúng đột nhiên cất tiếng... “nói”. 

Tiếng “nói” đó được cất lên từ những điều lộn xộn, ngẫu nhiên, vang lên từ khắp mọi nơi của cái “thế giới náo nhiệt, hỗn loạn và không thể hiểu nổi này”, chính vì vậy nó không thể chính xác tuyệt đối, nó chỉ dừng lại ở những phần trăm dự đoán và những tiên lượng đúng sai đều có thể xảy ra. Nhưng tiếng nói đó lại rất thường khi là điều bất ngờ, (đôi khi làm chúng ta giật mình) vì với những kiến thức hiện tại (hình thành nên từ những lý thuyết) chúng ta chưa thể hay không thể giải thích, song lại làm chúng ta thích thú và nâng cao hiệu quả làm việc của chúng ta hơn. Thậm chí đã có những nhận định cực đoan rằng “lý thuyết sẽ biến mất chỉ dữ liệu lớn thôi là đủ”, nhưng để có những dự đoán ấy bản thân dữ liệu lớn vẫn cần dùng những lý thuyết xác suất, thống kê và môn học “đáng nhớ” này với những ai đã từng trải qua dưới giảng đường đại học, sẽ là những lý thuyết cơ bản của một thế giới tương lai khi dữ liệu lớn đủ để trở thành thế lực tiếp nối thần quyền, thế quyền và dân quyền chi phối chúng ta. 

Và như một điều hiển nhiên, tiếng “nói” đó sẽ ngày một lớn lên cùng với phương tiện lưu trữ, khi ngày xưa chỉ 4 Kilobyte bộ nhớ có thể hướng dẫn cả tàu vũ trụ Appolo 11 đến được mặt trăng, thì ngày nay chiếc máy tính mà tôi đang dùng đã có bộ nhớ 01 Tetrabyte, tức là gấp hàng trăm tỳ lần. Rẻ hơn trong lưu trữ, nhiều hơn về số lượng, tiếng “nói” sẽ ngày càng lớn hơn, hiệu quả hơn và điều đáng buồn là nó không an toàn nữa bởi rủi ro là nó sẽ lất át những giá trị, năng lực của con người. Trong đó những nhà thống kê, toán học sẽ thay thế vai trò của những chủ tế mà không may là “vật hiến tế” chính là chúng ta - con người với năng lực và ý chí. Một viễn cảnh đáng sợ được tác giả khắc họa khi dữ liệu đóng vai trò quyết định vận mạng con người qua việc dự đoán hành vi, kết tội ngay cả khi ta chưa thực hiện, với cơ sở là những dấu hiệu “có thể”. Những hình thức “độc tài dữ liệu” xuất hiện khi những gã khổng lồ công nghệ hay những quốc gia sở hữu chúng cứ phình to ra, và nắm cả thế giới hòng bóp nghẹt và can thiệp thô bạo vào quyền riêng tư, “bản chất cốt lõi nhất của nhân loại: hợp lý trong suy nghĩ và tự do trong lựa chọn”. Đó là những gợi mở và cảnh báo, khi khoa học vốn dĩ đều có mục đích tốt xấu, tùy bản thân người sử dụng chúng và tác giả không hề che dấu những mặt tối sau lưng mà dữ liệu lớn nếu được khai thác không đúng cách có thể tác động ngược lại cuộc sống của chúng ta. Nguy cơ là hiển hiện nhưng cũng đã có những biện pháp, sự minh bạch, tiêu chuẩn rõ ràng và dưới sự điều hành hiệu quả của nhà nước phần nào cho chúng ta cái nhìn yên tâm hơn. 

Cái kết của cuốn sách thực sự làm tôi xúc động bởi trên hết những đặc điểm kỹ thuật, lý luận khoa học, ứng dụng kinh doanh, kể cả dự đoán tương lai dù đen tối hay tươi sáng cho môn khoa học mới này thì thứ đọng lại cuối cùng lại chính là chúng ta - con người. Dữ liệu lớn có thể nói gì cho Henry Ford về nhu cầu của khách hàng và giao thông của nước Mỹ ở thời của ông “cần nhiều ngựa hơn” hay Steve Jobs của thời đại chúng ta về điện thoại thông minh. Chúng là nguồn lực và công cụ cho một thời đại mới, chúng thông báo (thay vì giải thích), cho chúng ta những hiểu biết thú vị (và có thể kèm theo những sai lầm). Nhưng chúng không thể nói cho Jobs biết về những cú lướt và chạm ngón tay vào màn hình cảm ứng, hay chính xác hơn chúng không thể thay thế cho “sự sáng tạo, trực giác và tham vọng tri thức - bởi vì tài khéo léo của chúng ta mới là nguồn gốc cho sự tiến bộ của nhân loại”. 

Tiếng hô hào đó vang lên trong một quyển sách khoa học như một điểm sáng cho chúng ta có động lực nhìn về phía trước, về sức mạnh để kiểm soát sự hỗn độn của tự nhiên mà thông tin hay dịch bệnh Covid-19 chỉ là một trong số đó. Đây chính là điều mà thời đại, đất nước đang cần và cũng chính là lý do mà tôi chọn review quyển sách này, với hy vọng rằng quyển sách này sẽ được các bạn đọc quan tâm chia sẻ, giúp cho phần nào ươm những hạt mầm cho “tư duy dữ liệu lớn” ở Việt Nam.  

Bài cảm nhận của tác giả Diệp Nam Anh, sinh viên K18 đến từ Khoa Cơ Khí.

Dữ liệu lớn

Bình luận của bạn
*
*
*
*
 Captcha

Logo Bottom

Địa chỉ: 268 Lý Thường Kiệt, P.14, Q.10, TP.HCM           Tel: 38647256 ext. 5419, 5420           Email: thuvien@hcmut.edu.vn

Thiết kế website Webso.vn