Tomorrow Marketers – Chúng ta đã nghe nói quá nhiều về Cuộc Cách Mạng 4.0, nhưng bản chất của nó thực sự là gì?
Nếu 4.0 là thuật ngữ mà bạn đang muốn tìm hiểu, thì đừng bỏ qua khái niệm “Dữ liệu lớn”. Trong bài viết dưới đây, Tomorrow Marketers sẽ giúp bạn điểm qua những ý chính của cuốn sách “Dữ liệu lớn – Cuộc cách mạng làm thay đổi cách chúng ta sống, làm việc và suy nghĩ” – cùng những tiết lộ, khám phá về xu thế nóng nhất trong công nghệ hiện nay và những ảnh hưởng mạnh mẽ của nó đối với nền kinh tế, khoa học và xã hội nói chung.
Một.
Làm thế nào các cơ quan chức năng có thể định vị, dò tìm được các hố ga nguy hiểm nhất của thành phố New York trước khi chúng phát nổ? Làm thế nào các tìm kiếm của Google có thể dự đoán sự lây lan của dịch cúm H1N1?
Chìa khóa để trả lời những câu hỏi này, và nhiều câu hỏi hơn nữa, là dữ liệu lớn. Dữ liệu lớn đề cập đến việc chúng ta có thể thu thập một lượng thông tin khổng lồ, phân tích nó theo thời gian thực, từ đó rút ra được những kết luận đáng ngạc nhiên từ lượng thông tin đó. Ngành khoa học mới nổi này có thể “phiên dịch” vô số sự vật/ sự việc – từ mức giá của các loại vé máy bay, lượng chữ trong hàng triệu cuốn sách… – thành một định dạng có-thể-tìm-kiếm-được, sau đó sử dụng sức mạnh tính toán của máy móc để khai quật những thứ chúng ta chưa từng thấy trước đây. Giống như sự xuất hiện của Internet vài thập kỉ trước, Dữ liệu lớn sẽ sớm trở thành “cuộc cách mạng” thay đổi cách chúng ta nghĩ về kinh doanh, y tế, chính trị, giáo dục… Nó cũng đặt ra những mối đe dọa mới – sự chấm dứt của “tự do ý chí” và quyền riêng tư, viễn cảnh bị “phạt” vì những điều chúng ta chưa từng thực hiện – tất cả những mối đe doạ đó đều dựa trên khả năng dữ liệu lớn dự đoán hành vi trong tương lai của chúng ta.
Trong cuốn sách xuất sắc này, tác giả sẽ giải thích dữ liệu lớn là gì, chúng sẽ thay đổi cuộc sống của chúng ta ra sao, và chúng ta có thể làm gì để bảo vệ bản thân khỏi những mối nguy hiểm từ dữ liệu lớn.
Hai.
Trong một bài báo trên tạp chí Nature, Google đã khẳng định rằng họ có thể dự đoán mức độ lây lan của dịch cúm, bằng cách phân tích 50 triệu từ khóa tìm kiếm và áp dụng 450 triệu mô hình toán học khác nhau. Vào năm 2009, mô hình của họ đã đưa ra những dự đoán nhanh chóng và chính xác hơn số liệu của chính phủ. Bằng cách nào?
Google nhận được hơn ba tỷ câu hỏi tìm kiếm mỗi ngày và lưu giữ tất cả chúng – không sót một tìm kiếm nào. Và ý tưởng ở đây là Google sẽ xác định các khu vực bị lây nhiễm vi-rút cảm thông qua những gì người ta tìm kiếm trên Internet – rằng nơi nào có mật độ người dùng tìm kiếm những cụm từ như “thuốc ho”, “triệu chứng cảm”, “điều trị sốt”,.. thì khả năng cao cúm đang lây lan đến khu vực đó. Trung tâm phòng chống Bệnh Dịch có thể mất từ 1 đến 2 tuần để nhận được các báo cáo đầy đủ từ cấp tiểu bang về hồ sơ và tình trạng khu vực để dự đoán, nhưng Google thì hầu như có thể biết được điều này trong thời gian thực.
Bản chất cốt lõi của dữ liệu lớn là các dự đoán, các dự đoán này áp dụng toán học với số lượng lớn dữ liệu để suy ra xác suất: xác suất một email là thư rác, các kí tự gõ “teh” phải là “the”… Các hệ thống này thao tác tốt, bởi chúng được nạp rất nhiều dữ liệu làm cơ sở cho dự đoán, và chúng được thiết kế để tự cải thiện khả năng dự đoán theo thời gian.
Dữ liệu lớn tạo ra 3 sự thay đổi trong tư duy, trong cách chúng ta phân tích thông tin:
- Thứ nhất, sử dụng tất cả dữ liệu thay vì chỉ một phần nhỏ của nó.
- Thứ hai, sẵn sàng đón nhận sự hỗn độn trong thế giới thực của dữ liệu thay vì đòi hỏi tính chính xác
- Thứ ba, tôn trọng các mối tương quan thay vì tiếp tục truy tìm nhân quả
1. Cải thiện khả năng ra quyết định khi sử dụng tất cả dữ liệu thay vì chỉ một phần nhỏ của nó.
Dữ liệu lớn sẽ trở thành cơ chế mặc định khi đưa ra quyết định bởi nó giúp gia tăng tính chính xác và giảm những yếu tổ ảnh hưởng không cần thiết. Eric Brynjolfsen tại trường đại học MIT Sloan phát hiện ra rằng các công ty đưa ra quyết định dựa trên dữ liệu có năng suất cao hơn 6% do với các công ty không làm như vậy.
Trước đây, chúng ta chỉ có thể thu thập dữ liệu trên những mẫu nhỏ, bởi ngay cả việc thu thập xong mẫu “nhỏ” này đã là một nhiệm vụ khó khăn, chưa kể tới việc phân tích chúng. Chính việc sàng lọc thông tin, chỉ giữ lại mức tối thiểu để khảo sát dễ dàng, đã dẫn tới sự sai lệch trong thống kê. Chúng ta sử dụng khoa học thống kê để đưa ra kết luận, nhưng lại bằng cách sử dụng lượng dữ liệu ít nhất. Mặt khác, sử dụng tất cả dữ liệu sẽ cho phép phát hiện các kết nối và chi tiết mà bình thường sẽ bị che giấu trong sự bao la của thông tin. Ví dụ, để phát hiện các vụ gian lận thẻ tín dụng, hệ thống cần tìm kiếm những dữ liệu bất thường, và cách tốt nhất để tìm ra chúng là nghiền tất cả dữ liệu thay vì một mẫu.
Xoom là một công ty chuyên về chuyển tiền quốc tế và được hỗ trợ bởi những tên tuổi lớn trong lĩnh vực dữ liệu lớn. Hệ thống của Xoom phân tích tất cả dữ liệu liên quan tới các giao dịch mà nó xử lý. Hệ thống tăng mức báo động vào năm 2011, khi hệ thống nhận thấy một số lượng giao dịch thẻ Discovery có nguồn gốc từ New Jersey hơi cao hơn một chút so với trung bình. “Một mô hình đáng ra không được như vậy”- Giám đốc điều hành của Xoom giải thích. Xét riêng thì mỗi giao dịch có vẻ hợp pháp, nhưng cuối cùng thì hoá ra chúng đến từ một nhóm tội phạm. Cách duy nhất để phát hiện sự bất thường là khảo sát tất cả dữ liệu – việc lấy mẫu có thể đã bỏ sót nó.
2. Bản chất lộn xộn của dữ liệu
Dữ liệu lớn là một mớ lộn xộn và không hoàn chỉnh (chỉ khoảng 5% toàn bộ các dữ liệu hiện nay được sắp xếp). Nhưng chính quy mô khổng lồ của dữ liệu đã giúp nó bù đắp tính lộn xộn này. Ví dụ, trong một khu vườn trồng nho để nấu rượu, người ta muốn biết nhiệt độ trong khu vườn trong một tháng. Việc đo lường nhiệt độ mỗi ngày một lần với 01 chiếc cảm biến sẽ thiếu chính xác hơn nhiều so với 100 chiếc cảm biến đo lường mỗi 24 giờ. (Việc đo lường từng phút một, với 100 chiếc cảm biến chắc chắn sẽ đem lại một mớ số liệu lộn xộn, nhưng chính sự dồi dào số liệu này lại mang lại tính chính xác cao hơn so với việc chỉ đo 1 lần).
Manhattan có khoảng 94,000 dặm dây cáp ngầm với 51,000 nắp cống. Đôi khi những cái nắp cống nặng 300 pound này bất ngờ phát nổ, bắn lên không trung với độ cao tương đương một vài tầng nhà rồi lao xuống đất. Thành phố muốn tìm ra cách thức dự đoán những cái nắp nào dễ phát nổ nhất. Những dữ liệu có được rất lộn xộn, trong đó có những ghi chép từ năm 1880 và các kĩ sư thì không tuân theo một cách thức ghi chép nào cả. Thông qua việc phân tích các dòng dữ liệu khác nhau, họ đã xác định được những yếu tố chủ chốt có liên quan tới các vụ nổ, từ đó tập trung nỗ lực vào các khu vực trọng yếu nhất.
3. Không phải mối tương quan nào cũng là quan hệ nhân quả
Các dữ liệu chỉ đưa ra hiện tượng, nhưng không thể giải thích được hiện tượng đó. Dữ liệu lớn chỉ ra “cái gì”, nhưng không chỉ ra “vì sao”. Cách thức xử lý thông tin của con người còn rất thiếu sót và chúng ta thường nhìn ra các mối quan hệ nhân quả – ngay cả khi chúng không tồn tại. Bằng cách giải phóng bản thân khỏi việc cố gắng hình thành các mối quan hệ nhân quả, chúng ta có thể nhìn nhận dữ liệu một cách rõ ràng hơn, cho phép dữ liệu tự bộc lộ bản chất của nó. Từ đó, chúng ta có thể phát hiện ra những mối tương quan, ngay cả khi chúng ta không chủ động tìm kiếm chúng.
Minh chứng cho luận điểm này, hãy xem xét ví dụ về ý tưởng của Amazon. Jeff Bezos, nhà sáng lập Amazon đã thử nghiệm một ý tưởng: Liệu công ty có thể giới thiệu những cuốn sách cụ thể cho khách hàng dựa trên những sở thích mua sắm riêng biệt của họ? Amazon có rất nhiều dữ liệu của khách hàng: những cuốn sách nào họ đã mua, những quyển nào chỉ nhìn nhưng không mua, họ nhìn chúng bao lâu, và những cuốn sách nào họ đã mua cùng nhau. Dựa vào dữ liệu đó, Amazon tạo ra một hệ thống khuyến nghị (recommend) dựa theo item mà bạn đã mua trước đó. Amazon không quan tâm vì sao khách hàng mua quyển A của Ernest Hemingway cũng có thể muốn mua quyển B của F.Scott Fitzgerald, nhưng bởi vì dữ liệu nói rằng 1000 khách hàng mua quyển A có thể sẽ mua quyển B, vì vậy nên Amazon giới thiệu quyển B cho bạn. Và số liệu thì không bao giờ nói dối. Ngày nay, tương tự như cách làm của Amazon, hàng ngàn trang web có thể giới thiệu sản phẩm, nội dung, bạn bè cho bạn mà không cần biết lý do vì sao bạn lại có thể quan tâm đến chúng.
Trong một ví dụ khác, Albert-Laszlo phân tích 1/5 số lượng cuộc gọi điện thoại trên cả nước trong vòng 4 tháng. Ông phát hiện ra rằng những người có nhiều mối quan hệ lại không phải là người kết nối các nhóm với nhau, nhưng chính những người ở rìa ngoài của nhóm mới là nhân vật chủ chốt khi truyền tải thông tin trên một mạng lưới. (Nếu theo cách hiểu thông thường, chúng ta sẽ tự cho là những người có càng nhiều mối quan hệ thì càng dễ kết nối các nhóm khác nhau. Thế nhưng dữ liệu lại cho thấy điều ngược lại. Dữ liệu không giải thích vì sao những người ở rìa ngoài nhóm lại có khả năng này, nó chỉ đơn giản là cho chúng ta biết hiện tượng này tồn tại. Từ đó chúng ta phát hiện ra mối tương quan giữa người ở rìa ngoài nhóm và khả năng kết nối các nhóm với nhau – mối tương quan mà chúng ta sẽ không phát hiện ra nếu cứ giữ nguyên cách nhìn nhận nhân quả trước đây – chú thích của người dịch).
Ba.
Sự lên ngôi của Dữ liệu hoá
Dữ liệu hóa là việc khai thác dữ liệu từ những nguồn tưởng chừng bất khả thi. Ngày nay hầu hết mọi thứ đều có thể được dữ liệu hóa. Vào năm 2009 Apple đã được trao bằng sáng chế cho việc thu thập nồng độ ô-xi trong máu, nhịp tim và nhiệt độ cơ thể từ tai nghe kết nối với iPhone. Google đang “dữ liệu hóa” những từ ngữ viết trên các văn bản được scan. Culturomics, một bộ môn nghiên cứu văn hóa bằng văn chương đã được ra đời từ đây. Bằng cách dữ liệu hóa các văn bản, chúng ta có thể hiểu được các từ ngữ được sử dụng nhiều nhất trong một thời đại nào đó, các từ đó được sử dụng lần đầu khi nào và sắc thái ý nghĩa của nó khi đó. Chỉ khi biến những trang giấy in thành dạng dữ liệu, chúng ta mới có thể tiếp cận với những giá trị này.
Con người và các mối quan hệ của họ cũng có thể được dữ liệu hóa. Chức năng “like” của Facebook đã dữ liệu hóa tình cảm của con người. Facebook có khoảng 1 tỉ người dùng, đại diện cho 10% dân số thế giới. Không có một nguồn dữ liệu nào chứa nhiều thông tin về các mối quan hệ cá nhân đến vậy. Mặc dù Facebook rất thận trọng trong việc khai thác các dữ liệu này, nhưng các thông tin mà họ nắm giữ sẽ giúp chúng ta thấu hiểu tốt hơn về con người, mối quan hệ và xã hội.
Dữ liệu hoá là những gì đang diễn ra mỗi ngày hiện nay. Chúng ta lấy thông tin về tất cả mọi thứ – bao gồm cả những thứ chúng ta không bao giờ xem là thông tin – và biến nó thành định dạng dữ liệu để thực hiện định lượng nó. Điều này cho phép chúng ta sử dụng thông tin theo những cách mới, và chúng ta có thể bẻ khoá những giá trị tiềm ẩn bên trong của thông tin. Một cuộc đua truy lùng kho báu đang diễn ra. Mỗi bộ dữ liệu riêng lẻ rất có thể có giá trị nào đó chưa được khai phá, và cuộc đua ở đây là để khám phá và nắm bắt tất cả những thứ đó.
Đọc thêm: Mặt tối của dữ liệu lớn – Sự tự do ý chí biến mất
Kết
Mọi tiến bộ về mặt công nghệ đều có khía cạnh tích cực và tiêu cực, dữ liệu lớn dĩ nhiên không nằm ngoài quy luật này. Điều quan trọng với mỗi cá nhân chúng ta chính là khả năng thích nghi với những thay đổi sắp tới, nắm vững bản chất của dữ liệu lớn và những ảnh hưởng mà nó có thể mang lại.