Chương 6: Dữ liệu là nguồn tài nguyên mới

Hal Varian, nhà kinh tế trưởng tại Google, học theo cách nói của Robert Goizueta tại Coca-Cola, đã từng phát biểu năm 2013, "Một tỉ giờ trước, loài người hiện đại xuất hiện. Một tỉ phút trước, Cơ đốc giáo bắt đầu. Một tỉ giây trước, chiếc máy tính cá nhân IBM ra mắt. Một tỉ tìm kiếm trên Google ... là sáng hôm nay." Google không phải là công ty duy nhất có lượng dữ liệu khổng lồ. Từ những công ty lớn như Facebook và Microsoft đến chính quyền địa phương và công ty khởi nghiệp, việc thu thập dữ liệu ngày càng rẻ hơn và dễ hơn bao giờ hết. Dữ liệu này có giá trị. Hàng tỉ tìm kiếm nghĩa là hàng tỉ dòng dữ liệu mà Google có thể khai thác để cải thiện dịch vụ. Có người đã nói dữ liệu chính là "nguồn dầu mỏ" của thời đại mới.

Cỗ máy dự đoán lệ thuộc vào dữ liệu. Dữ liệu nhiều và tốt sẽ giúp đưa ra dự đoán tốt hơn. Nói theo ngôn ngữ kinh tế học, dữ liệu là thành tố chủ chốt trong dự đoán. Nó càng giá trị hơn khi dự đoán ngày càng rẻ.

Trong AI, dữ liệu có 3 vai trò. Thứ nhất là dữ liệu đầu vào, được đưa vào thuật toán để cho ra dự đoán. Thứ hai là dữ liệu huấn luyện, được dùng để tạo ra thuật toán ngay từ đầu. Dữ liệu huấn luyện được dùng để đào tạo AI đủ sức dự đoán không theo khuôn khổ. Cuối cùng, là dữ liệu phản hồi, được dùng để cải thiện kết quả của thuật toán từ kinh nghiệm. Trong một số trường hợp, đôi khi cùng một dữ liệu có thể đáp ứng được cả ba vai trò.

Nhưng thu thập dữ liệu cũng khá tốn kém. Do đó, người ta phải đưa ra quyết định đầu tư có sự đánh đổi giữa lợi ích của việc có thêm dữ liệu và chi phí thu thập dữ liệu. Để ra quyết định đúng đắn, bạn cần phải hiểu các cỗ máy dự đoán sử dụng dữ liệu như thế nào.

Dự đoán cần có dữ liệu

Trước khi có sự hào hứng với AI như hiện nay, thì đã có sự nhiệt tình với dữ liệu lớn. Sự đa dạng, số lượng, chất lượng của dữ liệu đã gia tăng đáng kể trong vòng 20 năm qua. Hình ảnh và văn bản hiện nay đã được lưu trữ kỹ thuật số, nên máy có thể phân tích chúng. Cảm biến có ở khắp nơi. Sự hào hứng xuất phát từ niềm tin rằng dữ liệu có thể giúp người ta giảm bớt sự không chắc chắn và biết thêm về những gì đang xảy ra.

Thử xem qua trường hợp cảm biến đã được cải tiến để theo dõi nhịp tim. Nhiều công ty và tổ chức phi lợi nhuận mang những cái tên đầy y thuật như Oura, AliveCor, Cardiio đang tạo ra nhiều sản phẩm khai thác dữ liệu nhịp tim. Ví dụ, công ty khởi nghiệp Cardiogram có một ứng dụng trên iPhone sử dụng dữ liệu nhịp tim từ đồng hồ Apple để tạo sinh một lượng lớn thông tin: đo nhịp tim theo từng giây cho người sử dụng ứng dụng. Người dùng có thể theo dõi xem nhịp tim của họ lên xuống như thế nào trong vòng một ngày, so sánh nhịp tim tăng hay giảm sau một năm, hay thậm chí là sau 10 năm.

Nhưng sức mạnh tiềm năng của những sản phẩm này chính là từ việc kết hợp dữ liệu phong phú với cỗ máy dự đoán. Cả hai nhóm nghiên cứu học thuật và thương mại đều cho thấy điện thoại thông minh có thể dự đoán nhịp tim bất thường (hay còn gọi là rung tâm nhĩ). Bằng những cỗ máy dự đoán, các sản phẩm như Cardiogram, Oura, AliveCor, Cardiio, và nhiều công ty khác đang sử dụng dữ liệu nhịp tim để dự đoán thông tin chưa biết liệu một người dùng nào đó gặp phải nhịp tim bất thường.

Dữ liệu đầu vào là cần thiết để vận hành cỗ máy dự đoán. Do cỗ máy dự đoán không thể nào hoạt động nếu không có dữ liệu đầu vào, chúng ta quen gọi đơn giản là dữ liệu, để phân biệt với dữ liệu huấn luyện và dữ liệu phản hồi.

Người tiêu dùng không có chuyên môn không thể thấy được mối liên hệ giữa dữ liệu nhịp tim và nhịp tim bất thường trong dữ liệu thô. Trong khi đó, Cardiogram có thể phát hiện nhịp tim bất thường với độ chính xác là 97% bằng mạng lưới thần kinh sâu của nó. Những bất thường này là nguyên nhân gây ra 25% những ca đột quỵ. Nhờ có dự đoán tốt hơn, bác sĩ có thể đưa ra phương pháp điều trị tốt hơn. Một số loại thuốc có thể ngăn ngừa đột quỵ.

Để làm được như thế thì người dùng phải cung cấp dữ liệu nhịp tim của họ. Nếu không có dữ liệu cá nhân, máy móc cũng không thể dự đoán rủi ro của người đó. Sự kết hợp giữa cỗ máy dự đoán và dữ liệu cá nhân mới tạo ra dự đoán khả năng người đó rơi vào tình trạng nhịp tim bất thường.

Máy học từ dữ liệu như thế nào

Thế hệ công nghệ AI hiện tại được gọi là "học máy" cũng có lý do của nó. Máy học từ dữ liệu. Ví dụ như trường hợp theo dõi nhịp tim, để dự đoán một nhịp tim bất thường (và nguy cơ gặp đột quỵ) từ dữ liệu nhịp tim, cỗ máy dự đoán phải học được mối tương quan giữa dữ liệu đó với những trường hợp thực tế có nhịp tim bất thường. Để làm được như thế, cỗ máy dự đoán cần kết hợp dữ liệu đầu vào từ đồng hồ Apple – mà các nhà thống kê học gọi là "biến độc lập" – với thông tin về nhịp tim bất thường ("biến phụ thuộc").

Để máy học, thông tin về nhịp tim bất thường phải đến từ cùng một nhóm người cung cấp dữ liệu nhịp tim bằng đồng hồ Apple. Như vậy, cỗ máy dự đoán cần dữ liệu nhịp tim từ nhiều người có nhịp tim bất thường. Quan trọng hơn, nó cũng cần có dữ liệu nhịp tim từ nhiều người không có nhịp tim bất thường. Máy dự đoán sau đó sẽ so sánh kiểu nhịp tim của hai nhóm người có nhịp tim bình thường và bất thường. Sự so sánh này là cơ sở để đưa ra dự đoán. Nếu kiểu nhịp tim của bệnh nhân trước mắt giống bên phía mẫu "đào tạo" của nhóm người có nhịp tim bất thường, thì cỗ máy dự đoán cho ra kết quả là bệnh nhân này có nhịp tim bất thường.

Cardiogram, cũng như các ứng dụng y khoa khác, thu thập dữ liệu và hợp tác với những nhà nghiên cứu theo dõi 6.000 người dùng. Trong số 6.000 người này, có khoảng 200 người đã từng được chẩn đoán có nhịp tim bất thường. Như vậy, Cardiogram chỉ việc thu thập và so sánh dữ liệu về kiểu nhịp tim từ Apple Watch.

Những sản phẩm này vẫn tiếp tục cải thiện độ chính xác của dự đoán sau khi ứng dụng được giới thiệu với người dùng. Cỗ máy dự đoán cần dữ liệu phản hồi để biết được kết quả dự đoán của nó có chính xác hay không. Vì vậy, nó cần dữ liệu về thực tế những lần nhịp tim bất thường xảy ra đối với người dùng. Máy kết hợp dữ liệu này với dữ liệu đầu vào theo dõi nhịp tim để tạo sinh phản hồi, liên tục cải thiện độ chính xác của dự đoán.

Tuy nhiên, việc thu thập dữ liệu đào tạo có thể gặp thách thức. Để dự đoán một nhóm hạng mục giống nhau (trong trường hợp này là các bệnh nhân bệnh tim), bạn cần thông tin về kết quả được quan tâm (nhịp tim bất thường), kèm theo đó là thông tin về những thứ khác có tác dụng đóng góp cho việc dự đoán kết quả này trong bối cảnh khác (theo dõi nhịp tim).

Điều này đặc biệc thách thức khi dự đoán về một sự kiện trong tương lai. Cỗ máy dự đoán chỉ nhận được thông tin đã biết tại thời điểm bạn muốn dự đoán. Ví dụ, giả sử bạn muốn mua vé trước toàn bộ mùa giải cho đội bóng yêu thích của mình vào năm sau. Tại Toronto, đó chính là đội bóng khúc côn cầu Toronto Maple Leafs. Bạn thích đi xem trận đấu nào mà đội yêu thích của mình chiến thắng, không thích phải ủng hộ một đội thua. Bạn dự tính giá vé chỉ đáng tiền nếu đội bóng của bạn có kết quả thắng ít nhất một nửa số trận trong mùa sau. Để ra quyết định mua vé, bạn cần dự đoán số trận thắng của họ.

Trong môn khúc côn cầu trên băng, đội nào ghi được nhiều bàn hơn thì đội đó thắng. Như vậy, đội ghi được nhiều bàn thì thường là đội thắng, đội nào ghi được ít bàn thì thường là đội thua. Bạn quyết định cung cấp cho cỗ máy dự đoán dữ liệu ghi bàn trong mùa trước của các đội, bàn thắng trong từng trận đối đầu, và số lượt trận thắng của từng đội. Bạn đưa thông tin này vào cỗ máy dự đoán và nhận thấy đây quả thực là biến số hoàn hảo để dự đoán số lượt trận thắng. Và như vậy bạn sẵn sàng dùng thông tin này để dự đoán lượt trận thắng trong mùa sau.

Nhưng bạn không thể. Bạn bị kẹt cứng. Bạn không có thông tin về số bàn thắng của các đội trong năm sau. Do đó, bạn không thể sử dụng dữ liệu đó để dự đoán số lượt trận thắng. Bạn có dữ liệu số bàn thắng của mùa trước, nhưng như vậy không đủ vì bạn đào tạo cỗ máy dự đoán sử dụng dữ liệu của năm nay.

Để dự đoán, bạn cần biết dữ liệu trong tay ngay lúc bạn đưa ra dự đoán. Bạn có thể đào tạo lại cỗ máy dự đoán sử dụng số bàn thắng của mùa trước để dự đoán lượt trận thắng của mùa này. Bạn có thể sử dụng những thông tin khác như lượt trận thắng trong mùa trước hay độ tuổi của cầu thủ trong đội và kết quả thi đấu của từng người trên sân băng.

Nhiều ứng dụng AI thương mại có cấu trúc này: kết hợp nhiều dữ liệu đầu vào và tương quan kết quả để thiết lập cỗ máy dự đoán, và sau đó dùng dữ liệu đầu vào từ bối cảnh mới để dự đoán kết quả cho bối cảnh đó. Nếu bạn có thể thu thập dữ liệu từ kết quả dự đoán, cỗ máy của bạn có thể liên tục học tập thông qua phản hồi.

Quyết định về dữ liệu

Việc thu thập dữ liệu thường tốn kém, nhưng cỗ máy dự đoán không thể hoạt động mà không có dữ liệu. Chúng cần dữ liệu để thiết lập, vận hành, và cải thiện.

Do đó, bạn phải ra quyết định liên quan đến quy mô và phạm vi thu thập dữ liệu. Bạn cần bao nhiêu loại dữ liệu khác nhau? Bạn cần bao nhiêu đối tượng để đào tạo? Mức độ thường xuyên thu thập dữ liệu là như thế nào? Càng nhiều loại, càng nhiều đối tượng, càng thường xuyên thì chi phí càng cao, nhưng khả năng là lợi ích càng lớn. Để đưa ra quyết định này, bạn phải thật cẩn thận xác định bạn muốn dự đoán điều gì. Yêu cầu dự đoán cụ thể sẽ nói cho bạn biết bạn cần dữ liệu gì.

Cardiogram muốn dự đoán nguy cơ đột quỵ. Nó sử dụng nhịp tim bất thường như một biến số đại diện (đã được chứng thực về mặt y học). Một khi đã xác định được mục tiêu cần dự đoán, nó chỉ cần có dữ liệu nhịp tim của những người sử dụng ứng dụng. Nó cũng có thể dùng đến thông tin về giấc ngủ, lượng vận động, lịch sử gia đình, tiền sử bệnh, và tuổi. Sau khi đặt một số câu hỏi để thu thập tuổi và các thông tin khác, nó chỉ cần một dụng cụ thật tốt để đo lường nhịp tim.

Cardiogram cũng cần dữ liệu để đào tạo – trong số 6.000 người cung cấp dữ liệu đào tạo, có một nhóm có nhịp tim bất thường. Mặc dù có rất nhiều cảm biến và rất nhiều thông tin chi tiết có thể thu thập từ người dùng, Cardiogram cũng chỉ cần một lượng thông tin ít ỏi từ hầu hết người dùng. Và nó cũng chỉ cần được truy cập thông tin nhịp tim bất thường trong nhóm người đang sử dụng để đào tạo cho AI. Như vậy, lượng biến số là tương đối ít.

Để đưa ra dự đoán tốt, cỗ máy phải có đủ cá thể (hay đơn vị phân tích) trong tệp dữ liệu đào tạo. Số lượng cá thể còn tùy vào hai yếu tố: thứ nhất, độ tin cậy của "tín hiệu" so với "tiếng ồn," và thứ hai, độ chính xác của dự đoán để cho kết quả có ý nghĩa. Nói cách khác, số người làm mẫu cần thiết tùy thuộc vào việc chúng ta cảm thấy nhịp tim có mối tương quan mạnh mẽ hay lỏng lẻo với nhịp tim bất thường, và cái giá phải trả nếu phạm sai lầm trong dự đoán. Nếu nhịp tim là yếu tố dự đoán tốt và sai lầm không gây nguy hiểm lớn, thì chúng ta chỉ cần ít người. Nếu nhịp tim là yếu tố dự đoán yếu ớt và mỗi sai lầm là một mạng người, thì chúng ta cần hàng ngàn, hay thậm chí là hàng triệu mẫu. Cardiogram trong nghiên cứu ban đầu đã dùng 6.000 mẫu, bao gồm 200 người có nhịp tim bất thường. Theo thời gian, một cách thu thập thêm dữ liệu là qua những phản hồi cho biết người dùng ứng dụng có xuất hiện nhịp tim bất thường hay không.

Con số 6.000 này đến từ đâu? Các nhà khoa học dữ liệu đã có những công cụ xuất sắc để đánh giá lượng dữ liệu cần thiết dựa trên độ tin cậy của dự đoán và yêu cầu về độ chính xác. Những công cụ này được gọi là "tính toán cỡ mẫu" và cho ra số lượng cá thể cần phân tích để có một dự đoán hữu ích. Vấn đề quản trị quan trọng ở đây là sự đánh đổi: dự đoán càng chính xác đòi hỏi càng nhiều đơn vị cá thể, và thu thập thêm các cá thể sẽ phát sinh thêm chi phí.

Cardiogram cần thu thập dữ liệu với tần suất cao. Công nghệ của họ dùng Apple Watch để thu thập dữ liệu theo từng giây. Họ cần tần suất cao như thế vì nhịp tim thay đổi tùy theo thời điểm trong ngày, và việc đo đạc cần được liên tục đánh giá xem nhịp tim có đúng với người đang được theo dõi hay không. Thuật toán của Cardiogram cần dòng dữ liệu liên tục từ một thiết bị đeo trên người, chứ không phải là kết quả thu thập tại thời điểm bệnh nhân đến khám bác sĩ.

Việc thu thập dữ liệu này là một khoản đầu tư tốn kém. Bệnh nhân phải đeo thiết bị mọi lúc mọi nơi, chấp nhận sự can thiệp của nó trong các hoạt động hàng ngày (đặc biệt là những người không dùng Apple Watch). Dữ liệu này lại còn liên quan đến sức khỏe nên liên quan cả đến vấn đề quyền riêng tư, Cardiogram phải xây dựng hệ thống đảm bảo tính riêng tư và chấp nhận chi phí đầu tư cao hơn, giảm bớt khả năng máy cải thiện từ phản hồi. Họ thu thập dữ liệu dùng cho hoạt động dự đoán thông qua ứng dụng nhưng dữ liệu được lưu trữ trên chiếc đồng hồ.

Phần tiếp theo, chúng ta sẽ thảo luận sự khác biệt giữa tư duy thống kê và kinh tế về mặt số lượng dữ liệu cần thu thập. (Chúng ta cũng sẽ cân nhắc vấn đề quyền riêng tư khi thảo luận về chiến lược trong phần 4.)

Tính kinh tế của quy mô

Nhiều dữ liệu hơn sẽ cải thiện kết quả dự đoán. Nhưng bao nhiêu dữ liệu là đủ? Lợi ích của việc có thêm thông tin (cho dù là số lượng mẫu, loại biến số, hay tần suất) sẽ tăng hay giảm tương ứng với lượng dữ liệu trong tay. Theo cách nói trong kinh tế, dữ liệu có thể có lợi ích tăng hay giảm theo quy mô.

Đứng từ góc độ thuần túy thống kê, dữ liệu có lợi ích giảm dần theo quy mô. Bạn thu được nhiều thông tin hơn trong lần quan sát thứ 3 so với lần quan sát thứ 100, và học được nhiều hơn trong lần quan sát thứ 100 so với lần quan sát thứ 1 triệu. Khi bạn đưa thêm nhiều hơn số lần quan sát vào dữ liệu đào tạo, tính hữu ích của nó ngày càng giảm trong việc cải thiện kết quả dự đoán.

Mỗi quan sát là một phần dữ liệu bổ sung góp phần trong dự đoán. Trong trường hợp của Cardiogram, một quan sát là thời giản giữa hai lần đo lường nhịp tim. Khi chúng tôi nói là "dữ liệu có lợi ích giảm dần," chúng tôi muốn nói là 100 nhịp tim đầu đã giúp bạn có một khái niệm chung liệu rằng người này có nhịp tim bất thường hay không. Những nhịp tim đo được sau đó ngày càng kém quan trọng trong việc cải thiện kết quả dự đoán.

Hãy thử xét tình huống bạn cần xác định thời gian rời nhà đi đến sân bay. Nếu bạn chưa bao giờ ra sân bay, lần đầu tiên bạn đi chứa đựng nhiều thông tin hữu ích. Lần thứ hai, lần thứ ba cũng giúp bạn ước lượng sẽ mất bao nhiêu thời gian. Tuy nhiên, đến lần thứ 100, bạn gần như không bổ sung được thêm gì nhiều về thời gian cần để đi từ nhà đến sân bay. Như vậy, dữ liệu có lợi ích giảm dần theo quy mô: khi bạn thu thập càng nhiều dữ liệu, mỗi dữ liệu bổ sung có giá trị càng kém dần.

Việc này có thể không đúng nếu đứng từ góc nhìn kinh tế, khi mà người ta không nhìn vào khả năng cải thiện kết quả dự đoán của dữ liệu. Người ta đánh giá đóng góp của dữ liệu cho giá trị mà bạn nhận được từ dự đoán. Đôi khi kết quả dự đoán và giá trị của nó đi song hành, như vậy lợi ích giảm dần của dữ liệu trong thống kê cũng có nghĩa là lợi ích giảm dần của kết quả mà bạn quan tâm. Tuy nhiên, không phải lúc nào cũng thế.

Ví dụ, người tiêu dùng có thể chọn sản phẩm của bạn hay sản phẩm của đối thủ. Họ có thể chỉ sử dụng sản phẩm của bạn nếu nó gần như lúc nào cũng tốt hơn, hay ít nhất là ngang bằng với sản phẩm của đối thủ. Trong nhiều trường hợp, tất cả đối thủ đều tốt ngang nhau trong tình huống có đầy đủ dữ liệu. Ví dụ, hầu hết các trình duyệt tìm kiếm đều cho kết quả tương tự đối với những tìm kiếm phổ biến. Cho dù là bạn dùng Google, Bing, hay DuckDuckGo dành cho những người quan tâm yếu tố riêng tư, thì kết quả của việc tìm kiếm "Olivia Rodrigo" đều là tương tự. Giá trị của cỗ máy tìm kiếm chỉ thể hiện qua kết quả tốt hơn cho những tìm kiếm khác lạ. Bạn hãy thử gõ vào ô tìm kiếm của Google, Bing, và DuckDuckGo cụm từ "general adversarial networks." Khi tôi làm thử, cả ba trình duyệt đều đưa về bài viết trên Wikipedia và giải thích của IBM về chủ đề này. Nhưng Google còn chỉ ra một số khóa học trực tuyến về chủ đề này. Một lý do chính khiến cho kết quả tìm kiếm của Google có vẻ tốt hơn là việc dự đoán nhu cầu của người tìm kiếm trong trường hợp tìm kiếm khác lạ đòi hỏi phải có dữ liệu của những tìm kiếm tương tự. Hầu hết người ta dùng Google khi cần tìm kiếm cả những chủ đề quen thuộc và hiếm gặp. Chỉ cần tốt hơn một chút xíu trong kết quả tìm kiếm cũng đủ tạo khoảng cách lớn về thị phần và doanh thu.

Như vậy, mặc dù về mặt kỹ thuật dữ liệu có lợi ích giảm dần theo quy mô – lần tìm kiếm thứ 1 tỉ không có nhiều ích lợi cho việc cải thiện trình duyệt tìm kiếm như lần thứ 1; nhưng từ góc độ kinh tế, dữ liệu có giá trị cao nhất nếu đó là dữ liệu nhiều hơn và tốt hơn so với đối thủ. Nhiều người đã lập luận rằng thêm dữ liệu về các yếu tố đặc trưng mang lại lợi ích to lớn trong thị trường. Như vậy, dưới góc nhìn kinh tế học, trong trường hợp đó, dữ liệu có lợi ích gia tăng theo quy mô.

Điểm chính

· Cỗ máy dự đoán sử dụng ba loại dữ liệu: dữ liệu đào tạo để đào tạo AI, dữ liệu đầu vào để dự đoán, và dữ liệu phản hồi để cải thiện tính chính xác của dự đoán.

· Việc thu thập dữ liệu là tốn kém, nó được xem như một khoản đầu tư. Chi phí cho việc thu thập dữ liệu tùy thuộc vào số lượng dữ liệu bạn cần và mức độ phức tạp để thu thập được dữ liệu này. Điều quan trọng là phải cân bằng giữa chi phí thu thập dữ liệu và lợi ích mang lại từ dự đoán chính xác hơn. Để xác định được sự cân bằng này cần ước tính lợi ích mang lại của mỗi loại dữ liệu: Chi phí để thu thập dữ liệu là bao nhiêu, và giá trị mang lại từ phần gia tăng độ chính xác trong dự đoán là bao nhiêu.

· Có hai quan điểm, thống kê và kinh tế học, để đánh giá liệu việc thu thập thêm dữ liệu có tạo ra thêm giá trị. Từ góc nhìn thống kê, dữ liệu có lợi ích giảm dần theo quy mô. Mỗi đơn vị dữ liệu cộng thêm có tác dụng kém dần trong việc cải thiện kết quả dự đoán; quan sát thứ 10 có tác dụng cải thiện dự đoán nhiều hơn so với quan sát thứ 1.000. Từ góc nhìn kinh tế học, mối quan hệ giữa dữ liệu và giá trị không rõ ràng. Thêm dữ liệu vào một khối dữ liệu lớn có thể tạo ra giá trị nhiều hơn là thêm vào một khối dữ liệu nhỏ; ví dụ, nếu dữ liệu bổ sung giúp cho cỗ máy dự đoán vượt qua ngưỡng từ không thể sử dụng chuyển sang có thể sử dụng, hay từ mức dưới ngưỡng quy định chuyển sang cao hơn ngưỡng quy định, hay từ vị thế kém hơn đối thủ chuyển sang tốt hơn đối thủ. Như vậy, tổ chức cần hiểu rõ mối quan hệ giữa việc bổ sung dữ liệu, cải thiện tính chính xác của dự đoán, và gia tăng giá trị.


Bạn đang đọc truyện trên: AzTruyen.Top

Tags: #sachkinhte