Vì sao bạn nên lo lắng về công nghệ “Đọc vị” cảm xúc

marketing foundation

Hiện nay, máy móc được cho rằng có khả năng nhận diện sự tức giận, nỗi sợ, sự chán ghét cũng như nỗi buồn. Xuất phát điểm chỉ là một dự án nghiên cứu, công nghệ “Nhận dạng Cảm xúc” đã phát triển thành ngành công nghiệp đáng giá 20 tỷ đô.

Bối cảnh

cong-nghe-cam-xuc

Liệu một chương trình có thể phát hiện những kẻ-khủng-bố-tiềm-năng chỉ bằng cách đọc vị nét mặt hay hành vi? Cục Quản Lý An Ninh Vận Tải Hoa Kỳ (US Transportation Security Administration – TSA) đặt ra giả thuyết này vào năm 2003 với mục đích triển khai một chương trình giám sát mới mang tên “Quét Hành Khách bằng kỹ thuật Quan Sát” (“Screening of Passengers by Observation Techniques”) – viết tắt là chương trình SPOT.

Trong quá trình phát triển SPOT, Cục Quản Lý An Ninh Vận Tải đã tham vấn Paul Erkman, giáo sư hưu trí ngành tâm lý học của Đại học California – San Francisco. Khoảng nhiều thập kỷ trước, giáo sư Erkman đã nghiên cứu phương pháp giúp nhận diện những “biểu hiện ngắn hạn” (minute facial expressions) và tìm ra mối liên hệ giữa chúng với những cảm xúc tương ứng. Phương pháp này thường được ứng dụng để huấn luyện các “cảnh sát nhận dạng hành vi” nhằm thực hiện công việc phát hiện dấu hiệu lừa dối thông qua biểu cảm gương mặt.

Tuy nhiên vào năm 2007, rất nhiều vấn đề đã nảy sinh sau khi triển khai chương trình SPOT. Các hành khách bị thẩm vấn được các cảnh sát viên lựa chọn một cách ngẫu nhiên, kết quả là chỉ có một số lượng nhỏ bị bắt giữ và với những tội danh không liên quan tới khủng bố. Thực tiễn còn cho thấy khía cạnh đáng lo ngại hơn là phương pháp này được sử dụng để biện hộ cho vấn đề kỳ thị sắc tộc.

Trước những phát sinh tiêu cực như vậy, giáo sư Erkman chối bỏ vai trò đối với dự án SPOT và cho rằng TSA đã áp dụng sai phương pháp của ông. Tuy nhiên, nhiều người cho rằng nguyên nhận dẫn đến sự thất bại của chương trình là do cốt lõi phương pháp của Erkman dựa trên một lý thuyết khoa học lỗi thời. Cụ thể, lý thuyết đó ghi nhận khả năng suy luận cảm xúc một cách khách quan thông qua phân tích khuôn mặt.

Trong những năm gần đây, các công ty công nghệ đã bắt đầu đưa phương pháp của Erkman vào đào tạo các thuật toán nhằm xác định cảm xúc thông qua nét mặt. Những người phát triển công nghệ này khẳng định hệ thống nhận diện cảm xúc tự động không những chính xác hơn con người trong việc phát hiện những cảm xúc thật thông qua phân tích gương mặt mà thậm chí các thuật toán sẽ dần thích nghi với các xúc cảm chân thật của chúng ta, từ đó cải thiện đáng kể cách chúng ta tương tác với các thiết bị.
Tuy nhiên, nhiều chuyên gia nghiên cứu khoa học cảm xúc lo ngại rằng những thuật toán này sẽ tiếp tục thất bại khi đi vào vết xe đổ trong việc đưa ra các quyết định quan trọng về cuộc sống của chúng ta dựa trên thuyết khoa học còn nhiều thiếu sót.

Khuôn mặt của bạn: Ngành công nghiệp trị giá 20 tỷ đô

Công nghệ nhận diện cảm xúc yêu cầu hai phương pháp: Thị giác máy tính (Computer Vision) để nhận dạng chính xác các biểu cảm trên khuôn mặt; và Máy học (Machine Learning Algorithms) để phân tích và giải nghĩa những nội dung liên quan tới cảm xúc từ các nét mặt.
Đặc trưng của phương pháp thứ hai sử dụng kĩ thuật “học có giám sát” (supervised learning), trong đó các thuật toán học tập từ tập dữ liệu được gán nhãn cho trước. Ý tưởng căn bản của kĩ thuật này là nếu bạn cho thuật toán xem trước hàng ngàn bức ảnh của khuôn mặt hạnh phúc với nhãn “hạnh phúc” gán cùng các bức ảnh đó thì khi thuật toán thấy một bức ảnh mới của một khuôn mặt hạnh phúc, nó sẽ có khả năng nhận diện và đưa ra kết quả “hạnh phúc”.

Tiến sĩ Rana el Kaliouby là một trong những người đầu tiên thử nghiệm cách tiếp cận này. Năm 2001, Rana chuyển từ Ai Cập đến Đại học Cambridge để bắt đầu học tiến sĩ ngành khoa học máy tính và nhận ra cô đang dành thời gian cho máy tính nhiều hơn với con người. Rana cho rằng nếu có thể dạy máy tính cách nhận biết và phản ứng với các trạng thái cảm xúc thì cô sẽ cảm thấy bớt cô đơn trong thời gian phải xa gia đình và bạn bè.

Suốt thời gian học tiến sĩ, Kaliouby dành tâm huyết nghiên cứu giải quyết vấn đề này. Cuối cùng, cô đã sáng chế một thiết bị hỗ trợ những đứa trẻ mắc hội chứng Asperger (hội chứng tự kỷ chức năng cao) giúp chúng có thể đọc và phản ứng với các nét mặt – Kaliouby gọi đây là thiết bị “hỗ trợ lắng nghe xúc cảm” (emotional hearing aid).

Năm 2006, Kaliouby gia nhập phòng thí nghiệm Ảnh hưởng Máy tính (Affective Computing lab) của Viện Công nghệ Massachusetts (Massachusetts Institute of Technology – MIT). Tại đây, Kaliouby cùng giám đốc phòng thí nghiệm – Rosalind Picard tiếp tục cải tiến và hoàn thiện công nghệ trên. Tiếp đó vào năm 2009, họ đồng sáng lập Affectiva – start-up đầu tiên đưa ra thị trường “trí tuệ cảm xúc nhân tạo” (Artificial Emotional Intelligence).

Ban đầu, Affectiva cho ra mắt công nghệ nhận diện cảm xúc cung cấp dữ liệu theo thời gian thực cho khách hàng về các phản ứng cảm xúc đối với quảng cáo và sản phẩm. Với sản phẩm ứng dụng cho nghiên cứu thị trường này, Affectiva đã chinh phục được các công ty lớn như Mars, Kellogg’s hay CBS. Năm 2013, Picard rời Affectiva để tham gia một start-up sinh trắc học khác, tuy nhiên việc kinh doanh của Affectiva cũng như ngành công nghiệp liên quan tới công nghệ này vẫn tiếp tục phát triển mạnh mẽ.
Hiện nay, các “ông lớn” Amazon, Microsoft and IBM đều quảng cáo công nghệ phân tích cảm xúc là một trong những sản phẩm nhận diện khuôn mặt của họ, đồng thời một vài công ty nhỏ hơn như Kairos và Eyeris cũng xuất hiện và chào mời dịch vụ tương tự như Affectiva.

Hơn cả mục đích ứng dụng trong nghiên cứu thị trường, công nghệ nhận diện cảm xúc còn đang được sử dụng trong các lĩnh vực khác như theo dõi và phát hiện người điều khiển phương tiện dùng chất kích thích; kiểm tra trải nghiệm người dùng trong trò chơi điện tử; giúp các chuyên gia y tế đánh giá tình trạng sức khỏe của bệnh nhân.
Kaliouby, người chứng kiến sự phát triển của công nghệ nhận diện cảm xúc từ một dự án nghiên cứu trở thành ngành công nghiệp 20 tỷ đô, tự tin rằng sự lớn mạnh này sẽ còn tiếp tục. Cô dự đoán trong tương lai không xa, công nghệ này sẽ có mặt ở khắp mọi nơi và được tích hợp trong tất cả các thiết bị, không những thế nó còn có khả năng đi sâu vào bản năng, tiềm thức hay phản ứng theo từng khoảnh khắc của con người.

Lượng dữ liệu khổng lồ với 7.5 triệu khuôn mặt từ 87 quốc gia

nhan-dien-khuon-mat

Theo thông tin trên website của Affectiva, công ty này có kho dữ liệu cảm xúc lớn nhất thế giới với trên 7.5 triệu khuôn mặt từ 87 quốc gia, phần lớn dữ liệu thu thập được từ bản thu hình ảnh những người đang xem TV hoặc đang lái phương tiện hàng ngày của họ.
35 người phân tích dữ liệu làm việc tại văn phòng trụ sở của Affectiva ở Cairo có nhiệm vụ phân loại những đoạn phim thu được bằng cách xem và dịch nghĩa những nét mặt thành cảm xúc tương ứng – chẳng hạn với tổ hợp lông mày rủ, môi cắn chặt và mắt lồi ra, họ gán nhãn cảm xúc “tức giận”. Những dữ liệu cảm xúc sau khi được sắp xếp và dán nhãn sẽ được dùng để đào tạo các thuật toán của Affectiva nhận biết cách liên kết khuôn mặt cau có với giận dữ, khuôn mặt đang cười với hạnh phúc, v.v…

Phương pháp “dán nhãn” – bắt nguồn từ hệ thống Mã hóa Cảm xúc và Hoạt động Khuôn mặt (Emotion Facial Action Coding System – Emfacts) do Paul Erkman và Wallace V Friesen phát triển vào những năm 80 – được các chuyên gia trong ngành đánh giá là phương pháp đạt tiêu chuẩn vàng trong việc đo lường cảm xúc.

Thuyết cổ điển về khoa học cảm xúc

Để hiểu căn nguyên khoa học của hệ thống này, ta trở lại những năm 60 khi Erkman và hai đồng nghiệp đặt ra giả thuyết về sáu loại cảm xúc phổ biến – tức giận, ghê tởm, sợ hãi, hạnh phúc, buồn bã, ngạc nhiên là những cảm xúc nguyên thể có sẵn của con người và có thể phát hiện trên tất cả các nền văn hóa bằng cách phân tích chuyển động cơ mặt.

Nhằm kiểm nghiệm giả thuyết này, họ cho các nhóm dân cư đa dạng trên khắp thế giới xem những bức ảnh chụp nhiều khuôn mặt khác nhau và yêu cầu những người đó xác định cảm xúc trong bức ảnh đã xem. Nhóm nghiên cứu phát hiện ra rằng con người đều liên hệ những nét mặt với những cảm xúc một cách giống nhau dù tồn tại cách biệt về nền văn hóa. Một khuôn mặt với lông mày rủ, môi cắn chặt và mắt lồi đều mang ý nghĩa “tức giận” bất kể đối tượng đưa ra ý kiến là nhân viên ngân hàng ở Hoa Kỳ hay một thợ săn du mục ở Papua New Guinea.

Trong hai thập kỷ tiếp theo, Erkman sử dụng những phát hiện của mình để phát triển phương pháp nhận dạng các đặc điểm khuôn mặt và luận giải chúng thành các loại cảm xúc tương ứng. Giả thuyết tiền đề ở đây là nếu một cảm xúc phổ biến được kích hoạt thì một chuyển động khuôn mặt liên quan sẽ tự động xuất hiện, kể cả khi con người cố gắng che giấu cảm xúc, những cảm giác thực mang tính bản năng vẫn sẽ biểu lộ ra ngoài và dựa vào đó, người biết những dấu hiệu này vẫn cảm nhận được cảm xúc đang bị che giấu.

Lý thuyết này được coi là lý thuyết cổ điển về cảm xúc và đã thống trị nền khoa học cảm xúc trong suốt nửa sau của thế kỉ 20. Erkman sở hữu độc quyền phương pháp nhận diện cảm xúc này và bắt đầu bán nó ở dạng chương trình đào tạo cho các đơn vị chính phủ như CIA, FBI, Cục Hải Quan và Biên Phòng Hoa Kỳ, Cục Quản Lý An Ninh Vận Tải Hoa Kỳ. Ý tưởng về khả năng “đọc vị” cảm xúc cũng trở thành một trào lưu văn hóa và là nền tảng của chương trình truyền hình “Lie to Me”.

Tuy vậy, nhiều nhà khoa học và nhà tâm lý học nghiên cứu bản chất của cảm xúc vẫn còn những nghi ngờ về thuyết cổ điển này cũng như về phương pháp của Erkman.

Quan điểm hình thành thuyết mới về khoa học cảm xúc

nhan-dien-khuon-mat

Trong những năm gần đây, giáo sư tâm lý học của Đại học Northeastern – Lisa Feldman Barrett đã đưa ra những phê bình đặc biệt mạnh mẽ đối với thuyết cổ điển.

Barrett lần đầu tiên tiếp cận với thuyết cổ điển về cảm xúc khi đang theo học bậc tiến sĩ. Trong quá trình nghiên cứu phương pháp đo lường cảm xúc khách quan, cô đã tìm thấy phương pháp của Erkman. Tuy nhiên khi đào sâu vào các tài liệu, cô bắt đầu lo ngại về những sai sót ngay từ bản chất của phương pháp nghiên cứu này – cụ thể, cô cho rằng bằng cách đưa trước “nhãn” cảm xúc để khớp với các bức ảnh, Erkman đã vô tình “rào” trước những hướng đưa ra đáp án nhất định.

Barrett cùng một nhóm cộng sự kiểm nghiệm lại giả thuyết bằng cách tái hiện thí nghiệm của Erkman nhưng loại bỏ yếu tố nhãn cảm xúc, cho phép đối tượng thoải mái miêu tả bất cứ loại cảm xúc nào mà họ nhận thấy. Kết quả là mối tương quan giữa những nét mặt cụ thể với những cảm xúc cụ thể gần như không còn tồn tại.

Kể từ đó, Barrett bắt đầu phát triển lý thuyết về cảm xúc của riêng mình, trình bày trong cuốn sách do cô sáng tác “How Emotions Are Made: the Secret Life of the Brain” (tạm dịch “Cảm xúc được tạo ra như thế nào: Bí mật về cuộc đời của bộ não”). Quan điểm của Barrett khẳng định không có cảm xúc phổ biến nào cố định trong bộ não được kích hoạt bởi các tác nhân ngoại cảnh. Thay vào đó, tồn tại những thành phần cơ bản hơn cấu tạo nên từng trải nghiệm cảm xúc.

“Các thành phần cơ bản xuất hiện giống như một tổ hợp các tính chất vật lý của cơ thể bạn, một bộ não linh hoạt có khả năng tự liên kết chính nó với bất cứ môi trường phát triển nào, môi trường được tạo nên từ văn hóa của bạn và sự dạy dỗ bạn nhận được” – Barrett viết. “Cảm xúc là thật, nhưng không phải “thật” theo nghĩa khách quan về sự tồn tại của các phân tử hay tế bào thần kinh. Cảm xúc chân thực theo kiểu tiền có thực – nghĩa là không phải một ảo ảnh, mà là một sản phẩm đến từ thỏa thuận của con người”.

Barrett giải thích rằng chẳng có ý nghĩa gì khi luận giải nét mặt thành cảm xúc trên tất cả các nền văn hóa và bối cảnh. Một người có thể cau có khi giận dữ nhưng một người khác có thể mỉm cười lịch sự trong khi lên kế hoạch hạ gục kẻ thù. Vì vậy, cách hiểu rõ nhất về đánh giá cảm xúc là một thực tiễn năng động bao gồm nhiều yếu tố, từ quá trình nhận thức tự động (automatic cognitive processes), các tương tác trực tiếp giữa người với người (person-to-person interactions), nhận thức bản thân (embodied experiences) đến năng lực về văn hóa (cultural competency). “Có vẻ như có rất nhiều thứ cần làm và sự thật là như vậy. Cảm xúc rất phức tạp” – Barrett nói.

Kaliouby đồng ý rằng cảm xúc rất phức tạp, đó là lí do vì sao Affectiva không ngừng cải thiện sự phong phú và đa dạng cấp độ của dữ liệu. Bằng cách sử dụng video thay cho ảnh tĩnh để huấn luyện các thuật toán, Affectiva đang thử nghiệm thu thập nhiều dữ liệu theo ngữ cảnh hơn, bao gồm cả giọng nói, dáng đi và những biến đổi nhỏ trên khuôn nằm ngoài nhận thức con người. Theo Kaliouby, chất lượng data tốt hơn đồng nghĩa với những kết quả chính xác hơn. Một số nghiên cứu còn khẳng định máy móc đã trở nên vượt trội so với con người trong việc nhận diện cảm xúc.

Nhưng theo quan điểm của Barrett, vấn đề không chỉ là chất lượng của dữ liệu, mà còn nằm ở cách những dữ liệu này được “dán nhãn”. Quá trình dãn nhãn mà Affectiva hay các công ty tương tự đang sử dụng để đào tạo thuật toán chỉ có thể nhận dạng thứ mà Barrett gọi là “các dạng cảm xúc định kiến” (emotional stereotypes) – giống như “emoji” hay các biểu tượng phù hợp với những chủ đề đặc trưng về cảm xúc trong nền văn hóa của chúng ta.

Lý do vì sao bạn nên lo lắng về công nghệ “đọc vị” cảm xúc

Theo ý kiến của Meredith Whittaker – đồng giám đốc của Đại học New York – trụ sở của Viện nghiên cứu AI Now, xây dựng những ứng dụng máy học dựa trên nền tảng khoa học lỗi thời của Erkman không chỉ đơn giản là một thực tiễn tồi, mà nó còn có thể chuyển hóa thành những tác hại đối với xã hội.

“Bạn có thể thấy các công ty tuyển dụng sử dụng loại kỹ thuật này để đánh giá một ứng viên là tốt hay không. Những công nghệ thử nghiệm cũng dần được đề xuất trong các trường học nhằm đánh giá một học sinh đang cảm thấy vui vẻ, buồn chán hay giận dữ ở trong lớp” – Whittaker nói. “Kiểu thông tin đó có thể được sử dụng theo nhiều cách mà khiến mọi người không kiếm được việc hay định hình cách họ được đối xử và đánh giá ở trường. Đây là những hệ quả rõ nét nhất cho sự thiếu chính xác của các phân tích từ những công nghệ nói trên”.

Kaliouby nhận thức được những phương thức mà nhận diện cảm xúc có thể bị làm dụng và rất coi trọng việc đảm bảo những nguyên tắc đạo đức của công việc, cô nói rằng “Một việc thực sự quan trọng là mở cuộc đối thoại với cộng đồng về vấn đề nên áp dụng loại công nghệ này như thế nào và ở đâu, cũng như khi nào thì không nên áp dụng”.

Bản thân là người từng theo văn hóa đeo khăn trùm đầu, Kaliouby cũng nhận thức sâu sắc về tầm quan trọng của việc xây dựng bộ dữ liệu đa dạng: “Chúng tôi đảm bảo rằng những dữ liệu dùng để đào tạo các thuật toán là phong phú đa dạng. Chúng tôi cần dữ liệu đại diện của người da trắng, người châu Á, người da sẫm màu, thậm chí cả những người đeo hijab”.

Đó là lí do tại sao Affectiva thu thập dữ liệu từ 87 quốc gia. Thông qua quá trình này, họ nhận thấy các quốc gia khác nhau có những biểu hiện cảm xúc với cường độ và sắc thái khác nhau. Ví dụ người Brazil sử dụng một nụ cười rộng và dài để biểu đạt hạnh phúc, còn đối với người Nhật Bản, nụ cười biểu thị sự lịch sự thay vì hạnh phúc.
Affectiva đã tính tới những sắc thái văn hóa bằng cách bổ sung một lớp phân tích vào hệ thống, lớp phân tích này tổng hợp những yếu tố mà Kaliouby gọi là “tiêu chuẩn dựa trên đặc trưng dân tộc” (ethnically based benchmarks) và mã hóa những giả định về cách biểu hiện của một cảm xúc trong các nền văn hóa khác nhau.

Tuy nhiên, loại thuật toán đánh giá dựa trên cơ sở các tập dấu hiệu như đặc trưng sắc tộc chính là điều khiến Whittaker lo ngại nhất về công nghệ nhận diện cảm xúc trong tương lai phát triển thành công nghệ nhân tướng học tự động. Trên thực tế đã xuất hiện những công ty đưa ra những dự đoán về khả năng một người trở thành khủng bố hay tội phạm ấu dâm, cũng như có những nhà nghiên cứu khẳng định các thuật toán có thể nhận diện khả năng tình dục chỉ bằng khuôn mặt.

Nhiều nghiên cứu gần đây còn cho thấy các công nghệ nhận dạng khuôn mặt đã mang các định kiến có khả năng gây hại cho cộng đồng các thành phần thiểu số trở lại. Một nghiên cứu công bố vào tháng 12 năm 2018 ghi nhận hiện tượng công nghệ nhận diện cảm xúc đã gán nhiều cảm xúc tiêu cực cho khuôn mặt của người da đen hơn so với khuôn mặt người da trắng.

Trước những lo ngại này, Kaliouby nói rằng tuy hệ thống của Affectiva có bộ phận “phân loại dân tộc” (ethnicity classifier) nhưng hiện nay họ không sử dụng nó. Thay vào đó, họ dùng địa lý như một proxy để xác định một người đến từ đâu. Điều này có nghĩa là họ so sánh những nụ cười trong phạm vi Brazil với nhau, những nụ cười trong phạm vi Nhật Bản với nhau”.

Câu hỏi đặt ra là “Trong trường hợp có một người Nhật Bản ở Brazil, liệu hệ thống có nhầm lẫn người này là người Brazil và bỏ qua những sắc thái của nụ cười lịch sự?”. Trả lời cho câu hỏi, Kaliouby thừa nhận: “Vào thời điểm này, công nghệ chưa thể chính xác hoàn toàn 100%”.

Nắm bắt tâm lý, “đọc vị” được những mong muốn, cảm xúc của khách hàng là kỹ năng cơ bản của một markerter. Khóa học Marketing Foundation của Tomorrow Marketers không chỉ đem đến những kiến thức lý thuyết mà còn trao cơ hội thực hành và trải nghiệm ngay tại lớp cho học viên. Tham gia ngay để tạo nền tảng vững chắc cho bản thân tiến sâu vào ngành marketing!