Đại Chiến AI Trên Bàn Làm Việc: Cuộc So Kè Của Những Trí Tuệ Số

Thường lệ như bao ngày, tôi lại thấy mình đăm chiêu nhìn bốn chiếc hộp chữ nhật giống hệt nhau trên bàn. Với người ngoài, chúng chỉ là điện thoại. Nhưng trong tâm trí tôi, chúng tựa bốn bộ óc khác biệt, mỗi cái một vẻ, thầm lặng tranh giành ngôi vị trong một cuộc thi kỹ thuật số. Một cái ngân nga sự tự tin điềm đạm của ChatGPT, một cái khác đầy tham vọng nhanh nhạy của Google Gemini. Kế đến là Perplexity, nghiêm túc theo đuổi sự thật có kiểm chứng, và cuối cùng, Grok, với sự thẳng thắn, đôi khi gây sốc, được cho là sinh ra từ dòng chảy dữ liệu không lọc của X. Người ta bảo, đây chính là bốn kỵ sĩ khải huyền của AI, hoặc chính xác hơn, bốn trợ lý kỹ thuật số mạnh nhất mà một người dùng thông thường có thể gặp ngày nay. Nhưng vấn đề đặt ra ở đây là gì? Chúng ta được khuyên chỉ cần một. Vậy, làm sao để chọn? Trí tuệ non trẻ nào thực sự chính xác nhất, nhanh nhất, đáng để chúng ta tích hợp vào cỗ máy tinh vi của đời sống hàng ngày?

Hành trình khám phá mê cung này của tôi, giống như bao câu chuyện hay khác, bắt đầu từ nhà để xe. Tôi lái một chiếc Honda Civic đời 2017, một phương tiện khá hợp lý, và tôi chợt nghĩ về câu hỏi tưởng chừng đơn giản nhưng lại phức tạp đến ngạc nhiên: bao nhiêu chiếc vali vỏ cứng Aerolite 29 inch – với kích thước chính xác, không khoan nhượng – có thể nhét vừa cốp xe? Chúng tôi thậm chí đã tự đo một cách tỉ mỉ, và kết quả dứt khoát là hai chiếc, nếu bạn muốn đóng được cốp. Các câu trả lời của AI thì, nói sao nhỉ, là một bản giao hưởng của sự suy nghĩ quá lý thuyết. ChatGPT và Gemini đưa ra một câu trả lời thận trọng: “ba chiếc, nhưng thực tế có thể là hai”, một kiểu đánh cược nước đôi. Perplexity, đáng yêu thay, mạnh dạn tuyên bố ba, thậm chí bốn chiếc, nếu sắp xếp hiệu quả – một tưởng tượng thú vị. Nhưng chính Grok, với sự tự tin gần như đáng sợ, đã đơn giản tuyên bố: “Hai chiếc.” Không lời lẽ dè dặt, không đoạn văn dài dòng suy tư. Chỉ một câu trần trụi, đầy tự tin: “Hai chiếc.” Đó là khoảnh khắc của một sự hiển linh thầm lặng: đôi khi, trí thông minh không thể hiện ở những lời giải thích hoa mỹ, mà ở sự thật thẳng thừng, không tô vẽ.

Tuy nhiên, cuộc khám phá này mới chỉ là khởi đầu. Tôi chuyển sang nhà bếp, một nơi gần gũi hơn, nhưng cũng không kém phần tiết lộ. Hãy hình dung bạn đang cố gắng nướng một chiếc bánh, nhưng lại phát hiện ra một lọ nấm porcini khô lạ lùng trong số các nguyên liệu thông thường. Liệu các bộ óc kỹ thuật số có nắm bắt được sự phi lý ẩm thực này không? ChatGPT nhận định đó là “gia vị hỗn hợp đã xay”, Gemini lại hình dung ra “hành tây chiên giòn”, còn Perplexity, với một sự lạc đề đầy duyên dáng, cho rằng đó là “cà phê hòa tan”. Lại một lần nữa, chính Grok đã nhìn thẳng vào lọ và thấy đúng bản chất của nó: nấm khô. Và quan trọng hơn, nó đã đưa ra quyết định chỉnh sửa đúng đắn: tuyệt đối không cho nấm đó vào bánh. Dường như Grok, dù đôi khi còn thô ráp, lại sở hữu một sự rõ ràng trong quan sát mà những cái khác thiếu.

Sau đó là thử nghiệm xã hội lớn: tổ chức giải Mario Kart World với bạn bè. Tôi muốn một tài liệu đơn giản, có thể chỉnh sửa để theo dõi điểm số. Mọi AI đều hiểu yêu cầu, tạo ra những ô vuông gọn gàng, để trống cho điểm số giả định. Song, không cái nào cung cấp *thứ* mà tôi thực sự cần: một tài liệu có thể tải xuống, sẵn sàng để chỉnh sửa, tích hợp liền mạch vào cuộc sống di động của tôi. Đây là một lời nhắc nhở rõ ràng rằng vực thẳm giữa việc hiểu một yêu cầu và thực sự dự đoán được nhu cầu thực tế của người dùng vẫn còn rất lớn. Thật lòng mà nói, tôi cảm thấy tự mình mở bảng tính còn dễ hơn. Chủ đề lặp đi lặp lại này – lời hứa về sự hỗ trợ dễ dàng va phải thực tế khó khăn của ma sát kỹ thuật số – đã trở thành một điểm đối trọng thầm lặng với những thành công chói lọi.

Các thử nghiệm tiếp tục, trải dài qua những phép toán không quá cơ bản (pi nhân tốc độ ánh sáng, nơi những sai số làm tròn nhỏ dẫn đến các câu trả lời khác nhau một cách tinh tế nhưng đều hợp lệ về tỷ km/giờ), và lập kế hoạch tài chính (tiết kiệm cho một chiếc Switch 2, mà cả bốn đều tính toán đáng nể là 11 tuần). Dịch ngôn ngữ, ngay cả với thử thách hóc búa của từ đồng âm, cũng cho kết quả khá tốt, với ChatGPT và Perplexity dẫn đầu trong việc tháo gỡ nút thắt ngôn ngữ của câu “banking on being able to bank at the bank before visiting the riverbank”.

Tuy nhiên, tôi nghi ngờ rằng thử thách thực sự cho các trợ lý kỹ thuật số này nằm ở vùng nước đục của nghiên cứu sản phẩm – một lĩnh vực mà phán đoán của con người, và thường là sai sót của con người, chiếm ưu thế. Liệu tôi có thể tin tưởng chúng để giới thiệu một thứ gì đó, để chúng thực sự đã tìm hiểu toàn bộ những gì có sẵn trước khi trình bày cho tôi “cái tốt nhất” không? Tôi đã hỏi về tai nghe nhét tai tốt. Và ở đây, AI, đặc biệt là Gemini, bắt đầu “ảo giác”, tạo ra một cặp Sony WF100XM6s ma quái mà tại thời điểm tôi hỏi, đơn giản là không tồn tại. Nó nói về chúng như là “vua” được công nhận rộng rãi, một sự lặp lại kỳ lạ của sự tự tin của con người mà không bị ràng buộc bởi thực tế. Khi tôi thêm ràng buộc tưởng chừng đơn giản là “màu đỏ” và “dưới 100 đô la” kèm theo tính năng chống ồn chủ động, sự hỗn loạn thực sự bắt đầu. ChatGPT đưa ra một giải pháp thỏa hiệp khá tốt nhưng không hoàn hảo. Gemini lại đề xuất các sản phẩm không có màu đỏ. Perplexity, trong một bước nhảy logic khó hiểu, quay trở lại nguyên liệu làm bánh, gợi ý bao bì màu đỏ cho nấm của tôi. Chỉ Grok mới tìm được những chiếc tai nghe nhét tai màu đỏ thực tế, được đánh giá tốt và đáp ứng các tiêu chí. Đó là một bài học tỉnh táo: AI, dù tài giỏi đến đâu, vẫn chưa phải là một người quản gia đáng tin cậy cho danh sách mua sắm của bạn. Vấn đề, tôi nhận ra, không chỉ là sự không chính xác thỉnh thoảng, mà là mức độ chắc chắn đồng đều mà nó trình bày cả sự thật và hư cấu. Một thang điểm chắc chắn, một thước đo sự thật đã được xác minh, sẽ là một món quà từ trời. Và khi bị đẩy đến mức vô lý, để tìm tai nghe “dưới 10 đô la”, ChatGPT, Gemini, và Grok, đáng khen thay, đã thừa nhận sự vô ích, trong khi Perplexity, luôn háo hức làm hài lòng, chỉ đơn giản là giảm giá một cặp tai nghe 40 đô la. Đó là một lời cảnh báo rõ ràng chống lại việc trao quyền mua sắm của chúng ta cho những thực thể đầy thuyết phục nhưng đôi khi dễ mắc lỗi này.

Việc chúng không thể xử lý thông tin một cách có ý nghĩa từ một liên kết được cung cấp – mỗi cái nhận ra liên kết AliExpress nhưng lại không thể truy cập và trích xuất chi tiết – đã nhấn mạnh một hạn chế đáng kể khác. Và trong khi khả năng nắm bắt tin tức cập nhật gần đây, như sự thay đổi về công suất đầu ra của bộ sạc UGreen, là một cải thiện đáng hoan nghênh so với các thế hệ trước, nó vẫn giống như một thỏa thuận mong manh với hiện tại luôn biến động.

Tuy nhiên, thử thách sâu sắc nhất không phải là về việc truy xuất dữ liệu mà là về tư duy phản biện. Tôi trình bày cho chúng một biểu đồ cột, có vẻ như cho thấy số lượng người đăng ký tăng tương quan với số bát ngũ cốc được ăn, hy vọng chúng sẽ tránh được cái bẫy của sự tương quan giả tạo. Gemini và Perplexity đã nhận diện đúng vấn đề, nhận ra sự phi lý vốn có của việc cho rằng việc ăn ngũ cốc dẫn đến sự nổi tiếng trên YouTube. ChatGPT hơi dao động, gợi ý một “liên kết”. Nhưng Grok, ôi Grok, trong nỗ lực tối ưu hóa đầy nhiệt huyết, đã khuyên: “Để tối đa hóa tăng trưởng người đăng ký, hãy cân nhắc duy trì hoặc tăng mức tiêu thụ ngũ cốc, ví dụ, lên chín bát vào những ngày quan trọng.” Tôi đã phải cố nén một cơn rùng mình. Đó là một lời nhắc nhở lạnh lùng rằng tương quan không ngụ ý nguyên nhân, một bài học quan trọng đối với AI cũng như đối với nhân loại.

Tuy nhiên, chúng lại tỏa sáng ở những lĩnh vực khác. Tóm tắt hướng dẫn của người đánh giá điện thoại? Một việc dễ dàng cho cả bốn. Xác định một mẫu xe cụ thể (một chiếc sedan Mercedes A-Class, sau đó xác định A200 bằng cách phân tích tinh tế cấu hình cản và bánh xe)? Một kỳ công đáng kinh ngạc của công việc thám tử kỹ thuật số. Và thử thách cuối cùng, vấn đề thiên vị sống sót (củng cố các bộ phận không bị hư hại của máy bay chiến đấu, vì đó là những khu vực quan trọng của những chiếc máy bay *trở về*): mỗi cái đều giải quyết được một cách hoàn hảo, nhận ra cái bẫy logic. Sự hiểu biết tinh tế này, khả năng nhìn xa hơn điều hiển nhiên, thực sự rất ấn tượng.

Khi nói đến khả năng sáng tạo – mặt hào nhoáng, sáng tạo của AI – kết quả cũng đa dạng không kém. Email xin lỗi vì đã say sưa chơi Elden Ring? Tất cả đều tốt một cách đáng ngạc nhiên, với ChatGPT đưa ra một câu đặc biệt hùng hồn: “khi tôi đang khám phá một thế giới giả tưởng, tôi đã bỏ lỡ thế giới thực quan trọng nhất.” Các lịch trình đi Tokyo cho thấy ChatGPT là người chiến thắng rõ ràng, với những ngày được tổ chức hợp lý, không rườm rà, trong khi Gemini đưa ra những phát hiện tốt nhưng cấu trúc kém, và Perplexity chỉ là một danh sách. Grok, với những gợi ý “tinh thông internet” cho video YouTube (“Tôi đã tự xây một ngôi nhà thông minh từ đầu trong 24 giờ”), cảm thấy mới mẻ và có thể thực hiện được.

Tuy nhiên, tạo ảnh lại là nơi mọi thứ thường “đổ vỡ”. Một yêu cầu đơn giản cho ảnh thu nhỏ của “Tôi đã mua mọi loại phô mai” đã tạo ra những kết quả kỳ quặc, thường không thể sử dụng được, mặc dù ChatGPT và Perplexity ít nhất *hiểu* ý định. Yêu cầu một “mắt lười” trên một đối tượng đã dẫn đến những thất bại hoàn toàn khó hiểu: ChatGPT từ chối vì lý do đạo đức, Gemini tạo ra một biến dạng vô nghĩa, Perplexity giải thích một cách khó hiểu rằng nó không thể tạo ảnh (mặc dù vừa làm được điều đó), và Grok đơn giản là không hiểu “mắt lười” là gì. Thêm văn bản vào ảnh cũng tương tự như vậy. Tạo video, hiện chỉ giới hạn ở ChatGPT (Sora) và Gemini (Veo), cho thấy một vực thẳm lớn về chất lượng: Sora tạo ra một người đánh giá công nghệ không đầu, không tiếng, ám ảnh, trong khi Veo đưa ra một đánh giá video bất ngờ được trau chuốt, có tiếng nói về “Phô Mai 3000” với “cảm giác miệng tuyệt vời” và “9/10 vững chắc”. Sự khác biệt rõ rệt là minh chứng cho tốc độ phát triển nhanh chóng, không đồng đều.

Kiểm tra thực tế, một lĩnh vực quan trọng khi xét đến danh tiếng thỉnh thoảng bịa đặt của AI, nhìn chung tỏ ra mạnh mẽ. Tất cả trừ Perplexity đều đúng khi gạt bỏ nỗ lực lừa chúng tin rằng Nintendo Switch 2 đang bán chạy kém. Và khi được trình bày một bài báo giả mạo về “điện thoại Samsung Tesla edition” (một tin đồn được khơi mào bởi một hình ảnh *chúng tôi* tạo ra), mọi AI đều vạch trần nó một cách chính xác, với Gemini và Grok thậm chí còn truy tìm hình ảnh về nguồn gốc lừa dối ban đầu của nó.

Sự tích hợp, bộ nhớ, và thậm chí cả sự hài hước cũng mang lại những cái nhìn sâu sắc hơn. Khả năng tích hợp liền mạch của Gemini với Google Workspace và khả năng lấy dữ liệu trực tiếp từ Maps và YouTube là không thể phủ nhận mạnh mẽ. Các trợ lý tùy chỉnh và hệ sinh thái plugin rộng lớn hơn của ChatGPT gợi ý về một tương lai AI cá nhân hóa. Tuy nhiên, bộ nhớ lại tỏ ra thất thường; không cái nào nhớ chi tiết bánh ban đầu khi được hỏi lời khuyên về lớp phủ. Và sự hài hước thì, à, đó là một điều khó nắm bắt. ChatGPT và Gemini đều đưa ra cùng một câu đùa xương khô cũ rích. Perplexity, một cách kỳ lạ, lại quay trở lại chiếc máy bay có lỗ. Chỉ Grok, có lẽ được hưởng lợi từ sự nhạy bén được huấn luyện trên X, mới đưa ra một câu đùa khá hài hước về “các vấn đề nhỏ bé”.

Sau 17 câu hỏi nghiêm ngặt, tổng hợp điểm cho khả năng giải quyết vấn đề, tư duy phản biện, sáng tạo, kiểm tra thực tế, tích hợp, bộ nhớ, hài hước và khả năng sử dụng chung (tốc độ, nguồn gốc, chế độ giọng nói), một bức tranh rõ ràng bắt đầu hiện ra. ChatGPT, với 29 điểm, đứng vững là người chiến thắng toàn diện không thể phủ nhận – nhất quán, đa năng và thường xuyên xuất sắc. Grok, thật bất ngờ, giành vị trí thứ hai với 25 điểm, chứng tỏ mình nhanh, chính xác một cách tự tin ở một số lĩnh vực quan trọng, và thông thạo internet đáng ngạc nhiên. Gemini theo sau với 22 điểm, những tia sáng chói lọi đôi khi bị phá hỏng bởi những sai lầm kỳ lạ và thời gian phản hồi chậm hơn. Và Perplexity, dù đáng ngưỡng mộ với cam kết về nguồn gốc, lại đứng cuối với 19 điểm, thường ấn tượng nhưng đôi khi khó hiểu trong các diễn giải của nó. Xét rằng hầu hết các gói cao cấp này đều dao động quanh mức 20 đô la mỗi tháng (Grok đắt hơn một chút ở mức 30 đô la), hiệu suất của ChatGPT đã củng cố vị trí của nó.

Vậy, đâu là kết luận lớn cho cuộc phiêu lưu kỹ thuật số này? Đó không phải là một lời tuyên bố đơn giản về một công cụ “tốt nhất” duy nhất, mà là một sự hiểu biết sâu sắc hơn về chính bức tranh tổng thể. Dường như, chúng ta đang ở một vùng đất hoang dã, đầy phấn khích và đôi khi vô cùng phi lý. Những trí tuệ này chưa phải là bất bại hay toàn tri. Chúng xuất sắc ở một số lĩnh vực, vấp ngã đáng kể ở những lĩnh vực khác, và đôi khi, với một sự chân thành gần như trẻ thơ, lại tạo ra những thực tế đơn giản là không tồn tại. Giá trị thực sự của chúng không nằm ở sự phụ thuộc thụ động, không nghi ngờ, mà ở một mối quan hệ đối tác năng động, nơi năng lực tư duy phản biện của chúng ta vẫn được duy trì, sự hoài nghi của chúng ta được giữ ở trạng thái nhẹ nhàng, và kỳ vọng của chúng ta được điều chỉnh phù hợp với bản chất hấp dẫn, không hoàn hảo và đang phát triển nhanh chóng của trí tuệ nhân tạo thực sự là gì, tại thời điểm chính xác này. Bài học quan trọng nhất, có lẽ, không phải là *chọn* cái nào, mà là *làm thế nào để tương tác* với chúng, bởi vì trong khả năng đang phát triển và những khiếm khuyết đáng yêu của chúng, chúng soi chiếu một tấm gương, phản ánh không chỉ tương lai kỹ thuật số của chúng ta, mà còn điều gì đó thiết yếu về sự tò mò của chính con người chúng ta.