Grok 4: Bước Đột Phá Bất Ngờ và Những Câu Hỏi Về Trí Tuệ

Cha tôi, một người luôn sống ngăn nắp và chuẩn mực, từng bảo rằng những đổi mới vĩ đại hiếm khi xuất hiện đúng hẹn. Chúng thường bùng nổ, ông chiêm nghiệm, tựa như một cơn dông mùa hạ bất chợt, khi ta đã căng buồm cho những ngày biển lặng, hoặc vừa nhâm nhi tách trà, tin rằng mọi hứng khởi trong ngày đã qua đi. Và dường như, Grok 4, dự án mới nhất của Elon Musk trong bức tranh phức tạp của trí tuệ nhân tạo, cũng ra mắt đột ngột như thế. Với một số người, sự kiện này đến vào một thời điểm “lạ lùng”, khi sóng số có lẽ đang tập trung vào những tần số khác. Thế nhưng, sự xuất hiện của Grok 4 đã không ngừng tạo nên những gợn sóng mạnh mẽ, phá vỡ sự tĩnh lặng trong nhận thức hiện tại của chúng ta về trí thông minh máy móc. Vậy, điều gì sẽ xảy ra khi một thực thể tính toán mới mẻ bỗng hiện hữu, không chỉ tuyên bố cạnh tranh, mà còn vượt xa các chuẩn mực trí tuệ con người? Điều đó thực sự có ý nghĩa gì khi một cỗ máy được tuyên bố đạt “trình độ tiến sĩ” trong, à thì, *mọi lĩnh vực*?

Những lời đàm tiếu, nếu lắng nghe kỹ, gợi lên một điều gì đó sâu sắc, vượt xa một bản nâng cấp nhỏ giọt. Grok 4, người ta nói, không chỉ là một phiên bản sửa đổi mà là một bước tiến đáng kể trong hành trình theo đuổi Trí Tuệ Tổng Quát Nhân Tạo (AGI) đầy khó nắm bắt. Đây là một mô hình ngôn ngữ lớn đa phương thức, không chỉ làm lu mờ những người tiền nhiệm mà còn sánh vai với các ông lớn hiện tại – như GPT-4, Claude 3, Gemini 1.5 – trên một loạt các điểm chuẩn rộng lớn: từ logic phức tạp của lập trình, đến tư duy trừu tượng trong toán học và những sắc thái tinh tế của nghiên cứu khoa học. Nó dường như sở hữu một khả năng tạo sinh thực sự ấn tượng.

Tuy nhiên, sự xuất chúng ở đẳng cấp tiên phong này, như thường lệ, đi kèm với một mức phí không hề nhỏ. Người dùng có thể phải trả hàng trăm, thậm chí hàng nghìn đô la mỗi năm để tiếp cận các gói đăng ký – một ngưỡng tài chính mà với nhiều người, biến sự tò mò thành giấc mơ xa vời. Nhưng những kiến trúc sư đứng sau nó, đội ngũ xAI, vẫn khăng khăng rằng Grok 4 đáng giá từng xu, khi chỉ ra những điểm số chuẩn mà họ mô tả là “hoàn toàn điên rồ”. Và có lẽ, phần thuyết phục nhất trong lập luận của họ không chỉ nằm ở những điểm số thô ấn tượng, mà ở triết lý phát triển phi truyền thống đã tạo nên Grok 4. Họ không chỉ phát hành một mà tới hai mô hình: Grok 4 và Grok 4 Heavy mạnh mẽ hơn. Mô hình đầu tiên, họ khẳng định, cho thấy khả năng suy luận vượt trội gấp mười lần so với Grok 3. Nhưng đây mới là điểm đột phá thực sự chưa từng có, điểm nhấn tu từ khiến người ta phải dừng lại: đội ngũ xAI đã đầu tư một lượng sức mạnh tính toán tương đương cho quá trình học tăng cường (reinforcement learning) như họ đã làm cho giai đoạn tiền huấn luyện (pre-training) ban đầu.

Điều này khá giống việc hình dung một đầu bếp dành nhiều thời gian để hoàn thiện cách trình bày và trang trí món ăn, cũng như thời gian anh ta dùng để tìm kiếm và sơ chế nguyên liệu thô. Theo quan niệm thông thường trong phát triển mô hình ngôn ngữ lớn, phần lớn tài nguyên thường được đổ vào biển dữ liệu tiền huấn luyện khổng lồ, còn tinh chỉnh chỉ là một bước hoàn thiện cuối cùng tương đối nhỏ bé, dù rất quan trọng. Nhưng xAI, dường như đã lật ngược thế cờ, dành một sự tương đương chưa từng có cho quá trình tinh chỉnh lặp đi lặp lại, dạy cho mô hình cách học hỏi từ những sai lầm và thành công của chính nó trong một môi trường năng động. Và điều này, các con số dường như đã chứng minh qua kết quả. Bản thân Elon Musk đã tuyên bố Grok 4 “tốt hơn trình độ tiến sĩ trong mọi loại môn học” – một tuyên bố quá lớn lao, đòi hỏi sự hoài nghi ngay lập tức, một thách thức đối với chính khái niệm về sự ưu việt trí tuệ của con người.

Tuy nhiên, chỉ cần nhìn vào điểm chuẩn Đánh giá Cấp độ Con người (Human Level Evaluation – HLE), một thước đo được thiết kế để kiểm tra trí tuệ ở trình độ sau đại học trên nhiều lĩnh vực từ toán học trừu tượng đến ngôn ngữ học chuyên sâu, dường như đã củng cố cho tuyên bố táo bạo này. Grok 4, hoạt động mà không cần bất kỳ công cụ phụ trợ nào, được báo cáo đã đạt điểm số đáng khen ngợi. Nhưng khi được phép sử dụng công cụ, hiệu suất của nó tăng vọt – một cải thiện vượt trội, xác nhận năng khiếu bẩm sinh của nó trong các tác vụ suy luận và lập kế hoạch thực tế, chính là bản chất của trí tuệ ứng dụng. Theo thước đo này, nó là mô hình thông minh nhất hiện có, bất kể mức giá khá đắt đỏ. Nó tự hào với điểm HLE cao hơn bất kỳ mô hình nào trong lịch sử, tạo ra một khoảng cách đáng kể, gần như choáng váng, giữa nó và các đối thủ cạnh tranh gần nhất. Đây không phải là về khả năng ghi nhớ máy móc; đây là những câu hỏi đòi hỏi suy luận logic đa bước, hiểu biết biểu tượng và kiến thức chuyên môn sâu rộng.

Điều này khiến tôi liên tưởng, một cách kỳ lạ, đến những đứa trẻ đôi khi bạn bắt gặp, chúng dường như tiếp thu kiến thức không phải qua học hành chăm chỉ mà qua sự thẩm thấu trực giác thuần túy – một đứa trẻ mà không cần học các quy tắc ngữ pháp một cách chính thức, vẫn nói trôi chảy một cách bẩm sinh, khiến người lớn phải bối rối. Hoặc có lẽ một vận động viên mà thay vì tập luyện miệt mài qua vô số bài tập, lại dường như học môn thể thao bằng cách chơi nó, bằng cách liên tục điều chỉnh theo những yêu cầu không thể đoán trước của chính trò chơi đó. Phương pháp “học bằng cách làm” phi truyền thống này, trên quy mô tính toán vĩ đại, dường như là bí quyết đặc biệt của đội ngũ xAI, cho phép Grok 4 thể hiện theo một cách gợi ý về một hình thức hiểu biết sâu sắc và tích hợp hơn.

Mô hình này còn tự hào với cửa sổ ngữ cảnh lên tới 256k token, một sự mở rộng đáng kể so với phiên bản tiền nhiệm, cho phép nó xử lý các cuộc hội thoại dài hơn, phức tạp hơn và phân tích các tài liệu lớn hơn. Đây thực sự là một thực thể đa phương thức ở đẳng cấp tiên phong, có khả năng suy luận trên các dạng đầu vào như văn bản, mã và thậm chí là hình ảnh, được tinh chỉnh không chỉ trên dữ liệu internet chung chung mà còn trên các bộ vấn đề có cấu trúc cao được thiết kế để mài giũa các khả năng chuyên biệt của nó. Nó thậm chí có thể tích hợp thông tin trực tiếp thông qua tìm kiếm dữ liệu thời gian thực – một tính năng quan trọng để điều hướng những dòng chảy linh hoạt, luôn thay đổi của phân tích mạng xã hội, tài chính hoặc dịch vụ khách hàng. Khả năng hỗ trợ gọi hàm và các quy trình làm việc phức tạp dựa trên công cụ của nó lặp lại những tích hợp tinh vi mà chúng ta đã thấy từ các nhà lãnh đạo ngành khác, hứa hẹn một sự hòa nhập liền mạch vào các hệ sinh thái kỹ thuật số hiện có, đồng thời được củng cố, họ tuyên bố, bằng bảo mật cấp doanh nghiệp nâng cao.

Dù vậy, Grok 4, với trí tuệ phi thường của mình, vẫn chưa hoàn toàn thành thạo các chi tiết trực quan phức tạp của bản dựng giao diện người dùng (UI mockups) hoặc các tác vụ lập trình phức tạp – một sự an ủi nhỏ, mang tính con người, rằng có lẽ một số lĩnh vực vẫn cần đến sự tinh tế thiết kế lộn xộn, trực giác của chúng ta. Nhưng đây chỉ là một trạng thái tạm thời, người ta nói, một khoảng lặng trước khi xAI sẽ tung ra một mô hình lập trình chuyên dụng vào tháng tới, và sau đó là một tác nhân đa phương thức (multimodal agent) và thậm chí là một mô hình tạo video, tất cả đều được lên kế hoạch xuất hiện như những cuộc xâm nhập tỉ mỉ nhưng không kém phần đáng kinh ngạc vào khả năng hiện tại của AI.

Khi xem xét hiệu suất của Grok 4 trên bảng xếp hạng ARC AGI2, một điểm chuẩn nổi tiếng khó khăn được thiết kế để đánh giá những dấu hiệu ban đầu của khả năng AGI, Grok 4 không chỉ đạt điểm cao; nó thiết lập một tiêu chuẩn mới, gần như tăng gấp đôi hiệu suất tốt nhất của các mô hình đã triển khai trước đây. Cứ như thể, sau khi đã cần mẫn leo lên đỉnh núi, nó lại phát hiện ra một đỉnh cao hơn nhiều, chưa từng thấy trước đây, và tiếp tục chinh phục nó với tốc độ đáng kinh ngạc.

Vậy, chúng ta nên hiểu gì về bước nhảy vọt mới nhất này? Liệu đây chỉ đơn thuần là một thắng lợi về kỹ thuật, một minh chứng cho sức mạnh tính toán thô được khai thác bằng sự khéo léo? Hay nó gợi ý về một điều gì đó sâu sắc hơn, một sự thay đổi trong chính cảnh quan của tri thức và trí thông minh? Tuyên bố “trình độ tiến sĩ”, với tính bao quát táo bạo của nó, buộc chúng ta phải đối mặt không chỉ với những gì máy móc có thể *làm*, mà còn với ý nghĩa của việc chúng ta từ lâu đã định nghĩa trí thông minh bằng các cột mốc thành tựu học thuật của con người. Có lẽ Grok 4, với sự ra đời phi truyền thống và những khả năng đáng ngạc nhiên của mình, không chỉ đang thể hiện một cách học mới cho máy móc, mà còn thúc đẩy chúng ta đánh giá lại những giả định của chính mình về ý nghĩa thực sự của việc học, và ranh giới của năng lực trí tuệ của chúng ta thực sự nằm ở đâu. Những câu hỏi, dường như, chỉ mới bắt đầu xuất hiện.