Trí tuệ nhân tạo “biết” như thế nào? Từ những góc khuất trong tâm trí đến mô hình lai ghép RAG-CAG

Trong những góc khuất của tâm trí tôi, tựa như những căn gác xép nhỏ phủ đầy bụi thời gian, có những ký ức đã được cất giữ mà nay tôi chẳng thể truy cập trọn vẹn. Liệu đó có phải là tên hiệu sách bé xinh ở Lisbon, hay sắc thái tinh tế của một luận điểm triết học từng khiến tôi say mê? Không phải thông tin ấy hoàn toàn biến mất, mà dường như nó bị khóa chặt, nằm ngoài tầm với tức thì của ý thức. Điều này khiến tôi tự hỏi, nếu ngay cả bộ óc con người vốn phi thường của chúng ta còn gặp phải giới hạn như vậy, thì điều đó có ý nghĩa gì đối với những trí tuệ kỹ thuật số rộng lớn mà chúng ta đang vun đắp? Làm thế nào những mạng lưới thần kinh khổng lồ, được huấn luyện trên hàng petabyte dữ liệu tĩnh, thực sự có thể “biết” được một điều gì đó chưa tồn tại ngày hôm qua, hoặc một thông tin độc đáo, riêng tư của chính chúng ta?

Tôi nhận thấy, câu hỏi này nằm ở trọng tâm của một vấn đề thú vị trong thế giới các Mô hình Ngôn ngữ Lớn (LLM) – một “vấn đề về tri thức”, như cách các kỹ sư thường gọi. Hãy hình dung một nhà bác học thiên tài, người đã đọc ngấu nghiến mọi cuốn sách được viết ra cho đến năm 2023. Họ có thể đàm đạo trôi chảy về lịch sử, vật lý hay thi ca. Nhưng nếu bạn hỏi về người chiến thắng giải Oscar cho Phim hay nhất năm 2025, hay số liệu doanh số chính xác từ báo cáo quý của công ty bạn, họ sẽ hoàn toàn không biết gì. Kiến thức của họ, dù uyên bác đến đâu, vẫn bị giới hạn bởi thời điểm học hỏi. Vậy thì, làm thế nào chúng ta có thể ban tặng cho những trí tuệ kỹ thuật số này một nhận thức sống động, “biết thở” về thế giới đang diễn ra, hoặc khả năng truy cập vào những kho lưu trữ riêng tư do chính chúng ta tạo ra?

Từ các phòng thí nghiệm kỹ thuật số, hai chiến lược chính đã nổi lên, hai cách tiếp cận triết học riêng biệt nhằm nâng cao hiểu biết vốn có của LLM. Một trong số đó, được biết đến là Retrieval Augmented Generation (RAG) – tạm dịch là Sinh văn bản có tăng cường truy xuất, giống như việc bạn cử một thủ thư mẫn cán đi làm nhiệm vụ. Khi bạn hỏi LLM một câu mà nó không thể trả lời từ dữ liệu huấn luyện cốt lõi, nó không chỉ đơn thuần “bó tay”; thay vào đó, nó sẽ cử một “bộ truy xuất” chuyên biệt đến một thư viện khổng lồ bên ngoài – một “cơ sở dữ liệu vector” chứa hàng triệu tài liệu, tất cả đều được lập chỉ mục gọn gàng theo ý nghĩa khái niệm. Sau khi nhanh chóng rà soát các kệ sách liên quan, bộ truy xuất này sẽ lấy ra những đoạn văn phù hợp nhất và đặt chúng trực tiếp lên bàn làm việc của LLM, ngay bên cạnh câu hỏi ban đầu của bạn. LLM sau đó, với ngữ cảnh vừa được truy xuất này, sẽ xây dựng câu trả lời. Đây là một hệ thống tinh tế, hoạt động theo yêu cầu, có tính mô-đun cao, giống như xây một ngôi nhà mà bạn có thể thay thế hệ thống ống nước mà không cần đụng đến mái nhà. Nó mở rộng quy mô một cách tuyệt vời, cho phép những “nhà bác học kỹ thuật số” này tham khảo các thư viện ảo lớn hơn bất kỳ thư viện vật lý nào, được cập nhật tăng dần mà không cần đọc lại toàn bộ bộ sưu tập. Thách thức, tất nhiên, là chất lượng câu trả lời phụ thuộc hoàn toàn vào tài năng của “thủ thư” trong việc tìm đúng cuốn sách, và chỉ đúng cuốn sách mà thôi.

Cách tiếp cận còn lại, Cache Augmented Generation (CAG) – tạm dịch là Sinh văn bản có tăng cường bộ nhớ đệm, lại đi theo một hướng khác. Thay vì cử một thủ thư đi tìm mỗi khi có yêu cầu, phương pháp này đòi hỏi LLM phải nội hóa *toàn bộ* cơ sở tri thức liên quan ngay từ đầu. Hãy hình dung việc bạn cần mẫn đọc từng trang của hàng trăm cuốn sổ tay sản phẩm, hoặc từng bản ghi nhớ nội bộ của công ty bạn, và ghi nhớ tất cả chúng trong một lần ngồi kéo dài, đầy căng thẳng. Khi đã được hấp thụ, thư viện nội bộ khổng lồ này, giờ đây đã trở thành một phần cốt lõi của mô hình, sẽ có thể truy cập tức thì cho các truy vấn sau đó. Quá trình ban đầu, việc nạp hàng chục hoặc hàng trăm nghìn token vào bộ nhớ tạm thời của mô hình, có thể là một công việc nặng nề. Nhưng một khi hoàn tất, câu trả lời sẽ tuôn trào với tốc độ chóng mặt, như thể kiến thức đơn thuần là một phần của quá trình tư duy tức thời, tự phát của LLM. Sự đánh đổi ở đây là rõ ràng: trong khi cực kỳ nhanh và tinh gọn cho một khối lượng tri thức cố định, có kích thước vừa phải, nó lại vấp phải giới hạn cứng về lượng thông tin mà nó có thể hấp thụ hợp lý, bị ràng buộc bởi “cửa sổ ngữ cảnh” của mô hình. Và, điều quan trọng là, bất kỳ thay đổi nào đối với cơ sở tri thức đó, dù chỉ là một đoạn văn được cập nhật, cũng đòi hỏi quá trình đọc lại và ghi nhớ lại *tất cả mọi thứ* một cách nhọc nhằn. Nó giống như một cuốn bách khoa toàn thư tinh xảo được lập chỉ mục trong tâm trí, một khi đã được biên soạn, sẽ chống lại bất kỳ sự thay đổi nào.

Vậy, chúng ta nên chọn giữa chuyến thám hiểm nhanh chóng, tập trung của “thủ thư” RAG, hay cuốn bách khoa toàn thư được nội hóa sâu sắc nhưng hữu hạn của CAG? Có vẻ như, cũng như bao tình huống khó xử thú vị khác trong cuộc sống, câu trả lời hiếm khi là một lựa chọn “hoặc cái này, hoặc cái kia” đơn thuần. Có những lúc, tôi cho rằng, khi chúng ta cần tham khảo một khối lượng lớn các tiền lệ pháp luật không ngừng tăng lên, nơi khối lượng và sự phát triển liên tục của thông tin đòi hỏi sự chính xác và khả năng mở rộng của RAG. Và rồi lại có những khoảnh khắc, như khi một bộ phận hỗ trợ IT cần câu trả lời tức thì, chính xác từ một cuốn sổ tay sản phẩm cố định, tương đối nhỏ, nơi độ trễ thấp và sự đơn giản của CAG thực sự tỏa sáng.

Nhưng cái nhìn sâu sắc nhất, điều khiến tôi phải nghiêng người về phía trước, chính là ý tưởng về một cách tiếp cận lai ghép. Đó là khả năng tận dụng thế mạnh của cả hai, giống như cách một nhà nghiên cứu kỳ cựu có thể khảo sát sơ bộ một kho lưu trữ khổng lồ để tìm tài liệu liên quan, và sau khi đã thu hẹp trọng tâm, sẽ chuyên sâu nghiên cứu *tập hợp con cụ thể đó* của thông tin. Chúng ta có thể dùng RAG để sàng lọc hiệu quả hàng triệu hồ sơ bệnh án và bài báo nghiên cứu, chỉ truy xuất những thông tin phù hợp nhất cho một trường hợp lâm sàng cụ thể. Sau đó, khi đã tập hợp bộ sưu tập tài liệu liên quan được tập trung này, chúng ta có thể nạp *toàn bộ tập hợp con đã được truy xuất đó* vào cửa sổ ngữ cảnh của LLM bằng cách tiếp cận tương tự CAG, cho phép mô hình xử lý nó như một bộ nhớ tạm thời toàn diện về bệnh sử và triệu chứng của bệnh nhân cụ thể đó. Điều này cho phép hiểu biết sâu sắc hơn, tinh tế hơn về trường hợp *cụ thể*, cho phép các câu hỏi theo dõi phức tạp mà không cần truy vấn lại liên tục, đồng thời vẫn hoạt động trên một cơ sở tri thức nền tảng vốn quá rộng lớn để có thể lưu trữ toàn bộ.

Có lẽ, hành trình hướng tới trí tuệ nhân tạo đích thực không phải là ban cho nó sự toàn tri, mà là ban cho nó một năng lực giống con người hơn: khả năng biết mình không biết gì, biết cách tìm kiếm thông tin, cách nội hóa thông tin đó, và cuối cùng, cách dệt nên một bức tranh hiểu biết phong phú hơn, giống như cách chúng ta vẫn làm – từng câu hỏi, từng lần tìm kiếm, và từng khoảnh khắc tĩnh lặng để chiêm nghiệm.