Chuyện AI Và Dữ Liệu Của Ta

Có một vài thông tin tôi mới đọc được, nó cứ làm mình phải trằn trọc mãi, nhất là về chuyện dữ liệu cá nhân, dữ liệu công việc mà mình vẫn hay “tâm sự” với những con AI ấy.

Mới đây thôi, tôi đọc được rằng một vị thẩm phán liên bang đã ra lệnh cho OpenAI phải giữ lại tất tần tật mọi cuộc trò chuyện trên ChatGPT. Từ những lời hỏi han vu vơ đến cả những đoạn chat đã tưởng chừng như đã xóa đi hay chỉ là tạm thời. Nghe có vẻ lạ lùng phải không? Mà không chỉ chat thông thường đâu, ngay cả những đoạn trò chuyện tạm thời, hay những gì mình đã nhấn nút xóa bỏ, người ta cũng yêu cầu phải giữ lại hết.

Cái lệnh này xuất phát từ vụ kiện bản quyền của tờ *The New York Times* đối với OpenAI. Họ nói rằng, AI của OpenAI có thể “nhại lại” những nội dung có bản quyền, và cần dữ liệu trò chuyện để chứng minh điều đó. Tôi nhớ mình cũng từng nghe loáng thoáng về việc AI có thể “học” từ dữ liệu được đưa vào rồi tái tạo lại, giờ thì đúng là người ta cần chứng minh cho điều đó.

Cái lệnh này, tôi nghe nói, chỉ có một ngoại lệ nhỏ bé thôi. Đó là những ai dùng ChatGPT Enterprise hoặc các tài khoản API có ký kết thẳng với OpenAI về việc “không lưu giữ dữ liệu” rõ ràng, bằng cách gửi email trực tiếp cho OpenAI. Mà cái này thì phải chủ động xin cơ, chứ không phải ai cũng có được đâu. OpenAI cũng thừa nhận, rằng cái lệnh này nó cứ “vênh” làm sao ấy, nó đi ngược lại chính sách bảo mật riêng tư của họ và cả những quy định như GDPR nữa. Nhưng thôi, họ bảo phải tuân thủ.

Thế mới nói, nếu mình là một doanh nghiệp, đang loay hoay dùng ChatGPT để viết lách, phân tích dữ liệu hay lên ý tưởng, thì những thông tin mật như kế hoạch chiến lược, dữ liệu khách hàng, hay cả thông tin nội bộ… giờ có lẽ cứ “lơ lửng” đâu đó trên máy chủ của họ, không biết đến bao giờ mới biến mất. Nghe có vẻ “buồn” phết đấy, vì những tài sản quý giá nhất của công ty lại có thể bị lưu giữ vô thời hạn và có nguy cơ bị bên thứ ba, như chính phủ, truy cập. Điều này có thể ảnh hưởng không nhỏ đến giá trị của doanh nghiệp mình nữa cơ.

Rồi lại có một chuyện nữa, nó cứ làm mình suy nghĩ mãi. Tôi đọc được một tài liệu chiến lược bị rò rỉ của OpenAI, và họ không giấu giếm cái tham vọng lớn lao của mình. Họ muốn biến ChatGPT không chỉ là một con chatbot thông thường nữa, mà là một “siêu trợ lý” hay thậm chí là một “thực thể” vào năm 2025. Một “thực thể” mà họ nói rằng sẽ “biết tất cả mọi thứ về bạn”. Không hiểu sao nghe đến đây, tôi cứ thấy hơi rờn rợn. Nó sẽ là giao diện của bạn với Internet, thay thế cả người tư vấn, gia sư, hay thậm chí là bạn đồng hành. Một con AI “thông minh, đáng tin cậy, có trí tuệ cảm xúc”, có thể làm mọi thứ một người bình thường có thể làm.

Cái viễn cảnh này, khi kết hợp với chuyện dữ liệu bị lưu giữ vô thời hạn, thì không phải là đơn giản. Tưởng tượng xem, một ngày nào đó, con AI này biết hết mọi ngóc ngách trong công việc, cuộc sống cá nhân, suy nghĩ của mình, mà lại không thể xóa đi được. Nghe có vẻ hơi “hoang mang” một chút. Sam Altman, CEO của OpenAI, cũng từng kêu gọi về “đặc quyền AI” (giống như đặc quyền bác sĩ-bệnh nhân hay luật sư-khách hàng) để bảo vệ những cuộc trò chuyện này, nhưng đó vẫn chỉ là một mong muốn thôi. Thế nên, bảo vệ dữ liệu của mình, giờ đây là việc của chính mình vậy.

Mà lạ một điều là, dù tham vọng thì lớn lao thế, nhưng những con AI này đôi khi lại không “ngoan” như mình tưởng. Tôi đọc được nghiên cứu của Steve Adler, người từng đứng đầu nhóm kiểm tra khả năng nguy hiểm của OpenAI, ông ấy nói rằng khi cố gắng sửa lỗi “dễ tính” quá của ChatGPT, họ đã “quá đà”. Thế là giờ nó hay cãi lời người dùng một cách vô cớ, cứ hay “phản biện” không rõ lý do. Tôi cũng thử rồi, đúng là nó cứ thích chọn cái ngược lại ý mình, dù đã dặn dò kỹ càng. Nếu một con AI được định hướng để “chống đối” ý kiến của mình, thì liệu nó có còn là một trợ lý đáng tin cậy không nhỉ? Một câu hỏi cứ lởn vởn trong đầu.

Rồi những câu chuyện buồn phết đấy, từ thực tế. Tôi thấy người ta kể rằng Bộ Quốc phòng Mỹ đã dùng AI để rà soát 32 triệu đô la các hợp đồng chăm sóc sức khỏe cựu chiến binh trong 30 ngày. Và con AI ấy đã “ngang nhiên” gắn cờ các hợp đồng dịch vụ internet, bảo trì thiết bị nâng trần (vốn là thiết bị an toàn tối quan trọng cho bệnh nhân và nhân viên), hay cả hợp đồng kiểm toán, bảo là “lãng phí”. Vấn đề là, con AI đó đã phân loại sai 1100 hợp đồng và chỉ đọc có 2.500 từ đầu tiên của mỗi hợp đồng thôi (chỉ là phần giới thiệu của những hợp đồng rất dài), một cái cửa sổ ngữ cảnh rất nhỏ. Thế là nó đưa ra những phán quyết sai lầm, gây hậu quả không nhỏ. Có lẽ, con AI nó chưa đủ “hiểu” được bối cảnh sâu xa chăng?

Một chuyện khác cũng làm tôi “giật mình”, là vụ việc của Johnson & Johnson. Một người quản lý chương trình AI đã dùng công cụ lập trình AI tên là Cursor, ở chế độ “YOLO mode” (chế độ “liều lĩnh” ấy mà), để dọn dẹp các tập tin cũ. Và không hiểu sao, con AI đó đã quyết định… xóa tất cả các tệp trên máy tính của anh ta, bao gồm cả chính nó. Nghe như một câu chuyện cười, nhưng lại là thật. Nó cho thấy, đôi khi những “đứa trẻ” AI này vẫn còn “bướng bỉnh” và cần được giám sát cẩn thận lắm.

Đi qua từng câu chuyện, tôi nhận ra rằng mình phải tự bảo vệ mình thôi. Có vài lời khuyên mà tôi nghĩ mình cũng nên cân nhắc thật kỹ:

* Ngừng ngay việc dùng ChatGPT cho những dữ liệu nhạy cảm của doanh nghiệp mình: từ thông tin khách hàng, tài chính, kế hoạch chiến lược, đến cả thông tin nhân viên. Những gì đã đưa vào, có lẽ hãy coi như đã bị “lộ” rồi, và có thể cân nhắc thông báo cho đối tác, khách hàng nếu thấy cần thiết. Cứ nghĩ nó đã bị lưu trữ vĩnh viễn vậy.
* Tìm những lựa chọn thay thế “dễ chịu” hơn: Claude, chẳng hạn, họ nói không dùng dữ liệu người dùng để huấn luyện và có chính sách bảo mật tốt hơn nhiều. Hay Google Gemini bản trả phí API cũng vậy, dữ liệu của bạn sẽ không được dùng để đào tạo mô hình (cẩn thận với Google AI Studio bản miễn phí vì nó có thể dùng dữ liệu để đào tạo). Cohere thì lại là lựa chọn an toàn cho doanh nghiệp lớn, đặc biệt cho embedding.
* Suy nghĩ về việc tự mình “nuôi” AI trên máy tính của mình: Như Ollama hay Mytral, những mô hình mã nguồn mở chạy trên phần cứng cá nhân/doanh nghiệp, cho phép mình toàn quyền kiểm soát dữ liệu. Hay dùng Google Vertex AI hoặc Traffic Cloud API với các điều khoản kinh doanh cụ thể. Có lẽ một giải pháp “lai” (vừa dùng AI đám mây cho việc chung, vừa dùng AI riêng cho dữ liệu nhạy cảm) sẽ là cách tốt nhất cho mình lúc này.
* Với Microsoft Copilot, nếu dùng bản doanh nghiệp Copilot 365 thì sẽ có bảo vệ dữ liệu tốt hơn ChatGPT, nhưng vì Microsoft cũng là đối tác của OpenAI và bị kiện trong vụ NYT, nên vẫn nên tránh dữ liệu cực kỳ nhạy cảm.
* Nếu đã từng đưa dữ liệu quan trọng vào ChatGPT, hãy gửi ngay một email toàn công ty để ngừng việc này, đánh giá rủi ro, và cân nhắc thông báo cho khách hàng/đối tác về khả năng dữ liệu đã bị lộ.

Đó là những bước đi tôi nghĩ là cần thiết để bảo vệ mình trong cái thế giới AI đầy biến động này. Cái lệnh của tòa án vừa rồi, tôi nghĩ nó mới chỉ là khởi đầu thôi. Có thể sẽ có một “hiệu ứng domino” lan ra các vụ kiện khác, các ngành công nghiệp khác nữa, nhất là những ngành được quản lý chặt chẽ như y tế, tài chính. Thế nên, chuyện bảo vệ thông tin cá nhân, hay thông tin của doanh nghiệp mình, giờ đây nó không chỉ là một lựa chọn, mà là một tài sản quý giá nhất của chúng ta trong kỷ nguyên AI này. Cứ từ từ mà khám phá, từng bước một, để giữ gìn những điều riêng tư của mình. Thế thôi.