Trong bối cảnh cuộc đua phát triển trí tuệ nhân tạo (AI) ngày càng khốc liệt, vấn đề bản quyền và quyền sở hữu trí tuệ với dữ liệu huấn luyện các mô hình ngôn ngữ lớn (LLM) trở nên nóng hơn bao giờ hết. Mới đây, OpenAI đã có động thái cứng rắn nhằm ngăn chặn hành vi "sao chép" từ các đối thủ cạnh tranh, trong đó nổi bật là DeepSeek.
Cuộc chiến dữ liệu huấn luyện trong thế giới AI
OpenAI đã triển khai một biện pháp mới: yêu cầu xác minh ID chính phủ đối với tất cả các nhà phát triển muốn truy cập vào các mô hình AI tiên tiến nhất của họ. Mặc dù lý do được đưa ra là để đảm bảo an toàn và tránh lạm dụng, nhiều chuyên gia nhận định rằng đây thực chất là một bước đi chiến lược nhằm ngăn chặn việc các đối thủ khai thác dữ liệu từ mô hình của OpenAI để huấn luyện mô hình riêng – một hành vi không xa lạ trong giới AI, được gọi là “distillation” (chưng cất mô hình).
DeepSeek – một cái tên đang nổi lên nhanh chóng trong cộng đồng AI Trung Quốc – bị nghi ngờ đã thực hiện chính điều này. Bằng cách “hút” đầu ra từ các mô hình như GPT-4 hoặc GPT-3.5 của OpenAI, DeepSeek có thể đã sử dụng dữ liệu này để huấn luyện lại mô hình riêng của họ, từ đó tiết kiệm đáng kể thời gian, chi phí và công sức xây dựng một mô hình AI từ đầu.
Bằng chứng từ nghiên cứu bên thứ ba
Một nghiên cứu từ công ty Copyleaks – chuyên về phát hiện đạo văn và kiểm tra nội dung AI – đã cung cấp những bằng chứng đáng chú ý. Theo đó, khoảng 74% đầu ra của mô hình DeepSeek-R1 có thể được phân loại là do OpenAI tạo ra. Đây là một con số cực kỳ đáng báo động, đặc biệt trong bối cảnh bản quyền dữ liệu huấn luyện AI vẫn còn là vùng xám về pháp lý.
Trái lại, các mô hình khác như phi-4 của Microsoft và Grok-1 của Elon Musk (xAI) lại cho thấy sự khác biệt rõ rệt. Tỷ lệ "không đồng thuận" với OpenAI lên đến 99,3% và 100%, cho thấy họ không sử dụng dữ liệu từ GPT trong quá trình huấn luyện mô hình – ít nhất là không đến mức gây lo ngại như DeepSeek.
OpenAI phản ứng: giới hạn và giám sát
Việc yêu cầu xác minh danh tính người dùng là động thái cụ thể đầu tiên của OpenAI trong việc kiểm soát việc truy cập vào mô hình của mình. Biện pháp này không chỉ nhằm xác định rõ ai đang sử dụng API của họ, mà còn giúp OpenAI có thể truy xuất và xử lý các trường hợp vi phạm điều khoản dịch vụ – như việc sử dụng đầu ra để huấn luyện lại một mô hình khác.
Đây là một bước đi có thể tạo tiền lệ trong ngành AI. Trong tương lai gần, không loại trừ khả năng các công ty AI lớn như Anthropic, Google DeepMind hay Meta cũng sẽ áp dụng các chính sách kiểm soát tương tự để bảo vệ thành quả nghiên cứu và đầu tư của mình.
Câu chuyện đạo đức và "gậy ông đập lưng ông"?
Tuy nhiên, phản ứng của OpenAI cũng khiến nhiều người đặt câu hỏi về sự nhất quán đạo đức. Rất nhiều nhà quan sát chỉ ra rằng OpenAI – đặc biệt là trong những ngày đầu phát triển GPT – cũng đã tận dụng dữ liệu từ internet để huấn luyện mô hình của mình. Điều đáng nói là phần lớn dữ liệu đó đến từ các trang web, nhà xuất bản tin tức, diễn đàn, blog cá nhân… mà không hề có sự đồng ý của chủ sở hữu nội dung.
Việc OpenAI nay quay sang bảo vệ nội dung đầu ra của mình với lý do bản quyền có thể bị xem là hành động "gậy ông đập lưng ông". Nó cũng cho thấy cuộc chiến giữa các công ty AI không chỉ diễn ra trên khía cạnh công nghệ mà còn trong vấn đề đạo đức, pháp lý và chiến lược kinh doanh. OpenAI có quyền bảo vệ tài sản trí tuệ của mình, nhưng cũng cần minh bạch và công bằng trong cách họ tiếp cận vấn đề này.
Từ sự kiện này có thể thấy dữ liệu là tài nguyên quý giá bậc nhất. Ai sở hữu dữ liệu, người đó sẽ nắm giữ quyền lực. Và khi mọi công ty đều tranh nhau để "đào mỏ", câu hỏi quan trọng được đặt ra là "nguồn gốc dữ liệu mà bạn nhận được thực sự đến từ đâu?"