ByteDance, công ty mẹ của TikTok, vừa gây sốt với một bước tiến đột phá trong công nghệ trí tuệ nhân tạo (AI) khi ra mắt OmniHuman-1. Đây là một hệ thống AI tiên tiến có khả năng tạo ra video sống động từ một bức ảnh tĩnh duy nhất, cho phép nhân vật trong ảnh có thể nói chuyện, cử động và biểu cảm khuôn mặt như người thật. Công nghệ này đang thu hút sự quan tâm lớn từ cả giới công nghệ lẫn công chúng, đồng thời đặt ra nhiều câu hỏi về tương lai của nội dung số.
Công nghệ do ByteDance phát triển có thể tái tạo đầy đủ chuyển động cơ thể, cử chỉ tay và biểu cảm khuôn mặt chỉ từ một bức ảnh đầu vào. Để minh họa khả năng ấn tượng của OmniHuman-1, ByteDance đã đăng tải một đoạn video demo về Albert Einstein. Trong video, Einstein xuất hiện trong môi trường đen trắng sắc nét, đứng trước bảng đen, nói chuyện và nhấn mạnh từng lời nói bằng những cử chỉ tay chân thực. Những người xem đoạn video đều cảm thấy như đang quay ngược thời gian để chứng kiến nhà vật lý vĩ đại này trực tiếp giảng bài trong một giảng đường đại học.
Công nghệ vượt trội so với các AI hiện có
Theo nghiên cứu công bố trên nền tảng khoa học arXiv, OmniHuman-1 vượt trội hơn so với các công nghệ hiện có nhờ khả năng tạo video cực kỳ chân thực chỉ từ những tín hiệu đầu vào yếu như âm thanh. AI này có thể hoạt động với hình ảnh ở bất kỳ tỷ lệ nào, từ chân dung, bán thân đến toàn thân, mang lại kết quả mượt mà và sống động trong nhiều bối cảnh khác nhau.

Không chỉ giới hạn ở việc tái tạo gương mặt, OmniHuman-1 còn có thể mô phỏng toàn bộ chuyển động của cơ thể một cách chính xác. Điều này có nghĩa là AI không chỉ làm cho nhân vật trong ảnh "nói chuyện" mà còn có thể tạo ra các cử chỉ tay, tư thế và động tác phức tạp, khiến video trông tự nhiên hơn bao giờ hết.

Công nghệ AI mới này mở ra hàng loạt ứng dụng tiềm năng. Trong ngành giải trí, AI có thể giúp hồi sinh những nhân vật lịch sử hoặc những ngôi sao điện ảnh quá cố để xuất hiện trong phim mới. Freddy Tran Nager, giáo sư truyền thông tại Đại học Nam California, nhận định rằng Hollywood hoàn toàn có thể sử dụng công nghệ này để đưa những huyền thoại như Humphrey Bogart trở lại màn ảnh. Dù chưa rõ hiệu ứng của nó trên màn ảnh rộng sẽ ra sao, nhưng trong môi trường trực tuyến hay trên thiết bị di động, AI này chắc chắn sẽ tạo ra một làn sóng mới.
Bên cạnh đó, OmniHuman-1 cũng có thể được ứng dụng trong lĩnh vực giáo dục, giúp tạo ra các bài giảng trực quan hơn với sự xuất hiện của những nhân vật lịch sử hoặc thậm chí là những giáo viên ảo. Các nền tảng truyền thông và mạng xã hội cũng có thể tận dụng công nghệ này để tạo ra nội dung video phong phú chỉ từ hình ảnh và âm thanh đầu vào đơn giản.
Lo ngại về deepfake và thông tin sai lệch
Dù đầy tiềm năng, công nghệ AI này cũng đặt ra những lo ngại đáng kể về tính xác thực của nội dung số. Samantha G. Wolfe, giáo sư tại Đại học NYU, cảnh báo rằng AI có thể bị lợi dụng để tạo ra các video giả mạo nhằm thao túng dư luận. Một đoạn video giả mạo một doanh nhân hoặc một nhà lãnh đạo chính trị phát biểu những điều không có thật có thể gây ảnh hưởng nghiêm trọng đến xã hội và nền kinh tế.
Khi AI ngày càng hoàn thiện, việc phân biệt giữa nội dung thật và giả sẽ càng trở nên khó khăn hơn. Điều này đặt ra thách thức lớn đối với các nền tảng truyền thông trong việc kiểm soát nội dung và ngăn chặn các hành vi lạm dụng AI để phát tán thông tin sai lệch.
ByteDance sử dụng dữ liệu nào để huấn luyện AI?
OmniHuman-1 được ByteDance huấn luyện trên hơn 18.700 giờ video về con người, sử dụng dữ liệu từ nhiều nguồn khác nhau, bao gồm văn bản, âm thanh và tư thế cơ thể. Tuy nhiên, công ty này không tiết lộ chính xác nguồn dữ liệu mà AI sử dụng. Nhiều chuyên gia đặt ra nghi vấn rằng chính lượng video khổng lồ được tải lên TikTok mỗi ngày có thể đang được dùng để huấn luyện AI mà không có sự đồng ý rõ ràng từ người dùng.
Với lượng dữ liệu khổng lồ mà ByteDance có thể tiếp cận, OmniHuman-1 có tiềm năng trở thành công nghệ AI hàng đầu trong lĩnh vực sản xuất nội dung số. Tuy nhiên, câu hỏi đặt ra là liệu người dùng TikTok có vô tình trở thành một phần trong kho dữ liệu đào tạo AI hay không?
Mặc dù OmniHuman không phải là công nghệ AI đầu tiên có khả năng biến ảnh tĩnh thành video, nhưng nó là một trong những bước tiến lớn nhất nhờ khả năng xử lý dữ liệu khổng lồ của ByteDance. Với sự phát triển như vũ bão của AI, nhiều người bắt đầu nghi ngờ liệu tương lai của video có còn cần đến con người thật hay không. Nếu AI có thể tạo ra những video chân thực đến mức không thể phân biệt với con người, vai trò của các diễn viên, người dẫn chương trình và thậm chí cả giáo viên có thể sẽ bị thay đổi mãi mãi.
Dù vậy, việc AI có thể hoàn toàn thay thế con người hay không vẫn còn là một dấu hỏi lớn. Công nghệ có thể mô phỏng chuyển động, nhưng việc truyền tải cảm xúc thật sự vẫn là một thách thức. Có lẽ, trong tương lai, AI sẽ không thay thế con người mà sẽ trở thành một công cụ hỗ trợ đắc lực, giúp tạo ra những nội dung phong phú và sáng tạo hơn.
OmniHuman-1 là minh chứng rõ ràng cho thấy AI đang thay đổi cách chúng ta tạo và tiêu thụ nội dung số. Nhưng cùng với đó, nó cũng đặt ra những thách thức lớn về đạo đức và kiểm soát thông tin. Liệu chúng ta đã sẵn sàng cho một thế giới nơi AI có thể "thổi hồn" vào bất kỳ bức ảnh nào chưa? Chỉ có thời gian mới có thể trả lời câu hỏi này.