Sora là gì? Ai tạo video từ văn bản gây sốc của OpenAI

Sora là gì? Ai tạo video từ văn bản gây sốc của OpenAI

Sora Ai là gì?

Sora là mô hình AI chuyển văn bản thành video được phát triển bởi OpenAI, đồng sáng tạo ChatGPT. “Chuyển văn bản thành video” có nghĩa là Sora nhận lời nhắc bằng văn bản và biến chúng thành các đoạn video ngắn.  Mặc dù Sora vẫn chưa được ra mắt công chúng nhưng chất lượng cao của các kết quả đầu ra mẫu được công bố cho đến nay đã gây ra những phản ứng vừa hào hứng vừa lo ngại.

Sora hoạt động như thế nào?

Sora AI được xây dựng trên mô hình khuếch tán, bắt đầu bằng một video giống với tiếng ồn tĩnh và dần dần tinh chỉnh nó bằng cách loại bỏ tiếng ồn qua nhiều bước. Mô hình này có thể tạo toàn bộ video trong một lần hoặc mở rộng các video hiện có để làm chúng dài hơn. Bằng cách xử lý nhiều khung hình cùng lúc, Sora đảm bảo rằng các đối tượng vẫn nhất quán, ngay cả khi tạm thời ở ngoài tầm nhìn.

Bằng cách sử dụng kiến trúc máy biến áp, tương tự như các mô hình GPT , Sora đạt được hiệu suất mở rộng vượt trội. Nó xử lý video và hình ảnh dưới dạng tập hợp các đơn vị dữ liệu nhỏ hơn được gọi là bản vá, có thể so sánh với mã thông báo trong mô hình GPT. Việc biểu diễn dữ liệu thống nhất này cho phép Sora huấn luyện trên nhiều mảng dữ liệu trực quan, bao gồm nhiều thời lượng, độ phân giải và tỷ lệ khung hình khác nhau.

Dựa trên nền tảng của mô hình DALL·E và GPT, Sora sử dụng kỹ thuật ghi chú lại từ DALL·E 3 để tạo chú thích mang tính mô tả cao cho dữ liệu đào tạo trực quan. Do đó, mô hình có thể làm theo hướng dẫn bằng văn bản của người dùng trong các video được tạo một cách trung thực hơn.

Tính năng chính của Sora

Tạo cảnh thực tế: Sora có thể tạo ra những cảnh phức tạp với nhiều nhân vật, mô phỏng chính xác cảm xúc và bối cảnh chi tiết.

Hiểu ngôn ngữ: Với sự hiểu biết sâu sắc về ngôn ngữ, Sora diễn giải các gợi ý để tạo ra những câu chuyện hấp dẫn.

Tính liên tục của video: Nó có thể tạo ra nhiều cảnh quay trong một video duy nhất, duy trì tính nhất quán của nhân vật và phong cách hình ảnh.

Điểm yếu của Sora

Nó có thể gặp khó khăn trong việc mô phỏng chính xác tính chất vật lý của một cảnh phức tạp và có thể không hiểu các trường hợp cụ thể về nguyên nhân và kết quả. Ví dụ, một người có thể cắn một miếng bánh quy, nhưng sau đó, chiếc bánh quy có thể không có vết cắn.

Mô hình cũng có thể nhầm lẫn các chi tiết không gian của lời nhắc, chẳng hạn như trộn lẫn trái và phải và có thể gặp khó khăn với các mô tả chính xác về các sự kiện diễn ra theo thời gian, chẳng hạn như đi theo một quỹ đạo camera cụ thể.

Ví dụ về video được tạo bởi Sora

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

Prompt: A close up view of a glass sphere that has a zen garden within it. There is a small dwarf in the sphere who is raking the zen garden and creating patterns in the sand.

Prompt: The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. The dirt road curves gently into the distance, with no other cars or vehicles in sight. The trees on either side of the road are redwoods, with patches of greenery scattered throughout. The car is seen from the rear following the curve with ease, making it seem as if it is on a rugged drive through the rugged terrain. The dirt road itself is surrounded by steep hills and mountains, with a clear blue sky above with wispy clouds.

Prompt: Tour of an art gallery with many beautiful works of art in different styles.

Prompt: Step-printing scene of a person running, cinematic film shot in 35mm.

Weakness: Sora sometimes creates physically implausible motion.

Prompt: The camera directly faces colorful buildings in Burano Italy. An adorable dalmation looks through a window on a building on the ground floor. Many people are walking and cycling along the canal streets in front of the buildings.

Rủi ro của Sora là gì?

Vì sản phẩm còn mới nên các rủi ro vẫn chưa được mô tả đầy đủ nhưng có thể sẽ tương tự như các mô hình chuyển văn bản thành hình ảnh.

Tạo nội dung có hại

Nếu không có biện pháp bảo vệ, Sora có quyền tạo ra nội dung không phù hợp hoặc không phù hợp, bao gồm các video có chứa bạo lực, máu me, tài liệu khiêu dâm, mô tả xúc phạm các nhóm người và hình ảnh thù địch khác cũng như quảng bá hoặc tôn vinh các hoạt động bất hợp pháp.

Những yếu tố cấu thành nội dung không phù hợp sẽ khác nhau rất nhiều tùy thuộc vào người dùng và bối cảnh của việc tạo video.

Thông tin sai lệch và xuyên tạc

Dựa trên các video mẫu được OpenAI chia sẻ, một trong những điểm mạnh của Sora là khả năng tạo ra những cảnh tượng kỳ ảo không tồn tại trong đời thực. Điểm mạnh này cũng giúp bạn có thể tạo các video "deepfake" trong đó người thật hoặc tình huống thực bị biến thành điều gì đó không có thật. Khi nội dung này được trình bày là sự thật, dù vô tình hay cố ý nó có thể gây ra vấn đề.

Những thành kiến và khuôn mẫu

Đầu ra của các mô hình AI tổng quát phụ thuộc rất nhiều vào dữ liệu mà nó được đào tạo. Điều đó có nghĩa là những thành kiến hoặc khuôn mẫu về văn hóa trong dữ liệu đào tạo có thể dẫn đến những vấn đề tương tự trong các video thu được. 

Ngày phát hành Sora 

Sora hiện đang trong giai đoạn được cung cấp cho một nhóm người dùng chọn lọc, chẳng hạn như các thành viên đội đỏ và các chuyên gia sáng tạo như nghệ sĩ thị giác, nhà thiết kế và nhà làm phim, nhằm mục đích đánh giá và thu thập phản hồi. Điều này cho thấy rằng mô hình đang ở giai đoạn phát hành trước hoặc giai đoạn truy cập sớm, với mục tiêu tinh chỉnh và giải quyết mọi rủi ro hoặc tác hại tiềm ẩn liên quan đến việc triển khai mô hình.

Lời kết

Sora là một mô hình AI tiên tiến được thiết kế để tạo ra các cảnh video chân thực từ các hướng dẫn bằng văn bản, hứa hẹn mang lại những ứng dụng mang tính biến đổi trên nhiều lĩnh vực khác nhau bằng cách nâng cao khả năng thể hiện sáng tạo và giúp việc sản xuất video trở nên dễ tiếp cận và hiệu quả hơn. Hãy cùng đón chờ Sora Ai với các tính năng tuyệt vời từ nó.

Đăng nhận xét

Mới hơn Cũ hơn