Sora AI: 텍스트에서 비디오로의 혁신적 도약

정보/일상정보

Sora AI: 텍스트에서 비디오로의 혁신적 도약

cy-kim 2024. 12. 11. 08:45

Sora는 OpenAI가 개발한 텍스트-투-비디오 모델로, 사용자가 입력한 텍스트 지시에 따라 사실적이고 창의적인 비디오를 생성하는 인공지능 시스템입니다. 이 모델은 DALL·E와 GPT 시리즈의 연구를 기반으로 하여, 텍스트 설명을 고화질의 동영상으로 변환하는 능력을 갖추고 있습니다.

Sora의 주요 기능:

텍스트 기반 비디오 생성: 사용자가 입력한 간단한 텍스트 설명을 바탕으로 최대 1분 길이의 고화질 비디오를 생성합니다. 예를 들어, "도쿄 거리를 걷는 여성"이라는 지시어를 입력하면 해당 장면의 비디오를 만들어냅니다.
기존 비디오 확장: 주어진 비디오의 앞뒤 장면을 예측하여 영상을 연장하거나 새로운 시퀀스를 추가할 수 있습니다.

개발 배경 및 역사:

Sora는 2024년 2월 15일에 처음 공개되었으며, 당시 OpenAI는 SUV가 산길을 주행하는 모습, 촛불 옆에 있는 털복숭이 몬스터 등의 예시 비디오를 선보였습니다. 이러한 데모는 Sora의 고도화된 비디오 생성 능력을 보여주었습니다. 이후 12월 9일, OpenAI는 Sora를 ChatGPT Plus 및 Pro 사용자에게 공개하며, 텍스트-투-비디오 AI 모델의 상용화를 시작했습니다.

기술적 세부사항:

Sora는 DALL·E 3의 기술을 응용하여 개발되었습니다. 이 모델은 3D '패치'를 디노이징하여 잠재 공간에서 비디오를 생성한 후, 이를 비디오 디컴프레서를 통해 표준 공간으로 변환합니다. 또한, 비디오-투-텍스트 모델을 활용한 재캡셔닝 기법을 사용하여 훈련 데이터를 보강하였습니다. OpenAI는 Sora를 훈련시키기 위해 공개적으로 이용 가능한 비디오와 저작권이 있는 비디오를 라이선스 받아 사용하였으나, 정확한 출처나 수량은 공개하지 않았습니다.

제한 사항 및 안전 조치:

Sora는 복잡한 물리 현상 시뮬레이션, 인과관계 이해, 좌우 구분 등에서 아직 한계를 보입니다. 예를 들어, 늑대 새끼들이 무리지어 움직이는 장면에서는 시각적으로 혼란스러운 결과가 나타날 수 있습니다. OpenAI는 이러한 한계를 인지하고 있으며, 성인물, 폭력적이거나 증오를 조장하는 콘텐츠, 유명인 이미지, 기존 지적 재산을 포함하는 콘텐츠에 대한 텍스트 프롬프트를 제한하는 등 안전 조치를 시행하고 있습니다.

출시 및 접근성:

현재 Sora는 ChatGPT Plus 및 Pro 사용자에게 제공되며, 유럽연합, 스위스, 영국을 제외한 대부분의 지역에서 이용 가능합니다. OpenAI는 Sora의 오용을 방지하기 위해 아동 성학대 자료 및 성적 딥페이크를 차단하고, 딥페이크 방지 기술을 개선하기 위해 인물 관련 업로드를 제한하는 등 다양한 조치를 취하고 있습니다.

미래 전망:

Sora는 텍스트를 기반으로 한 비디오 생성의 새로운 가능성을 열어주며, 콘텐츠 제작, 교육, 마케팅 등 다양한 분야에서 혁신을 가져올 것으로 기대됩니다. 그러나 기술의 발전과 함께 윤리적 고려와 오용 방지를 위한 지속적인 노력이 필요합니다.