Sora von OpenAI: Was kann der KI-Video-Generator?
Mit wenigen Worten ein hochqualitatives Video generieren – ermöglicht wird dies durch das OpenAI-Programm Sora, das 2024 auf den Markt kommen soll. So funktioniert der KI-Video-Generator.
Texte schreiben kann künstliche Intelligenz (KI) mittlerweile so gut, dass ihre Erzeugnisse kaum noch von menschengemachten Werken zu unterscheiden sind. Bei der Generierung von Bildern und insbesondere von Videos hatten KI-Systeme aber bislang noch Probleme: Deformierte Gesichter, unscharfe Konturen und ein allzu kitschiger Stil verrieten selbst ungeübten Augen, dass das Bild oder Video KI-generiert ist.
Das wird sich wohl bald ändern. Noch in diesem Jahr will das KI-Forschungsunternehmen OpenAI das bahnbrechende KI-Tool Sora auf den Markt bringen. Von OpenAI stammen auch das KI-Sprachmodell ChatGPT und das Text-zu-Bild-Programm Dall-E. Im Februar 2024 wurde Sora bereits vorgestellt und hat für großes Aufsehen gesorgt – sowohl in der Fachwelt als auch unter Laiinnen und Laien.
Mit Sora soll es nun möglich sein, anhand von wenigen anleitenden Worten ein Video in hoher Qualität mit bis zu einer Minute Länge zu erstellen. Fotorealistische Videos lassen sich damit ebenso anfertigen wie Animationen, allerdings ohne Ton.
Wie Sora und andere KI-Video-Generatoren das machen, ob es derzeit gute Alternativen zu Sora gibt und welche Risiken mit der Technologie einhergehen, darum geht es in diesem Beitrag.
Wie funktionieren Sora & Co.?
Damit die KI das gewünschte Video generiert, müssen Nutzerinnen und Nutzer ihr einen kurzen Prompt – also eine Textanweisung – geben. Ein Beispiel dafür könnte sein: „Ein Filmtrailer zu den Abenteuern eines 30-jährigen Weltraummannes, der einen roten Wollstrick-Motorradhelm trägt, blauer Himmel, Salzwüste, filmischer Stil, gedreht auf 35-mm-Film, lebendige Farben.“
Aber wie kommt das KI-Modell von einem Textbefehl zum fertigen Video?
Sora stützt sich auf eine innovative Mischung aus Transformer-Architektur und Diffusionsmodellen, ein sogenanntes Diffusionstransformatormodell. Während Transformer, eine Art neuronales Netz, vor allem in großen KI-Sprachmodellen wie ChatGPT oder Google Gemini zum Einsatz kommen, liegen Diffusionsmodelle zahlreichen KI-Bild-Generatoren zugrunde. Sie beginnen bei der Erstellung eines Bildes mit einem zufälligen Rauschen und entwickeln nach und nach ein klareres Bild, das dem Prompt entspricht.
Wie KI-Programme beim Erstellen eines Bildes vorgehen, erklärt unser Beitrag „Bild-KI: Was die Bildgeneratoren können und wie sie funktionieren“.
Während Diffusionsmodelle besonders gut für die Generierung feiner Texturen und Details sind, strukturieren Transformer den Gesamtaufbau eines Bewegtbilds. Sie sorgen dafür, dass die einzelnen Bilder, die für die Erzeugung eines Videos aneinandergereiht werden, untereinander kohärent und stimmig sind.
Damit das KI-Programm überhaupt weiß, wie etwa ein bestimmtes Tier aussieht und wie sich dieses bewegt, wird das Modell mit Unmengen an Daten „gefüttert“. Das trifft auch auf andere KI-Modelle zu, die mit neuronalen Netzen und maschinellem Lernen arbeiten.
Über die Funktionsweise von KI-Text-Generatoren informiert unser Beitrag „KI-Textgeneratoren: So funktionieren AI-Anwendungen wie ChatGPT und Co.“
KI-Video-Generatoren: Welche Alternativen gibt es zu Sora?
Obwohl Sora – das KI-Modell, das zurzeit die besten Video-Ergebnisse verspricht – noch nicht verfügbar ist, können Neugierige schon jetzt mit Text-zu-Video-Tools experimentieren. Das sind einige Alternativen zu Sora:
- Runway: Das KI-Programm Runway gilt aktuell als eines der besten Tools für ein breites Publikum, um Videos mittels künstlicher Intelligenz zu generieren. Mit einem Gratis-Account können Sie eine limitierte Anzahl von Videos erstellen.
- Synthesia: Bei Synthesia sind die Möglichkeiten schon beschränkter. Hier können Sie einen Avatar auswählen und ihn im Video einen Text sprechen lassen, den Sie zuvor in ein Fenster tippen.
- Stable Video Diffusion: Das KI-Unternehmen StabilityAI hat im Jahr 2023 das Programm Stable Video Diffusion veröffentlicht. Das Tool befindet sich jedoch noch im Aufbau und wird anhand der Interaktionen mit Nutzerinnen und Nutzern weiterentwickelt.
Risiken der KI-Video-Generatoren
Noch weist Sora ein paar Mängel auf, etwa bei der Erfassung physikalischer Regeln – so kann es beispielsweise passieren, dass die Figur im Video von einem Keks abbeißt und der Keks danach noch ganz ist. Dennoch nimmt das Niveau an Fotorealismus in den Videos konstant zu.
Damit wächst auch die Sorge, dass KI-generierte Videos zur Herstellung sogenannter Deepfakes verwendet werden könnten: Bilder, Videos und Tonaufnahmen, die vorgeben, echt zu sein, obwohl eine KI sie erstellt hat. Das Potenzial, die Technologie für Desinformation und politische Kampagnen zu missbrauchen, ist enorm. Der Hersteller OpenAI arbeitet deshalb an einem Wasserzeichen, das KI-generierte Inhalte kenntlich macht.
Viele Staaten, darunter auch Österreich, prüfen eine mögliche Kennzeichnungspflicht für KI-Inhalte. Wie der aktuelle Stand ist, erklärt unser Beitrag „KI-generierte Inhalte: Kommt bald die Kennzeichnungspflicht?“
Offene Fragen gibt es auch beim Thema Datenschutz. Auf welche Daten sich das Training von KI-Modellen wie Sora stützt, ist nämlich nicht bekannt. OpenAI gab dazu lediglich an, dass es sich um öffentlich verfügbare oder lizenzierte Daten handele. Auch was mit den Textbefehlen an die KI geschieht, ist in der Regel unklar. Nutzerinnen und Nutzer sollten deshalb in ihren Prompts keine persönlichen Informationen preisgeben.
Für den Inhalt verantwortlich: A-SIT Zentrum für sichere Informationstechnologie – Austria