KI-Update kompakt: Sora, Devin, SIMA, OpenAI-Roboter, KI-Superchip

Das "KI-Update" liefert werktäglich eine Zusammenfassung der wichtigsten KI-Entwicklungen.

In Pocket speichern vorlesen Druckansicht

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Lesezeit: 6 Min.
Von
Inhaltsverzeichnis

OpenAIs CTO Mira Murati sprach im Interview mit dem Wall Street Journal über den Videogenerator Sora, der noch in diesem Jahr verfügbar sein soll. Murati deutete an, dass möglicherweise Videos von Instagram und Facebook als Trainingsdaten verwendet wurden, sofern sie öffentlich zugänglich waren. Sora wird voraussichtlich in einer ähnlichen Preiskategorie wie Dall-E angeboten, obwohl das Generieren von Videos "viel, viel teurer" ist als die Nutzung von Dall-E oder ChatGPT. Beim Testen von Sora wurden beeindruckende Ergebnisse erzielt, jedoch mit einigen Unzulänglichkeiten wie Farbwechseln und zusätzlichen Fingern. Murati bestätigte, dass lizenziertes Material von Shutterstock in das Training einfloss.

Sora wird ohne Audiospur verfügbar sein, da die Qualität noch verbessert werden muss. Murati erklärte, dass Sora wie ein klassischer Film funktioniert, bei dem einzelne Bilder nacheinander ablaufen und der Videogenerator besonders gut darin ist, die Konsistenz zwischen diesen herzustellen. OpenAI arbeitet derzeit am Red Teaming für Sora, um Schranken und Leitplanken einzuziehen, und erforscht Möglichkeiten, KI-generierte Inhalte mit Wasserzeichen zu versehen oder Echtheit und Herkunft von Texten, Bildern, Audio und Video zu verifizieren.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Das Start-up Cognition hat einen KI-Agenten namens Devin entwickelt, der komplexe Software-Engineering-Aufgaben selbstständig bewältigen kann. Im Gegensatz zu KI-gestützten Codeassistenten wie GitHub Copilot, die einfache Codeblöcke erstellen, ist Devin für die Umsetzung vollständiger Projekte konzipiert. Der KI-Agent befindet sich derzeit in einer privaten Betaphase und hat noch keine technischen Informationen veröffentlicht. Das Unternehmen hat in einer ersten Finanzierungsrunde 21 Millionen US-Dollar erhalten.

YouTube-Videos zeigen Devin bei der Arbeit, etwa beim Erstellen einer Website mit Conways Spiel des Lebens, dem Verstecken von Nachrichten in Bildern oder dem automatischen Beheben von Bugs in Projekten. Der KI-Agent kann auch selbstständig nach zusätzlichen Informationen suchen und Dokumentationen konsultieren. Devin kann laut Cognition etwa 14 Prozent der Problemstellungen im SWE-bench lösen, einem Benchmark, der misst, wie gut Large Language Models bei real existierenden GitHub-Issues abschneiden. Interessierte können sich für die geschlossene Testphase bewerben.

Google DeepMind hat ein neues KI-Modell namens Sima (Scalable Instructable Multiworld Agent) entwickelt, das verschiedene Videospiele spielen kann. Im Unterschied zu früheren Spiele-KIs von Google, wie AlphaStar, zielt Sima nicht darauf ab, in einem bestimmten Spiel Highscores zu erzielen. Stattdessen kann das Modell eine Vielzahl von Spielen auf natürliche Weise spielen, ähnlich wie menschliche Spieler. Sima wurde in neun verschiedenen Videospielen trainiert, darunter "No Man's Sky", "Valheim" und "Goat Simulator". Die KI lernte dabei Fähigkeiten wie Navigation, Menübedienung, Rohstoffabbau und Raumschiffsteuerung.

Sima interagiert mit Spielen über Maus- und Tastatur-Outputs und benötigt keinen Zugriff auf den Quellcode oder APIs. Das Modell nimmt Befehle von Benutzern per Texteingabe entgegen und kann theoretisch auch in Spielen eingesetzt werden, für die es nicht speziell trainiert wurde. Allerdings ist Sima derzeit nur auf kurze Aufgaben von bis zu zehn Sekunden Dauer trainiert und kann daher keine Spiele von Anfang bis Ende durchspielen. Zukünftig sollen auch komplexere Befehle möglich werden, die mehrere Aufgabenbereiche gleichzeitig abdecken.

Cerebras, ein kalifornisches Unternehmen, hat die dritte Generation seines Riesenprozessors Wafer Scale Engine (WSE-3) vorgestellt. Der WSE-3 wird in der 5-Nanometer-Produktion von TSMC hergestellt und verfügt über 4 Billionen Transistoren, im Vergleich zu 2,5 Billionen bei der WSE-2. Die höhere Anzahl von Transistoren ermöglicht eine erhöhte Rechenleistung bei ähnlichem Energieverbrauch.

Der WSE-3 wird in den hauseigenen KI-Systemen CS-3 von Cerebras eingesetzt. Diese Systeme können mit zusätzlichen Speichererweiterungen kombiniert werden, um größere KI-Modelle zu trainieren. Laut Cerebras kann ein CS-3-Cluster KI-Modelle mit bis zu 24 Billionen Parametern trainieren.

Die WSE-3 bedeckt die gesamte nutzbare Fläche eines 30-Zentimeter-Siliziumwafers und besteht aus 900.000 KI-Rechenkernen sowie 44 GByte schnellem SRAM. Bis zu 2.048 CS-3-Systeme können über Schnittstellen miteinander verbunden werden. Ein solches Rechenzentrum soll laut Cerebras das generative KI-Sprachmodell Llama 70B in einem Tag trainieren können. Zudem können an jedes CS-3 zusätzliche Speichererweiterungen mit bis zu 1,2 Petabyte RAM angeschlossen werden.

Figure, eine Robotikfirma, hat in Zusammenarbeit mit OpenAI einen Roboter namens "Figure 01" entwickelt, der komplexe Gespräche führen und eigenständige Aktionen planen und ausführen kann. Die Integration eines multimodalen Modells von OpenAI, das Bilder und Text interpretiert, ermöglicht dem Roboter, seine Umgebung zu beschreiben, alltägliche Situationen zu verstehen und Aktionen auf Basis mehrdeutiger, kontextabhängiger Anfragen auszuführen.

Der Roboter kann seine visuellen Erfahrungen beschreiben, zukünftige Aktionen planen, auf seine Erinnerungen reflektieren und seine Schlussfolgerungen verbal erläutern. Das multimodale Modell von OpenAI verarbeitet die gesamte Konversationshistorie, einschließlich vergangener Bilder, um sprachliche Antworten zu generieren und zu entscheiden, welches erlernte Verhalten der Roboter ausführen soll. Dies ermöglicht dem Roboter, auf komplexe Anfragen zu reagieren, indem er sich auf frühere Teile der Konversation bezieht.

Wie das aussehen kann, zeigt das Unternehmen in einem Video: Ein Mensch unterhält sich mit dem Roboter, der auf seine Fragen und Aufforderungen antwortet und reagiert, indem er ihm etwas zu essen reicht oder den Müll auf der Küchenzeile wegräumt.

Podcast: KI-Update

Wie intelligent ist Künstliche Intelligenz eigentlich? Welche Folgen hat generative KI für unsere Arbeit, unsere Freizeit und die Gesellschaft? Im "KI-Update" von Heise bringen wir Euch gemeinsam mit The Decoder werktäglich Updates zu den wichtigsten KI-Entwicklungen. Freitags beleuchten wir mit Experten die unterschiedlichen Aspekte der KI-Revolution.

(mki)