Lebenshilfe für Nerds

Studierende haben das Sprachmodell von OpenAI mit AR-Hardware gekoppelt. Nun ist vom Start-up Brilliant Labs die passende App dazu für Entwickler erhältlich.

8

(Bild: Brilliant Labs)

28.06.2023, 12:33 Uhr

Lesezeit: 4 Min.

MIT Technology Review

Von

Dr. Wolfgang Stieler

ChatGPT und Co. liefern zwar Antworten auf allerlei Fragen des täglichen Lebens und können sogar mit schlagfertigen Repliken aushelfen. Der User muss aber zwischendurch – offensichtlich – auf sein Smartphone oder seinen Computer schauen – und verrät sich damit selbst. Bis jetzt.

Ende April haben Studierende der Stanford University mit RizzGPT ein System demonstriert, das Gespräche per Mikrofon verfolgt, in Text umwandelt und die Antworten von ChatGPT auf einer Brille ins Sichtfeld des Users einblendet – gewissermaßen als Echtzeit-Souffleur für alle Lebenslagen. Allerdings haben Bryan Hau-Ping Chiang und seine Mitstreiter die App damals nicht veröffentlicht.

Brilliant Labs, der Hersteller der AR-Hardware Monocle, die Chiang und sein Team für den cleveren Hack verwendet haben, holt das jetzt nach. Ab sofort ist für das Gerät die iOS-App arGPT zu haben. In einem kurzen Youtube-Clip zeigt Brilliant Labs die Anwendung in Aktion.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.

YouTube-Video immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Google Ireland Limited) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Demonstration der App arGPT

Bestandteile der AR-Linse

Monocle besteht aus einer Vorsatzlinse für Brillen, in die ein Mikrofon, eine Kamera, FPGA-Beschleunigerchips und ein Mikro-Display eingebaut sind, das Informationen in das Sichtfeld des Users einblendet. Das komplett quelloffene Entwicklerkit ist seit Februar 2023 für 349 US-Dollar erhältlich. Zu den Investoren des Start-ups gehören Brendan Iribe, Mitbegründer von Oculus, Adam Cheyer, Mitbegründer von Siri und Eric Migicovsky, Gründer von Pebble.

"Monocle" von Brilliant Labs (6 Bilder)

Die AR-Hardware namens "Monocle" besteht aus einer Vorsatzlinse zum Anhängen an Brillen. (Bild: Brilliant Labs)

Im Gespräch mit MIT Technology Review bestätigt Bobak Tavangar, CEO von Brillant Labs, dass die arGPT-App im Prinzip genauso arbeitet, wie RizzGPT: Monocle leitet das aufgearbeitete Audio-Signal des Mikrofons an das Smartphone weiter, das die Signale zur Verarbeitung an das Sprachmodell Whisper von OpenAI übergibt. Die Transkription von Whisper dient wiederum als Input für ChatGPT. Dessen Output wird dem User dann über das AR-Display, das einfach auf eine Brille aufgesteckt werden kann, in das Sichtfeld eingeblendet. Das funktioniert laut Tavangar mit "einem Verzug von ein bis zwei Sekunden". Die Hauptschwierigkeit sei dabei gewesen, iOS dazu zu bringen, "das Audio-Signal verlässlich zu verarbeiten, auch wenn das Smartphone in der Hosentasche steckt. Das war nicht trivial."

Die in Monocle eingebaute Kamera kommt nicht zum Einsatz. Noch nicht, wie Tavangar betont, denn das Ziel des Unternehmens sei es, "generative KI das sehen und hören zu lassen, was wir hören und sehen". Das könne für eine "einfache Gesichtserkennung" oder Gestensteuerung genutzt werden. Zwar könne GPT-4 von OpenAI auch Bilder verarbeiten, aber noch stehe diese Funktion per API nicht zur Verfügung. Anfang 2024 könnte es aber losgehen. "Wir stehen in den Startlöchern und werden sofort loslegen, wenn das geht", sagt er.

Verfremdetes Bild für die Realität

In der Zwischenzeit will Brilliant Labs eine Art elektronische Halluzinations-Funktion in seine App einbauen: Das Kamerabild soll an eine bilderzeugende KI wie Dall-E gehen, die das Input-Bild nach Anweisung des Users verfremdet und das verfremdete Bild dann als Überlagerung in das Sichtfeld einblendet.

Brilliant Labs arbeitet an einem Technik-Traum, der über 30 Jahre alt ist: Bereits Mitte der 1990er-Jahre experimentierte eine Gruppe junger Forschender am MIT Media Lab, die sich selbstironisch Cyborgs nannten, mit am Körper tragbaren Computern, die ihnen "kontextabhängig" Zugriff auf Informationen liefern sollten – etwa die Namen von Personen, mit denen sie gerade sprechen (einer der Pioniere der Bewegung, Thad Starner, hat nach eigenen Angaben ein sehr schlechtes Gedächtnis für Gesichter und Namen).

Tragbare Kameras, die noch dazu möglicherweise mit Gesichtserkennung gekoppelt sind, haben in der Vergangenheit allerdings auch zu heftigen Abwehrreflexen in der Bevölkerung geführt. Das Scheitern von Google Glass ist ein deutliches Zeichen dafür. Tavangar betont allerdings, dass das Ziel seines Unternehmens eine Lokalisierung der entsprechenden KI-Modelle sei. Wenn die Brille beispielsweise in Europa eingesetzt werde, solle sie nur Verbindungen zu Modellen zulassen, die "den lokal gültigen Regulierungen" entsprechen. Würde der europäische AI Act beschlossen, wie im Parlament abgestimmt, wäre damit Echtzeit-Gesichtserkennung in der EU verboten.