Startseite » Technik » Forschung »

Augmented Reality plus großes Sprachmodell: Einsatz in der Reha

Augmented Reality
XR-Systeme: Nicht nur mehr sehen, auch Tipps von der KI erhalten

XR-Systeme: Nicht nur mehr sehen, auch Tipps von der KI erhalten
In der erweiterten Realität kann das System nicht nur die Umgebung analysieren, sondern auch Handlungsempfehlungen geben (Bild: DFKI)
Augmented Reality ergänzt, was Menschen selbst wahrnehmen. Neue Systeme interpretieren die Wahrnehmung auch und schlagen eine adäquate Handlung vor.

Oftmals prasseln im Alltag eine Vielzahl von Eindrücken auf uns ein – da kann es bisweilen schwerfallen, den Überblick zu behalten. Schließlich müssen wir sämtliche Eindrücke nicht nur wahrnehmen, sondern auch interpretieren, was uns eine breite Palette von Handlungsoptionen eröffnet. An diesem Punkt kommt das System von Language Augmentation for Humanverse, kurz Luminous, ins Spiel. Entwickelt wurde es im Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI). Die Technologie sammelt die unzähligen Eindrücke, interpretiert sie und kann mittels generativen und multimodalen Sprachmodellen (MLLM) eine adäquate Handlung vorschlagen.

Die Forschenden arbeiten dazu an Systemen für die Erweiterte Realität (XR-Systemen) der nächsten Generation. So sollen sich MLLM in Zukunft den bisherigen technischen Erweiterungen unserer visuell wahrgenommenen Realität anschließen. Das können zum Beispiel Texte, Animationen oder die Einblendung von virtuellen Objekten sein.

System beobachtet, interpretiert – und das Sprachmodell gibt Handlungsempfehlungen

Wie das in der Praxis aussehen kann, erklärt Muhammad Zeshan Afzal, Forscher aus dem Bereich Erweiterte Realität am DFKI, anhand eines Szenarios: „Ein Feuer entsteht in einem Raum. Unser System ermittelt in diesem Fall zunächst, wo sich die Person – welche mit unserer Technologie ausgestattet ist – gerade befindet. Dann werden relevante Daten aus ihrem unmittelbaren Umfeld gesammelt, wie beispielsweise die Anwesenheit eines Feuerlöschers oder eines Notausgangs, um diese wiederum an das generative und multimodale Sprachmodell weiterzugeben. Dieses ermittelt dann eine passende Handlungsempfehlung, wie zum Beispiel den Löschvorgang mittels Feuerlöscher einzuleiten, Fenster zu schließen oder sich in Sicherheit zu bringen.“

KI-System erkennt auch unbekannte Objekte

Bisher waren Forschungs- und Entwicklungsbestrebungen weitestgehend auf die räumliche Nachverfolgung der Nutzer und ihrer Umgebung beschränkt. Die Folge: Sehr spezifische, eingeschränkte und nicht generalisierbare Repräsentationen, sowie vordefinierte grafische Visualisierungen und Animationen. Das soll sich durch Luminous künftig ändern.

Um das zu erreichen, entwickeln die Forschenden eine Plattform mit Sprachunterstützung, die sich an individuelle, nicht vordefinierte Nutzerbedürfnisse und bisher unbekannte Umgebungen der erweiterten Realität anpasst. Das anpassungsfähige Konzept entstammt dem Zero-Shot Learning (ZSL). Dieses KI-System ist darauf trainiert, Objekte und Szenarien zu erkennen und zu kategorisieren – ohne exemplarisches Referenzmaterial vorab gesehen zu haben.

KI-basiertes System soll auch unbekannte Objekte erkennen können

In der Umsetzung soll Luminous mit seiner Datenbank von Bildbeschreibungen ein flexibles Bild- und Textvokabular aufbauen, das es ermöglicht, auch unbekannte Objekte oder Szenen in Bildern und Videos zu erkennen. „Aktuell untersuchen wir mögliche Anwendungen für die Alltagsbetreuung von erkrankten Menschen, Implementierung von Trainingsprogrammen, Leistungsüberwachung und Motivation“, sagt Zeshan Afzal.

Das LLM aus dem Projekt Luminous soll als eine Art Übersetzer dazu in der Lage sein, Alltagstätigkeiten auf Befehl zu beschreiben und mittels Sprachinterface oder Avatar an die Nutzer auszuspielen. Durch die so bereitgestellten visuellen Hilfestellungen und Handlungsempfehlungen kann das System dann Alltagsaktivitäten in Echtzeit unterstützend begleiten.

XR-System für Unterstützung nach Schlaganfall

Die Ergebnisse des Projekts werden in drei Pilotprojekten getestet, die sich auf

  • Neurorehabilitation (Unterstützung von Schlaganfallpatienten mit Sprachstörungen),
  • immersives Sicherheitstraining am Arbeitsplatz und
  • die Überprüfung von 3D-Architekturentwürfen

konzentrieren.

Im Fall der Neurorehabilitation von Schlaganfallpatienten mit schweren Kommunikationsdefiziten (Aphasie) unterstützen realitätsnahe virtuelle Charaktere (Avatare) die Gesprächsinitiierung durch bilddirektionale Modelle. Diese basieren auf natürlicher Sprache und ermöglichen eine Generalisierung auf weitere Aktivitäten des täglichen Lebens. Objekte in der Szene (einschließlich Personen) werden mithilfe von Eye-Tracking und Objekterkennungsalgorithmen in Echtzeit erkannt. Die Patienten können dann den Avatar beziehungsweise das MLLM auffordern, entweder den Namen des Objekts, das Ganze zu produzierende Wort, das erste Phonem oder den ersten Sprachlaut zu artikulieren.

Patienten bekommen intensives XR-gestütztes Training

Um die Sprachmodelle in der für sie einzigartigen Umgebung erfolgreich zu verwenden, durchlaufen die Patienten ein personalisiertes und intensives XR-gestütztes Training. Dabei erfasst das Projekt Luminous die Bewegungen und den Stil des menschlichen Trainers mit einer minimalen Anzahl von Sensoren, um die Modellierung und Instanziierung von dreidimensionalen Avataren zu ermöglichen. Ziel ist es, nur kinematische Informationen zu verwenden, die ausschließlich aus dem Input des Headsets, der Position des Kopfes und der Hände während des Trainings abgeleitet werden.

Auch Fernunterricht und Gesundheitsdienste sind mit dem neuen System möglich

Zukünftige Nutzer dieser neuen XR-Systeme werden in der Lage sein, nahtlos mit ihrer Umgebung zu interagieren, indem sie Sprachmodelle verwenden und gleichzeitig Zugang zu ständig aktualisierten globalen und domänenspezifischen Wissensquellen haben. Auf diese Weise können neue XR-Technologien in Zukunft beispielsweise auch für Fernunterricht und -ausbildung, Unterhaltung oder Gesundheitsdienste eingesetzt werden.

Durch die Hilfestellungen lernt Luminous dazu und erweitert sein Wissen stetig – über die reinen Trainingsdaten hinaus. Indem Namen und Textbeschreibungen dem LLM zur Verfügung gestellt werden, kann dieses umgekehrt die Namen unbekannter Objekte aus Bildern generieren. Erkannte Bildmerkmale verknüpft das System mit den entsprechenden Textbeschreibungen.

www.dfki.de

Unsere Webinar-Empfehlung
Aktuelle Ausgabe
Titelbild medizin technik 4
Ausgabe
4.2024
LESEN
ABO
Newsletter

Jetzt unseren Newsletter abonnieren

Titelthema: 6G in der Medizin

6G in der Medizin: Vitalparameter in Echtzeit überwachen

Alle Webinare & Webcasts

Webinare aller unserer Industrieseiten

Aktuelles Webinar

Multiphysik-Simulation

Medizintechnik: Multiphysik-Simulation

Whitepaper

Whitepaper aller unserer Industrieseiten


Industrie.de Infoservice
Vielen Dank für Ihre Bestellung!
Sie erhalten in Kürze eine Bestätigung per E-Mail.
Von Ihnen ausgesucht:
Weitere Informationen gewünscht?
Einfach neue Dokumente auswählen
und zuletzt Adresse eingeben.
Wie funktioniert der Industrie.de Infoservice?
Zur Hilfeseite »
Ihre Adresse:














Die Konradin Verlag Robert Kohlhammer GmbH erhebt, verarbeitet und nutzt die Daten, die der Nutzer bei der Registrierung zum Industrie.de Infoservice freiwillig zur Verfügung stellt, zum Zwecke der Erfüllung dieses Nutzungsverhältnisses. Der Nutzer erhält damit Zugang zu den Dokumenten des Industrie.de Infoservice.
AGB
datenschutz-online@konradin.de