Vom blinden Weltmeister zum adaptiven Agenten

567937 e1782896838856
Bild: Exxeta AG

Moderne Produktionslinien wie z.B. in der Automobilindustrie sind hochautomatisiert. Doch wenige Meter daneben, in der Intralogistik, sieht die Welt völlig anders aus: Menschen tragen Kisten durch einen Wirrwarr von Gängen, hantieren mit losem Schüttgut. Klassische Robotik stößt hier schnell an Grenzen, da die Umgebung zu chaotisch, die Objekte zu unberechenbar und die Varianz zu hoch ist. Hier setzt Physical AI an und bringt neue Chancen für die Automatisierung der Produktion. Sie verbindet künstliche Intelligenz mit physischer Aktorik und macht aus starren Maschinen adaptive Akteure. Doch ein intelligenter Roboter reicht nicht aus. Erst die Anbindung an die internen Business-Prozesse macht aus einem lokalen Prototyp ein skalierbares Produktionssystem.

Von Narrow AI zu Embodied AI Agents

Bisher kam in der industriellen Automatisierung vor allem Narrow AI zum Einsatz – spezialisierte Machine-Learning-Modelle, die per Computer Vision z.B. eine Sichtprüfung durchführen oder die Lage eines Bauteils erkennen. Diese Systeme sind jedoch strikt auf einzelne Aufgaben begrenzt. Was ihnen fehlt: die Fähigkeit, visuelle Eindrücke, Kontext und Handlungen miteinander zu verknüpfen und daraus eigenständig Entscheidungen abzuleiten. Genau hier setzen Vision-Language-Action-Modelle (VLAs) an, der aktuelle Durchbruch für flächendeckende Robotik in der Produktion. Diese multimodalen KI-Systeme, stark getrieben von Nvidia und Google mit Gemini Robotics, übersetzen visuelle Eindrücke und natürliche Sprache direkt in physische Handlungen. Statt jede Eventualität in Wenn-Dann-Bäumen vorab zu kodieren, lernen Roboter z.B. durch Imitation Learning. Ein Mensch macht eine Handlung vor, das Modell befähigt die Maschine, diese Aufgabe adaptiv nachzuahmen – auch bei deformierten, teilweise verdeckten oder völlig unbekannten Objekten.

Auf diesem VLA-Fundament entstehen Embodied AI Agents – agentische Systeme mit einem Embodied Reasoning: einem logischen Schlussfolgern, das speziell auf die physische Welt ausgerichtet ist. Wie radikal das die Arbeit mit Robotern verändert, zeigt ein Erlebnis aus unserer Praxis bei Exxeta. Einem Unitree G1 gaben wir als Task Demonstration den Auftrag „Bring die Kiste von A nach B.“ Früher hätte das Entwicklungsteam dafür eine komplette Integrationslogik programmieren müssen. Jetzt aber denkt das Embodied-Reasoning-System selbst nach: Wo bin ich? Wo steht die Kiste? Wie hebe ich sie auf? Es löste die Aufgabe, ohne dass eine einzige Zeile integrativen Codes geschrieben werden musste.

On-Device Intelligence

Diese neuen Fähigkeiten kommen nicht ohne Preis. Vision-Language-Action-Modelle sind komplex, datenhungrig und rechenintensiv. Ähnlich wie große Sprachmodelle verarbeiten sie nicht nur Text, sondern kombinieren visuelle Informationen mit Bewegungsdaten und übersetzen beides direkt in Aktionen. Die Grundlage bilden sogenannte Foundation-Modelle, die von großen Plattformanbietern wie Nvidia oder Google vortrainiert werden. Weder Integratoren noch Industrieunternehmen entwickeln solche Modelle selbst. Der Hebel liegt vielmehr im Fine-Tuning. Dabei wird das Basismodell mit betriebsspezifischen Daten an konkrete Roboter, Greifpunkte und Umgebungen angepasst.

Der eigentliche Paradigmenwechsel zeigt sich jedoch in der Ausführung. Mithilfe leistungsfähiger Edge-Hardware können diese mächtigen VLA-Modelle heute direkt auf dem Roboter laufen. Funktionen wie Objekterkennung, Greifpunktberechnung und Bewegungsanpassung erfolgen in Echtzeit – ohne Umweg über externe Systeme. Den vollen Mehrwert entfaltet die Lösung jedoch erst durch die nahtlose Integration in cloudbasierte Business-Applikationen wie ERP- und Warehouse-Management-Systeme (WMS) sowie die Anbindung an rechenintensive Instanzen für Fine-Tuning und digitale Zwillinge.

Europas Antwort auf das Daten-Dilemma

Damit Physical AI zuverlässig in der Produktion funktionieren kann, müssen die Modelle allerdings mit großen Mengen betriebsnaher Daten feinjustiert werden. Genau hier liegt derzeit der größte Engpass – die fehlenden Daten für das Fine-Tuning. In China bauen Hersteller wie Agibot bereits riesige Trainingscenter auf, in denen Hunderte Mitarbeitende über Teleoperation den ganzen Tag Bewegungsdaten aufzeichnen. Angesichts europäischer Personalkosten ist dieser Ansatz hierzulande kaum skalierbar. Europäische Unternehmen müssen daher andere Wege finden, um ihre Modelle zu trainieren.

Seiten: 1 2