Sereact PickGPT kombiniert Vision- und Sprachmodellen

Die jüngsten Fortschritte in der Technologie sollen eine neue Ära in der Robotik einläuten. Insbesondere die Integration von Large Language Models (LLMs) und Vision Language Models (VLMs) in reale Anwendungen eröffnet vielversprechende Möglichkeiten. Mit der Kombination von beidem will das Unternehmen Sereact die Art und Weise revolutionieren, wie Roboter in dynamischen Umgebungen wie Logistikzentren arbeiten – und die Robotik auf ein neues Niveau der Intelligenz und Anpassungsfähigkeit heben.

Robot Vision & Inspection

Anstelle der klassischen Programmierung kann der Benutzer den Roboter mit PickGPT über einfache sprachbasierte Befehlen steuern. – Bild: Sereact GmbH

Traditionelle Methoden wie Reinforcement Learning und Imitation Learning haben in der Robotik lange Zeit dominiert, stoßen jedoch in dynamischen Umgebungen oft an ihre Grenzen. Diese Ansätze erfordern einen hohen Trainingsaufwand und sind stark von spezifischen Daten und Szenarien abhängig. Reinforcement Learning z.B. basiert auf einem zeitraubenden und ressourcenintensiven Trial&Error-Prozess, der unzählige Versuche erfordert, um Aufgaben zu perfektionieren. Imitation Learning, bei dem Roboter durch das Nachahmen menschlicher Instruktionen lernen, ist zwar intuitiver, aber dennoch auf umfangreiche menschliche Unterstützung angewiesen.

Herkömmliche Methoden bieten wenig Flexibilität, um auf unvorhergesehene Situationen oder Veränderungen in der Umgebung zu reagieren. Sereact PickGPT überwindet diese Einschränkungen durch seine Fähigkeit zum Zero-Shot-Planning. Dadurch wird das Modell in die Lage versetzt, Aufgaben ohne spezielles Training zu lösen und sich dynamisch an neue Situationen anzupassen. Das ist ein entscheidender Vorteil in Lagerumgebungen, in denen Flexibilität und schnelle Anpassungsfähigkeit von entscheidender Bedeutung sind.

Die Kombination von Vision- und Sprachmodellen ermöglicht eine außergewöhnlich vielseitige Objekterkennung und -handhabung. – Bild: Sereact GmbH

Sprachbasierte Anpassung als Schlüssel

Ein besonderes Merkmal von Sereact PickGPT ist die Fähigkeit, flexibel auf Sprachbefehle zu reagieren und sich entsprechend anzupassen. Damit soll die Art und Weise, wie Roboter programmiert und gesteuert werden, revolutioniert werden. Anstelle einer komplexen und zeitaufwändigen Programmierung kann der Benutzer den Roboter mit einfachen sprachbasierten Befehlen steuern. Das reduziert nicht nur den Bedarf an spezialisierter Programmierung, sondern erhöht auch die Effizienz und Geschwindigkeit, mit der Roboter neue Aufgaben übernehmen können.

45 % weniger Footprint mit XTS

Mit PC-based Control und XTS reduziert Komax SLE den Maschinen-Footprint um 45 % und steigert Flexibilität in der Kabelverarbeitung. ‣ weiterlesen

Ein praktisches Beispiel für derartige Flexibilität ist die Möglichkeit, Roboter anzuweisen, nur bestimmte Objekte zu greifen und andere zu ignorieren. Solche Anpassungen können schnell und ohne tiefgreifende technische Kenntnisse vorgenommen werden, was den Einsatz von Robotern in einer Vielzahl von Anwendungen erheblich erleichtert. Die Anpassungsfähigkeit spart Zeit und Ressourcen und macht Sereact PickGPT zu einem passenden Werkzeug für sich schnell verändernde Umgebungen, in denen Flexibilität ein entscheidender Erfolgsfaktor ist.

Während herkömmliche KI-Modelle oft an unerwarteten Hindernissen scheitern, passt die Sereact-Lösung ihre Strategie dynamisch an. – Bild: Sereact GmbH

Objekterkennung und -handhabung

In der traditionellen Robotik müssen Roboter auf spezifische Objekte und einzelne Aufgaben trainiert werden, was ihre Flexibilität einschränkt. Mit der Einführung von VLAMs hat sich dies grundlegend verändert. Die Kombination von Vision- und Sprachmodellen ermöglicht eine außergewöhnlich vielseitige Objekterkennung und -handhabung. Sereact PickGPT ist in der Lage, neue, unbekannte Objekte zu erkennen und zu handhaben, indem es auf Wissen zurückgreift, das aus großen, webbasierten Datensätzen gewonnen wurde. Diese Fähigkeit zur Generalisierung auf bisher unbekannte Objekte ist besonders in unstrukturierten Umgebungen von außergewöhnlichem Wert, in denen die Vielfalt der zu verarbeitenden Objekte eine große Herausforderung darstellt.

Ein wesentlicher Bestandteil ist der Cross-Attention-Mechanismus, der Bild- und Textdaten effektiv miteinander verknüpft. Dadurch ist Sereact PickGPT in der Lage, visuelle Informationen und sprachliche Anweisungen so zu integrieren, dass Objekte präzise lokalisiert und gehandhabt werden können. Diese Funktion ist nicht nur auf die Erkennung und Handhabung von Objekten beschränkt, sondern umfasst auch die Fähigkeit, komplexe Szenarien zu verstehen und entsprechend zu reagieren. Das macht Sereact PickGPT zu einem leistungsfähigen Werkzeug in einer Vielzahl von Anwendungen, von der Logistik bis zur Produktion.

Moderne Einstiegslösungen in die Automatisierung

Automatisierung leicht gemacht: Kompakte Roboterschweißzellen ermöglichen KMU den wirtschaftlichen Einstieg ins Roboterschweißen. ‣ weiterlesen

Robustheit und Anpassungsfähigkeit

Die Funktionsweise von Sereact PickGPT basiert auf der Fusion von multimodalen Sensordaten mit Eingaben in natürlicher Sprache. Die erfassten Sensordaten, wie RGB-Bilder und Tiefeninformationen, werden in einen Vision-Transformer eingespeist und in Token-Repräsentationen umgewandelt. Diese Repräsentationen werden dann zusammen mit textbasierten Anweisungen verarbeitet, um komplexe Aufgaben zu lösen oder präzise Steuerungsbefehle zu generieren.

Autoren: Charlotte Keilwerth, Projektmanagerin, Sereact GmbH

5. November 2024

Allgemein, Anwendungen & Lösungen, Bin Picking, Künstliche Intelligenz & maschinelles Lernen, Lösungen, Robot Vision & Inspection www.robotik-produktion.de 2024

Sereact GmbH

Zur Firmenwebsite

Mehr zum Thema

Next-Level-Picking mit KI und Vision
Bin Picking
Demonstration und Feedback
Allgemein
Multimodale KI-Lösungen von Sereact für intelligente Robotik
Robotik
Trendumfrage: Einfache Bedienkonzepte für Roboter
Allgemein

Bild: Bonner Wirtschafts Akademie GmbH

Unterschätzt: Verschmelzung von KI und Robotik

Politik und Wirtschaft konzentrieren sich beim Thema künstliche Intelligenz zu stark auf die heute allgegenwärtigen generativen KI-Systeme und vernachlässigen das Zusammenwachsen von KI und Robotik, das zu einer…

Weiterlesen: Unterschätzt: Verschmelzung von KI und Robotik
Anzeige

Bild: Beckhoff Automation GmbH & Co. KG

45 % weniger Footprint mit XTS

Mit PC-based Control und XTS reduziert Komax SLE den Maschinen-Footprint um 45 % und steigert Flexibilität in der Kabelverarbeitung.

Weiterlesen: 45 % weniger Footprint mit XTS
Bild: Igus SE & Co. KG

Whitepaper zu humanoiden Robotern

Menschenähnliche Roboter sind im Alltag schon vereinzelt anzutreffen.

Weiterlesen: Whitepaper zu humanoiden Robotern
Anzeige

Bild: Carl Cloos Schweißtechnik GmbH

Moderne Einstiegslösungen in die Automatisierung

Automatisierung leicht gemacht: Kompakte Roboterschweißzellen ermöglichen KMU den wirtschaftlichen Einstieg ins Roboterschweißen.

Weiterlesen: Moderne Einstiegslösungen in die Automatisierung
Bild: Advantech Europe B.V.

GMSL-Kamera für AMRs, humanoide und industrielle Roboter

Advantech verstärkt sein Engagement auf dem schnell wachsenden Robotikmarkt durch die Bereitstellung einer nahtlosen, skalierbaren Vision-Integration für autonome mobile Roboter (AMRs), humanoide Roboter, Roboterarme und Edge-KI-Systeme der nächsten…

Weiterlesen: GMSL-Kamera für AMRs, humanoide und industrielle Roboter

Anzeige

45 % weniger Footprint mit XTS

Mit PC-based Control und XTS reduziert Komax SLE den Maschinen-Footprint um 45 % und steigert…

Weiterlesen: 45 % weniger Footprint mit XTS
Robotik als Erfolgsfaktor im E-Commerce

Die Descartes Systems Group hat auf der K5 Future Retail Conference am 23. und 24.…

Weiterlesen: Robotik als Erfolgsfaktor im E-Commerce
US-Roboterindustrie wächst zweistellig

In den USA ist der Absatz von Industrierobotern im Vergleich zum Vorjahr um 11% gestiegen:…

Weiterlesen: US-Roboterindustrie wächst zweistellig
Anzeige

Moderne Einstiegslösungen in die Automatisierung

Automatisierung leicht gemacht: Kompakte Roboterschweißzellen ermöglichen KMU den wirtschaftlichen Einstieg ins Roboterschweißen.

Weiterlesen: Moderne Einstiegslösungen in die Automatisierung
Frei verfügbare Online-Datenbank für FTS und AMR

Mit dem Mobile Robot Finder unterstützt Synaos Intralogistikplanerinnen und

Weiterlesen: Frei verfügbare Online-Datenbank für FTS und AMR
Knapp setzt Wachstumskurs fort

Knapp entwickelt sich auch im Geschäftsjahr 2025/26 erfolgreich weiter und bleibt auf Wachstumskurs.

Weiterlesen: Knapp setzt Wachstumskurs fort
Automatisches Werkzeugwechselsystem für Getränkeverpackungen

Die deutsche Brauerei Maisel’s musste ihre Verpackungsprozesse modernisieren, um steigenden Produktionsanforderungen gerecht zu werden und…

Weiterlesen: Automatisches Werkzeugwechselsystem für Getränkeverpackungen

Produktion humanoider Roboter steigt an – kommerzielle Nutzung bleibt begrenzt

Die Produktion humanoider Roboter verzeichnete 2025 ein deutliches Wachstum.

Weiterlesen: Produktion humanoider Roboter steigt an – kommerzielle Nutzung bleibt begrenzt
Vernetzte kognitive Robotik

Neura Robotics hat auf der Automate 2026 ausgestellt – der größten Automatisierungs- und Robotik-Fachmesse Nordamerikas, die vom 22. bis 25. Juni im…

Weiterlesen: Vernetzte kognitive Robotik

Gesteigerter Durchsatz im Schmalganglager

Locus Robotics hat die erfolgreiche Einführung seiner Lösung im Logistikzentrum des Third-Party-Logistikdienstleisters ITG nahe des Münchener Flughafens bekanntgegeben.

Weiterlesen: Gesteigerter Durchsatz im Schmalganglager
Agibot präsentiert sein Roboterportfolio erstmals in Deutschland

Vom Humanoiden bis zum vierbeinigen Roboter

Agibot, ein chinesisches Robotikunternehmen mit Schwerpunkt auf Physical AI, hat in München sein gesamtes Robotikportfolio im Rahmen einer großen Veranstaltung vorgestellt und…

Weiterlesen: Vom Humanoiden bis zum vierbeinigen Roboter
Warum die Offline-Programmierung zum entscheidenden Wettbewerbsfaktor wird

Automatisierung ohne Blindflug

Automatisierung ist für viele produzierende Unternehmen der Schlüssel zur Wettbewerbsfähigkeit. In der Praxis stellen hohe Variantenvielfalt, kurze Produktlebenszyklen und steigender Kostendruck allerdings…

Weiterlesen: Automatisierung ohne Blindflug
Von der AMR-Integration zur intelligenten Orchestrierung

Wer A sagt, muss auch O sagen

AMR versprechen flexible Automatisierung, schnelle Bereitstellung und skalierbare Vorteile gegenüber konventionellen Technologien. In der Praxis aber bringen viele Implementierungen doch nicht den…

Weiterlesen: Wer A sagt, muss auch O sagen