In der Kalenderwoche 40 gab es einige spannende Entwicklungen in der KI-Welt. Beginnend beim Ausbau von ChatGPT-Funktionen bis hin zu grösseren Investitionen in OpenAI. Im Bereich Robotik stand vor allem die neue Generation von Roboteragenten im Fokus …
Teil 1: KI-Neuigkeiten & Trends
1. ChatGPT / OpenAI – Neue Funktionen & Plattformänderungen
-
-
ChatGPT Pulse: OpenAI hat die Funktion Pulse eingeführt, mit der ChatGPT proaktiv personalisierte Updates liefert – basierend auf vergangenen Chats, verbundenen Apps (Kalender etc.) und Nutzerfeedback.
- Team & Projektfunktionen: OpenAI erweitert die Zusammenarbeit in ChatGPT durch geteilte Projekte, neue Connectoren und verbesserte Compliance- und Admin-Funktionen.
-
-
Investitionsschub & Infrastrukturpläne: Nvidia kündigt eine Investition von 100 Milliarden USD in OpenAI an, um gemeinsam KI-Rechenzentren mit bis zu 10 Gigawatt Leistung zu errichten.
-
Modell-Updates & Strategie: Im Newsroom von OpenAI finden sich Hinweise darauf, dass die Firma ihre Modell-Performance verstärkt auf reale Aufgaben misst. Zudem wurden Partnerschaften mit Oracle und SoftBank ausgebaut.
2. Forschung, Sicherheit & Architekturideen
-
Sicheres Programmieren mit KI: Eine aktuelle Studie untersucht, wie gut ChatGPT Schwachstellen in Code erkennt und behebt – mit gemischtem Ergebnis: KI kann einige Sicherheitsfehler erkennen und korrigieren, aber nicht zuverlässig alle. Der Einsatz von dedizierten Tools bleibt unerlässlich.
-
Risiken bei angepassten GPTs: In einem Paper wird die Frage erörtert, wie „Custom GPTs“ missbraucht werden könnten – etwa durch Hinterlegung schädlicher Verhaltensweisen oder Datenlecks.
-
Grundlagenmodell für Robotik (VLA / Embodied Reasoning): Der Gemini Robotics Bericht (siehe Robotik-Teil) enthält interessante konzeptionelle Impulse, wie KI Modelle in der physischen Welt agieren könnten.
Teil 2: Robotik & physische Agenten
1. Gemini Robotics 1.5 / ER 1.5 – ein Schlüsselprojekt
DeepMind hat Gemini Robotics 1.5 sowie Gemini Robotics-ER 1.5 vorgestellt – Modelle, die darauf abzielen, Roboter mit höherer Intelligenz und Handlungsfähigkeit auszustatten.
Technische Eckpunkte & Fähigkeiten:
-
ERModell (Embodied Reasoning): Gemini Robotics-ER 1.5 dient als “Denk-/Planungsmodell”. Es kann komplexe visuelle Szenen interpretieren, räumliches Reasoning durchführen und Aufgaben in mehrere Schritte zerlegen.
-
Aktionsmodell (1.5 VLA / Ausführungsteil): Gemini Robotics 1.5 überführt die Planung in konkrete Roboterbewegungen, Greifaktionen usw. Verschiedene Roboterformen und -größen sollen unterstützt werden.
-
Motion Transfer & Generalisierung: Gelerntes Verhalten und Bewegungsstrategien sollen zwischen Robotertypen übertragbar sein – damit nicht für jedes neue Robotermodell komplett von null gelernt werden muss.
-
Sicherheitsvorkehrungen & Fehlerkontrolle: DeepMind hebt hervor, dass Sicherheitsmechanismen integriert sein müssen – z. B. semantische Filter, Kollisionsvermeidung, Kontrollprotokolle.
-
Vorschauzugang & API-Verfügbarkeit: Gemini Robotics-ER 1.5 ist im Preview über die Gemini API bereits zugänglich. Der vollständige Aktionsmechanismus (Gemini Robotics 1.5) ist bislang nur für ausgewählte Partner freigegeben.
Bedeutung & Implikationen:
-
Diese Modelle zeigen, wie KI zunehmend direkt mit physischer Hardware verschmolzen wird. Roboter sollen nicht mehr nur auf Befehle reagieren, sondern selbst „überlegen“.
-
Für praktische Anwendungen (Haushalt, Logistik, Pflege) bedeutet das mehr Flexibilität, Robustheit und Autonomie. Allerdings steigen die Anforderungen an Validierung, Sicherheit und Fehlermanagement massiv.
-
Die Rolle der Entwickler wird wichtiger: Wer früh Zugriff auf solche Agentenmodelle erhält, kann sie für spezifische Szenarien (z. B. Lagerroboter, Assistenzsysteme) anpassen und verbessern.
2. Weitere Entwicklungen & Trends in der Robotik
-
Der Trend geht hin zu „Agentizität“ in Robotik – Roboter, die ihre Aktionen mit Wissen aus digitalen Quellen (z. B. Websuche, Datenbanken) abstimmen, bevor sie handeln. DeepMind nennt explizit Beispiele wie Müllsortierung basierend auf Umweltinformationen.
-
Trade-off zwischen Geschwindigkeit & Genauigkeit: Gemini Robotics-ER 1.5 bietet ein “Thinking Budget”, mit dem Entwickler festlegen können, wie viel Rechenzeit für ein Ergebnis genutzt wird – geringere Zeit → schnelleres, aber ungenaueres Ergebnis.
-
Benchmarking & Evaluierung: DeepMind nennt mehrere Benchmarks und Testfälle, um neue Agentenmodelle vergleichbar zu machen. Dies fördert Transparenz und Fortschritt
-
Herausforderungen bleiben groß: Unstrukturierte Umgebungen, Sensorrauschen, Energieversorgung, Robustheit gegenüber Ausfällen und Fehlern – all das sind weiterhin große Probleme, die noch gelöst werden müssen. Aber diesbezüglich wird sich in den nächsten Monaten und Jahren noch so einiges tun.
Du hast den KI-Wochenrückblick von letzter Woche verpasst? Kein Thema! Einfach hier clicken.