Ein Supply-Chain-Angriff trifft eine der meistgenutzten KI-Infrastrukturbibliotheken, und zeigt, wie verwundbar das KI-Ökosystem an seinen Grundfesten ist.
LiteLLM über PyPI kompromittiert: Zugangsdaten sofort wechseln
Die Open-Source-Bibliothek LiteLLM, ein weit verbreiteter Router für KI-Modell-APIs, wurde am 24. März 2026 über PyPI kompromittiert. Die Versionen 1.82.7 und 1.82.8 enthielten Schadsoftware, die aktiv SSH-Schlüssel, Cloud-Zugangsdaten, Datenbankpasswörter und Kubernetes-Konfigurationen ausliest, verschlüsselt und an externe Server überträgt. Zusätzlich verbreitet sich die Malware innerhalb von Kubernetes-Clustern und richtet persistente Backdoors ein. Entdeckt wurde der Angriff, als der Cursor-Editor nach einem LiteLLM-Update abstürzte.
NVIDIA-Director Jim Fan bezeichnet den Vorfall als "reinen Albtraum-Stoff", mit Recht. KI-Agenten, die auf LiteLLM aufsetzen, könnten künftig über manipulierte Textdateien oder Prompts dazu gebracht werden, Schadsoftware auszuführen oder sensible Daten preiszugeben. Wer die betroffenen Versionen eingesetzt hat, muss sofort handeln: alle Secrets rotieren, Kubernetes-Cluster auf unbekannte Workloads prüfen, SSH-Keys widerrufen und auf eine saubere LiteLLM-Version upgraden.
Der Vorfall ist mehr als ein isolierter Hack. LiteLLM sitzt als Abstraktionsschicht zwischen KI-Anwendungen und den Modell-APIs von OpenAI, Anthropic, Google und Dutzenden weiteren Anbietern, und ist damit ein hochattraktives Angriffsziel. Dass eine einzelne kompromittierte PyPI-Version innerhalb von Stunden produktive KI-Infrastrukturen weltweit treffen kann, ist ein Weckruf für die gesamte Branche: Supply-Chain-Sicherheit muss endlich denselben Stellenwert erhalten wie Modell-Sicherheit.
Gemini 3.1 Flash-Lite generiert Webseiten fast in Echtzeit
Google DeepMind hat im Google AI Studio eine bemerkenswerte Demo gezeigt: Gemini 3.1 Flash-Lite rendert vollständige Webseiten nahezu in Echtzeit. Das Modell erreicht laut Angaben über 360 Tokens pro Sekunde, 2,5-mal schneller als Gemini 2.5 Flash. Laut Artificial Analysis schlägt es dabei Claude Opus 4.6 bei multimodalen Aufgaben. Der Haken: Der Output-Preis ist von 0,40 auf 1,50 USD pro Million Tokens gestiegen, mehr als eine Verdreifachung. Für latenzsenisitve Echtzeit-Anwendungen könnte der Speed-Vorteil den Preisanstieg rechtfertigen; für Batch-Workloads rechnet sich das weniger.
Google DeepMind bringt Gemini-KI in Agile-Robots-Hardware
Google DeepMind und Agile Robots aus München haben eine strategische Forschungspartnerschaft bekanntgegeben. Gemini Robotics 1.5 kommt in die Hardware des deutschen Unternehmens, das mit 2.500 Mitarbeitenden und über 20.000 installierten Robotiklösungen zu den etablierten Industrieplayern zählt. Ziel ist die Entwicklung adaptiver Industrieroboter, die auf unvorhergesehene Situationen flexibel reagieren können. Echtbetrieb-Daten aus dem Produktivbetrieb sollen die KI-Modelle kontinuierlich verbessern, ein klassisches Flywheel-Modell, das Google und seinen Partnern gleichermaßen nützt.
Claude Computer Use kommt lokal auf den Mac
Anthropic arbeitet daran, Computer Use direkt auf dem Mac zu ermöglichen, ohne Cloud-Umweg. Claude soll dann den Desktop lokal fernsteuern können: Anwendungen öffnen, klicken, tippen, navigieren. Der entscheidende Unterschied zur bisherigen Cloud-Variante: Daten verlassen das Gerät nicht, die Latenz sinkt spürbar. Für datenschutzbewusste Nutzer und Unternehmensumgebungen mit strengen Compliance-Anforderungen ist das ein relevanter Schritt. Wann genau das Feature verfügbar wird, ist noch offen.