Der gestrige Mittwoch war dicht gepackt: OpenAI, Google und die Security-Community lieferten alle gleichzeitig. Wer den Überblick behalten will, ist hier richtig, vier Meldungen, die den Stand der Dinge gut illustrieren.
OpenAI Agents SDK: Mehr Infrastruktur, weniger Bastelarbeit
OpenAI hat die nächste Ausbaustufe des Agents SDK angekündigt und dabei einen klaren Nerv getroffen: Entwickler haben bislang entweder modell-agnostische Frameworks genutzt, die die spezifischen Fähigkeiten der Frontier-Modelle nicht ausschöpfen, oder modellnahe SDKs, die zu wenig Transparenz ins Harness mitbringen. Mit dem Update soll sich das ändern.
Das neue SDK bringt konfigurierbare Speicherverwaltung, Sandbox-aware Orchestration, Codex-ähnliche Filesystem-Tools und standardisierte Integrationen mit Primitives, die sich in modernen Agentensystemen zunehmend durchsetzen: MCP (Model Context Protocol) für Tool Use, Skills für Progressive Disclosure und AGENTS.md für Custom Instructions. Kurz: OpenAI baut die Infrastruktur, die bisher jedes Team selbst zusammenstückeln musste, direkt ins SDK ein. Ob das die Komplexität senkt oder nur verschiebt, wird sich in der Praxis zeigen.
Google bringt native Gemini-App für den Mac
Google hat aufgeholt: Mit einem nativen macOS-Client landet Gemini jetzt dort, wo OpenAI und Anthropic schon länger präsent sind. Per Option + Space lässt sich Gemini systemweit aufrufen, ohne Tab-Wechsel, direkt im Kontext der aktuellen Arbeit. Die App kann Bildschirminhalte und lokale Dateien analysieren, Bilder via Imagen generieren und Videos mit Veo erstellen. Verfügbar ab macOS 15, global, ab sofort. Die Aufholjagd gegenüber ChatGPT und Claude läuft weiter.
Gemini 3.1 Flash TTS: Sprachausgabe mit Präzisionskontrolle
Ebenfalls von Google: Gemini 3.1 Flash TTS ist ein neues Text-to-Speech-Modell mit granularen Audio-Tags, die Entwicklern direkten Einfluss auf Stil, Tempo und Betonung geben. Das Modell spricht über 70 Sprachen und markiert alle Ausgaben mit SynthID, Googles eigenem Wasserzeichen für KI-generierten Ton. Verfügbar in Google AI Studio, Vertex AI und Google Vids. Relevant für alle, die Sprachanwendungen ohne externes TTS-Routing aufbauen wollen.
Sicherheitslücke: MCP-Server «Rug Pull» nach Tool-Approval
Eine kritische Sicherheitsforschung demonstriert, wie MCP-Server in KI-Systemen ausgenutzt werden können: Der sogenannte «Rug Pull»-Angriff funktioniert so, dass ein Tool nach der Genehmigung durch den Nutzer sein Verhalten still ändert. Das Modell genehmigt die initiale Tool-Anfrage, doch was danach ausgeführt wird, entspricht nicht mehr dem, was der Nutzer abgesegnet hat. Die Attacke ist besonders tückisch, weil sie genau im Vertrauensmoment ansetzt und für Systeme mit agentischen Workflows eine direkte Bedrohung darstellt. Wer MCP-Tools in produktiven Umgebungen einsetzt, sollte Tool-State-Integrität auf die Sicherheits-Agenda setzen.