Alle Artikel

KI Apr 2026 · 9 Min. Lesezeit

Produktive KI ausliefern: 20 RogueAI-Lektionen

Ein Produktions-Hub, der eine Flotte von über zwanzig produktiven KI-Anwendungen betreibt — sinnbildlich für das Ausliefern produktiver KI mit RogueAI

Die meisten KI-Demos sterben auf dem Weg in die Produktion. Das Modell, das im Loom-Video begeistert hat, fällt in dem Moment auseinander, in dem ein echter Nutzer sich vertippt, die Latenz montags um 8 Uhr hochschießt, das gehostete LLM Sie mitten im Monat rate-limitet oder die Rechnung eintrifft.

In den letzten zwei Jahren habe ich KI ausgeliefert, statt sie vorzuführen. RogueAI.de ist mein persönliches KI-Labor — über 20 Systeme, durchgängig auf Hetzner Deutschland gebaut: RAG-Pipelines, KI-Agenten, LoRA-Fine-Tuning, Dokumenten-KI, ein Meeting-Copilot und Offline-Sprachdiktat. Keine Kundenarbeit, kein kommerzielles Produkt. Echte Systeme, die heute in Produktion laufen.

Hier ist, was mich das tatsächlich gelehrt hat — über Infrastruktur, Kosten, UX und die Lücke zwischen einem funktionierenden Prototyp und einem funktionierenden Produkt.

Warum ich 20+ produktive KI-Apps gebaut habe, statt eine zu polieren

Der konventionelle Rat lautet „bau eine Sache richtig gut“. Zwei Jahre lang habe ich das Gegenteil getan. Eine Anwendung lehrt Sie eine Domäne. Zwanzig lehren Sie die Muster, die über Domänen hinweg tragen — und diese Muster sind das eigentliche wiederverwendbare Kapital.

Ein Renten-Rechner ist strukturierte numerische Daten mit regulatorischen Vorgaben — Monte-Carlo-Simulationen über Tausende von Marktpfaden. Eine Steuer-Dokumenten-KI ist OCR plus Extraktion plus regelbasierter Abgleich. Ein Meeting-Copilot nimmt Audio-Transkripte auf und denkt im Nachhinein über sie nach. Ein Sprachdiktat-Tool verarbeitet Echtzeit-Sprache unter striktem Latenzbudget. CompliBot — 38 Endpunkte — verarbeitet Tausende von Dokumenten über Compliance-Workflows hinweg. Jedes ist eine andere Form von Engineering-Problem.

Die Datenformen unterscheiden sich. Die Nutzererwartungen unterscheiden sich. Die Latenztoleranzen unterscheiden sich. Was beim zwanzigsten Build konstant bleibt, ist die Architektur. Es läuft auf eine kleine Zahl von Entscheidungen hinaus, die man einmal trifft und für immer wiederverwendet.

Die Infrastruktur-Entscheidung hinter dem Ausliefern produktiver KI: Hetzner Deutschland

Jedes RogueAI-System läuft auf Hetzner Deutschland. Nicht AWS, nicht GCP. Der Grund ist keine Ideologie — es sind Unit Economics und EU-Datenresidenz.

Der typische SaaS-Stack — Cloud-LLM, Cloud-Vector-Store, alles Cloud — verbrennt schnell Geld. Eine RogueAI-Anwendung auf einem Hetzner-VPS kostet pro Monat weniger als die äquivalente AWS-Konfiguration pro Tag. Über 20+ Anwendungen hinweg ist das der Unterschied zwischen einem tragfähigen Labor und einem unbezahlbaren.

Die Architektur ist über das Portfolio hinweg konsistent: Docker-Container in isolierten Netzwerken, Caddy als Reverse Proxy, automatisierte Health-Checks mit automatischer Wiederherstellung, Modelle lokal über Ollama oder whisper.cpp deployt, wo die Latenz es verlangt, und nirgendwo US-Cloud-APIs im Datenpfad. (Mehr zum deutschen Mittelstands-Audit-Kontext, dem das dient: Cybersecurity-Beratung in Deutschland.)

Es gibt Trade-offs. Kein Managed Kubernetes. Kein Managed Embedding-Service. Postgres provisionieren Sie selbst. Bei kleiner bis mittlerer Skalierung sind diese Einschränkungen Features — sie erzwingen architektonische Einfachheit.

Wann gehostete LLMs beim Ausliefern produktiver KI helfen — und wann nicht

Die größte Kostenvariable ist der LLM-Aufruf. Zehn Dollar pro Million Tokens klingt günstig, bis ein einzelner Nutzer an einem Nachmittag Millionen von Tokens verbrennt.

Ich teile RogueAI-Anwendungen in drei Klassen:

Die architektonische Lektion: Verpflichten Sie sich nie auf einen einzigen LLM-Anbieter. Bauen Sie die Anwendung so, dass das LLM eine austauschbare Komponente ist. Ich habe RogueAI-Anwendungen mehr als einmal zwischen gehostet und selbst gehostet verschoben, und die Kosten dafür hängen vollständig davon ab, ob die Abstraktion von Anfang an richtig war.

Kostenmanagement ist ein Feature produktiver KI, keine Pflichtübung

Als ich zum ersten Mal eine RogueAI-Anwendung ohne Token-Limits pro Nutzer auslieferte, erzeugte ein einziger fehlgeleiteter Nutzer eine Rechnung, die größer war als das fiktive Monatsabo des Kunden. Kostenexplosion ist kein Bug — es ist ein fehlendes Feature.

Jede RogueAI-Anwendung hat jetzt:

Das ist unglamouröse Arbeit. Es ist auch das, was ein Produktionssystem von einem Jugend-forscht-Projekt trennt. Jeder Prototyp, der in die Produktion übergeht, wird zuerst an Kostendisziplin erwachsen, bevor er an irgendetwas anderem erwachsen wird.

RAG-Architektur für produktive KI: Was funktioniert hat, was nicht

Retrieval-Augmented Generation ist die Standardarchitektur für KI über Dokumente. CompliBot — 38 Endpunkte, die Tausende von Dokumenten verarbeiten — ist das größte RAG-System im RogueAI-Portfolio, und mehrere andere Systeme nutzen leichtgewichtigere RAG-Muster. Was ich dabei über Compliance-Dokumente, Steuerformulare, Meeting-Transkripte und CRM-Datensätze hinweg gelernt habe:

Für RAG ist das Einfachste, das funktioniert, meist die richtige Antwort: PostgreSQL mit pgvector, lokale oder gehostete Embeddings, hybrides Retrieval und das Rendering der Zitate als erstklassige Komponente.

LoRA-Fine-Tuning als Werkzeug für produktive KI

Eine Handvoll RogueAI-Anwendungen nutzt LoRA-Fine-Tuning statt fertiger gehosteter Modelle. Das Muster, das funktioniert hat: ein kleines, spezialisiertes LoRA für eine enge Aufgabe trainieren — Bildgenerierung in einer bestimmten Markenstimme, Inhaltsklassifizierung mit einer Nischentaxonomie, strukturierte Extraktion für eine Dokumentenfamilie — statt zu erwarten, dass ein Allzweckmodell das gut erledigt.

Fine-Tuning passt in eine bestimmte Nische: wenn die Kosten pro Aufruf eines gehosteten LLM für das Volumen zu hoch sind und die Aufgabe eng genug ist, dass ein kleines Modell ein großes erreichen kann — die richtigen Trainingsdaten vorausgesetzt. Es passt nicht überall, aber wo es passt, verändert es die Unit Economics grundlegend.

Multimodale Muster beim Ausliefern produktiver KI

Zwei RogueAI-Anwendungen verarbeiten Nicht-Text-Eingaben. Die Muster unterscheiden sich stark voneinander:

Dokumenten-KI-Workloads — Steuerdokumente, Compliance-Dokumente, individuelle Batch-Pipelines — liegen dazwischen: Offline-Batch-Verarbeitung, bei der Durchsatz mehr zählt als Latenz. Die allgemeine Lektion für multimodale Arbeit: Wählen Sie zuerst Ihr Latenzbudget, dann das Modell. Drehen Sie diese Reihenfolge um, und Sie bekommen schöne Demos, die sich nicht ausliefern lassen.

UX-Muster, die über alle 20 produktiven KI-Apps hinweg funktioniert haben

Ein paar UX-Entscheidungen tragen über jede Anwendung hinweg, die ich ausgeliefert habe:

Das sind keine KI-Erkenntnisse. Es sind UX-Erkenntnisse. Der Großteil dieser Arbeit ist UX-Arbeit, die zufällig LLMs einbezieht.

Wo ich die Grenze gezogen habe: ausliefern vs. polieren

Die meisten RogueAI-Anwendungen habe ich auf „gut genug“ ausgeliefert, nicht auf „poliert“. Die Regel war einfach: Eine Anwendung, die ein echtes Problem heute zu 80 Prozent löst, schlägt eine, die es in sechs Monaten zu 95 Prozent löst.

Die Anwendungen, die am besten gealtert sind, sind die, die ich am schnellsten ausgeliefert und an denen ich iteriert habe. Die, die am schlechtesten gealtert sind, sind die, die ich vor dem Launch polieren wollte — als sie „fertig“ waren, hatte sich das Problem weiterbewegt.

Also liefern Sie auf 80 Prozent aus. Reden Sie mit den Leuten, die es nutzen. Verbessern Sie die Teile, die ihnen wirklich wichtig sind. Die anderen 15 Prozent Politur, die Sie sich vorgestellt haben, waren meist für Probleme, die niemand hatte.

Was ich beim nächsten Mal anders machen würde

Wenn ich RogueAI heute von Grund auf neu starten würde:

Im Rückblick alles offensichtlich. Nichts davon war offensichtlich, bevor ich ein Dutzend Anwendungen ausgeliefert und beim Altern beobachtet hatte.

Das RogueAI-Portfolio als Beweis fürs Ausliefern produktiver KI

Ich habe RogueAI gebaut, um echte Arbeit zu erledigen, nicht um etwas zu beweisen. Aber das Portfolio wurde zum Beweis. Für Recruiter und Kunden, die wissen wollen, wie produktive KI tatsächlich aussieht, ist die Antwort: 20+ echte Anwendungen, die heute laufen — nicht noch ein Architektur-Foliensatz.

Wenn Sie 2026 produktive KI planen und pragmatischen Input von jemandem wollen, der viel davon ausgeliefert hat, ist das genau das, was ich tue.


Das RogueAI-Portfolio ist live unter rogueai.de — Fallstudien zu Rente, Steuerdokumenten, Sprache, Meeting-Copilot, Fine-Tuning und CRM-Workflows sind heute einsehbar. Für KI-Engineering-Mandate fragen Sie ein Review an. Siehe auch FwChange.com für Firewall-Change-Automatisierung.

Produktive KI in 2026 im Blick?

RAG, Agenten, selbst gehostete LLMs — für den Produktiveinsatz gebaut, nicht für die Demo.

Gespräch vereinbaren