
KI-Ingenieure für Ihr Team – wir bauen Produktionsfunktionen, keine Demos
LLM Integration, Retrieval-Systeme, Agent-Workflows. Wir betten erfahrene AI Engineers in Ihr Team ein oder bauen die KI-Schicht Ihres Produkts direkt auf. EU-Zeitzone, kein Hype, echte Evals.
Drei Wege, wie wir KI in Ihr Unternehmen integrieren
Beginnen Sie dort, wo der ROI am klarsten ist. Wir haben genug schicke Demos in der Produktion sterben sehen – solche liefern wir nicht aus.
LLM-Funktionen in Ihrer App
Ideal wenn: Sie ein SaaS oder internes Tool haben und Chat / Zusammenfassen / Klassifizieren / Generieren ergänzen möchten
Erweitern Sie bestehende Produkte um LLM-gestützte Funktionen. Streaming-UIs, Prompt-Versionierung, A/B-Tests gegen deterministische Baselines, Fallback-Pfade, wenn das Modell falsch liegt.
- Anthropic Claude + OpenAI SDK mit Provider-Fallback
- Streaming mit Abbruch, Retries und Rate-Limit-Handhabung
- Prompt-Versionierung + Evals gegen Golden Datasets
KI-Agenten & Workflows
Ideal wenn: Sie repetitive mehrstufige Aufgaben haben, die heute von Menschen erledigt werden
Wir bauen Agenten, die echte Aufgaben erledigen – Recherche, Klassifizierung, Drafting, mehrstufige Automatisierungen. Klar abgegrenzte Scopes, Observability, Human-in-the-Loop, wo nötig.
- Tool-Use-Schleifen mit starken Evals + Tracing
- Freigaben durch Menschen bei kritischen Aktionen
- Kosten- und Latenz-Budgets zur Laufzeit erzwungen
Retrieval (RAG) über Ihre Daten
Ideal wenn: Sie eine Sammlung von Dokumenten / Tickets / Wikis / Verträgen haben, die Ihr Team täglich durchsucht
Durchsuchbares Wissen über Ihre Daten. Hybrid Retrieval (semantisch + Keyword), Quellenangaben, Aktualitätssteuerung, Zugriffskontrollen, die sich an Ihren bestehenden Berechtigungen orientieren.
- pgvector oder Qdrant als Vector Store – Ihre Wahl
- Citation Tracking – jede Antwort verweist zurück auf die Quelle
- Reranking + Filter nach Metadaten (Datum, Owner, ACL)
Worin wir wirklich gut sind
Die Aspekte, die funktionierende KI von beeindruckenden Demos unterscheiden.
Prompt Engineering
Versionierte Prompts, strukturierte Outputs (JSON Schema, tool calls), Guardrails gegen Prompt Injection. Wir behandeln Prompts wie Code – reviewt, getestet, deployed.
Evals & Monitoring
Golden Datasets, LLM-as-Judge mit kalibrierten Rubriken, Regression-Detection bei jeder Modell- oder Prompt-Änderung. Produktions-Logs werden gesampelt und in Eval-Sets übernommen.
Vector DBs & Embeddings
pgvector, Qdrant, Weaviate – jede Option hat Trade-offs. Wir wählen nach Skalierung und Ihrer bestehenden Infrastruktur, nicht nach Hersteller-Präferenz. Hybridsuche (BM25 + cosine).
Agent-Orchestrierung
LangGraph, eigene State Machines oder einfache Tool-Use-Schleifen – je nachdem, was zum Problem passt. Verteiltes Tracing über alle Agent-Schritte. Wiederaufnahme nach Fehlern.
Kostenoptimierung
Model Routing (günstig für einfache Anfragen, intelligent für schwierige), Prompt Caching, Batch-APIs, Response Caching. Typisch 40–70 % Kostenreduktion ohne Qualitätsverlust.
Datenschutz & On-Prem
On-Prem-Deployments für sensible Daten (Open-Source-LLMs via vLLM / Ollama), Zero-Retention-Policies bei kommerziellen APIs, EU-Datenresidenz, GDPR-konform.
KI-Technologien, mit denen wir produktiv liefern
Tools, die wir in Produktion gebracht haben – nicht nur in Demo-Decks.
Claude (Anthropic)
LLMGPT (OpenAI)
LLMLangGraph
Orchestrationpgvector / Qdrant
Vector DBPython
SpracheTypeScript
SpracheWarum nicht einfach eine der KI-Hype-Buden beauftragen?
Die meisten KI-Projekte scheitern in der Produktion – nicht, weil das Modell schlecht ist, sondern weil das Engineering drumherum brüchig ist. Wir kommen primär aus dem Software-Engineering (ERP, POS, Mobile) und behandeln KI-Funktionen wie jedes andere Produktionssystem: Evals, Monitoring, Rollback-Pfade, Kostenkontrolle. Sie brauchen dedizierte AI Engineers in Ihrem Team statt eines einmaligen Projekts? Unser Team-Extension-Modell deckt das ebenfalls ab.
Team-Extension-Modell ansehenWie wir KI-Funktionen bauen
Discovery zuerst. Keine Demos werden in Produktion ausgeliefert.
Discovery & Eval-Plan
Was ist die Aufgabe, was ist die Wirkung beim Nutzer, was gilt als ‚gut‘? Wir definieren die Evals vor dem Modell. Wenn wir es nicht messen können, bauen wir es nicht.
Schneller Prototyp
Kleinster End-to-End-Slice, der echte Daten und echte Nutzer trifft. Notfalls Wegwerf-Code – Geschwindigkeit beim Lernen ist wichtiger als wiederverwendbares Scaffolding.
Produktivsetzen
Sobald die Evals bestehen, härten wir ab. Rate Limiting, Observability, Fallbacks, Kostenbudgets, Security Review, Deployment-Pipeline.
Betreiben & verbessern
Evals werden in Produktion überwacht. Drift wird erkannt. Wir iterieren über Prompts und Modelle. Wir bleiben nach dem Launch im Team – KI-Funktionen werden mit Feedback besser, nicht schlechter.
Haben Sie eine KI-Funktion im Kopf?
Beschreiben Sie uns das Problem, das Sie lösen wollen – nicht das Modell, das Sie einsetzen möchten. Wir liefern einen Eval-Plan zurück, eine ehrliche Einschätzung, ob KI die richtige Lösung ist, sowie einen groben Scope. In der Regel innerhalb von 48 Stunden.
Kein Hype. Keine Demo-Videos. Ohne Evals zählt es nicht.