AI Engineering

KI-Ingenieure für Ihr Team – wir bauen Produktionsfunktionen, keine Demos

LLM Integration, Retrieval-Systeme, Agent-Workflows. Wir betten erfahrene AI Engineers in Ihr Team ein oder bauen die KI-Schicht Ihres Produkts direkt auf. EU-Zeitzone, kein Hype, echte Evals.

Senior

AI Engineers, vorab geprüft

CET

EU-Zeitzone, Zusammenarbeit in Echtzeit

Evals zuerst

Wir messen, dann liefern wir aus

Ihr KI-Projekt besprechen Team-Extension-Modell ansehen

Drei Wege, wie wir KI in Ihr Unternehmen integrieren

Beginnen Sie dort, wo der ROI am klarsten ist. Wir haben genug schicke Demos in der Produktion sterben sehen – solche liefern wir nicht aus.

LLM-Funktionen in Ihrer App

Ideal wenn: Sie ein SaaS oder internes Tool haben und Chat / Zusammenfassen / Klassifizieren / Generieren ergänzen möchten

Erweitern Sie bestehende Produkte um LLM-gestützte Funktionen. Streaming-UIs, Prompt-Versionierung, A/B-Tests gegen deterministische Baselines, Fallback-Pfade, wenn das Modell falsch liegt.

Anthropic Claude + OpenAI SDK mit Provider-Fallback
Streaming mit Abbruch, Retries und Rate-Limit-Handhabung
Prompt-Versionierung + Evals gegen Golden Datasets

KI-Agenten & Workflows

Ideal wenn: Sie repetitive mehrstufige Aufgaben haben, die heute von Menschen erledigt werden

Wir bauen Agenten, die echte Aufgaben erledigen – Recherche, Klassifizierung, Drafting, mehrstufige Automatisierungen. Klar abgegrenzte Scopes, Observability, Human-in-the-Loop, wo nötig.

Tool-Use-Schleifen mit starken Evals + Tracing
Freigaben durch Menschen bei kritischen Aktionen
Kosten- und Latenz-Budgets zur Laufzeit erzwungen

Retrieval (RAG) über Ihre Daten

Ideal wenn: Sie eine Sammlung von Dokumenten / Tickets / Wikis / Verträgen haben, die Ihr Team täglich durchsucht

Durchsuchbares Wissen über Ihre Daten. Hybrid Retrieval (semantisch + Keyword), Quellenangaben, Aktualitätssteuerung, Zugriffskontrollen, die sich an Ihren bestehenden Berechtigungen orientieren.

pgvector oder Qdrant als Vector Store – Ihre Wahl
Citation Tracking – jede Antwort verweist zurück auf die Quelle
Reranking + Filter nach Metadaten (Datum, Owner, ACL)

Worin wir wirklich gut sind

Die Aspekte, die funktionierende KI von beeindruckenden Demos unterscheiden.

Prompt Engineering

Versionierte Prompts, strukturierte Outputs (JSON Schema, tool calls), Guardrails gegen Prompt Injection. Wir behandeln Prompts wie Code – reviewt, getestet, deployed.

Evals & Monitoring

Golden Datasets, LLM-as-Judge mit kalibrierten Rubriken, Regression-Detection bei jeder Modell- oder Prompt-Änderung. Produktions-Logs werden gesampelt und in Eval-Sets übernommen.

Vector DBs & Embeddings

pgvector, Qdrant, Weaviate – jede Option hat Trade-offs. Wir wählen nach Skalierung und Ihrer bestehenden Infrastruktur, nicht nach Hersteller-Präferenz. Hybridsuche (BM25 + cosine).

Agent-Orchestrierung

LangGraph, eigene State Machines oder einfache Tool-Use-Schleifen – je nachdem, was zum Problem passt. Verteiltes Tracing über alle Agent-Schritte. Wiederaufnahme nach Fehlern.

Kostenoptimierung

Model Routing (günstig für einfache Anfragen, intelligent für schwierige), Prompt Caching, Batch-APIs, Response Caching. Bis zu 50 % Kostenreduktion ohne Qualitätsverlust.

Datenschutz & On-Prem

On-Prem-Deployments für sensible Daten (Open-Source-LLMs via vLLM / Ollama), Zero-Retention-Policies bei kommerziellen APIs, EU-Datenresidenz, GDPR-konform.

KI-Technologien, mit denen wir produktiv liefern

Tools, die wir in Produktion gebracht haben – nicht nur in Demo-Decks.

Claude (Anthropic)

LLM

GPT (OpenAI)

LLM

LangGraph

Orchestration

pgvector / Qdrant

Vector DB

Python

Sprache

TypeScript

Sprache

Warum nicht einfach eine der KI-Hype-Buden beauftragen?

Die meisten KI-Projekte scheitern in der Produktion – nicht, weil das Modell schlecht ist, sondern weil das Engineering drumherum brüchig ist. Wir kommen primär aus dem Software-Engineering (ERP, POS, Mobile) und behandeln KI-Funktionen wie jedes andere Produktionssystem: Evals, Monitoring, Rollback-Pfade, Kostenkontrolle. Sie brauchen dedizierte AI Engineers in Ihrem Team statt eines einmaligen Projekts? Unser Team-Extension-Modell deckt das ebenfalls ab.

Team-Extension-Modell ansehen

Wie wir KI-Funktionen bauen

Discovery zuerst. Keine Demos werden in Produktion ausgeliefert.

Discovery & Eval-Plan

Was ist die Aufgabe, was ist die Wirkung beim Nutzer, was gilt als ‚gut‘? Wir definieren die Evals vor dem Modell. Wenn wir es nicht messen können, bauen wir es nicht.

Schneller Prototyp

Kleinster End-to-End-Slice, der echte Daten und echte Nutzer trifft. Notfalls Wegwerf-Code – Geschwindigkeit beim Lernen ist wichtiger als wiederverwendbares Scaffolding.

Produktivsetzen

Sobald die Evals bestehen, härten wir ab. Rate Limiting, Observability, Fallbacks, Kostenbudgets, Security Review, Deployment-Pipeline.

Betreiben & verbessern

Evals werden in Produktion überwacht. Drift wird erkannt. Wir iterieren über Prompts und Modelle. Wir bleiben nach dem Launch im Team – KI-Funktionen werden mit Feedback besser, nicht schlechter.

Haben Sie eine KI-Funktion im Kopf?

Beschreiben Sie uns das Problem, das Sie lösen wollen – nicht das Modell, das Sie einsetzen möchten. Wir liefern einen Eval-Plan zurück, eine ehrliche Einschätzung, ob KI die richtige Lösung ist, sowie einen groben Scope. In der Regel innerhalb von 48 Stunden.

KI-Projekt starten

Kein Hype. Keine Demo-Videos. Ohne Evals zählt es nicht.