KI-Playground — wo ich Modelle und Prompts ausprobiere

Veröffentlicht: 3. März 2025

Lokale Spielwiese für LLMs, Embeddings, Prompt-Engineering. Ohne Token-Kosten, ohne Datenabfluss, mit beliebig schmerzhaften Iterationen.

Warum überhaupt

Ich beschäftige mich beruflich mit KI-Produktentwicklung. Ich kann das nicht glaubwürdig tun ohne selbst zu wissen wie sich ein Modell verhält wenn man es mit echten Daten füttert. Cloud-Modelle nutze ich auch — aber zum Ausprobieren brauche ich was wo ich nicht jeden Token zähle.

Die zweite Motivation: meine eigenen Projekte (SIDELINE, AKTA, LERN) brauchen LLMs. Ich will nicht abhängig sein von einem externen Provider — und meine Familie soll nicht in einem Trainings-Datensatz landen weil ich Dokumente durch eine Cloud-API geschickt habe.

Wie viel Zeit

Punktuell. Wenn ein neues Modell rauskommt das interessant aussieht, ein Wochenende installieren, testen, Vergleich gegen die bisherigen ziehen. Wenn ein eigenes Projekt einen neuen Use-Case hat, ein paar Abende prompten und evaluieren.

Was gut lief

Ollama als zentraler Modell-Server. Pull, run, fertig. Keine Conda-Hölle, keine CUDA-Versions-Pannen.
Lokale Embeddings (nomic, mxbai) für Volltext-Suche in AKTA. Funktioniert erstaunlich gut, läuft auf der CPU mit erträglicher Latenz.
Prompt-Versionierung als einfacher Ordner mit Markdown-Dateien. Kein Tool, kein SaaS — funktioniert.
Vergleich verschiedener Modelle (Llama 3, Qwen, Gemma) auf denselben Prompts. Macht klar wie sehr "das LLM" eine grobe Vereinfachung ist.

Was nicht so gut lief

Hardware-Limits. Bei Modellen jenseits 30 B Parameter wird der RAM eng. 70 B nur mit aggressiver Quantisierung — und dann sinkt die Antwort-Qualität spürbar.
Halluzinationen auf Deutsch sind oft krasser als auf Englisch. Modelle sind klar mehr englisch trainiert. Hat mich initial überrascht.
Tool-Calling auf lokalen Modellen ist 2025 immer noch kein gelöstes Thema. Funktioniert, aber bricht in interessanten Varianten.
Promp-Drift: Ein Prompt der gestern gut war, ist nach einem Modell-Upgrade plötzlich schlechter. Versionierung wird ab da eine Notwendigkeit.

Stand heute

Der Playground ist mein Sparringspartner. Berufliche Diskussionen über KI fallen mir leichter weil ich jeden Mythos selbst getestet habe.