17.05.2026 • 7 Min. Lesezeit

Prompts sind tot. Skills sind das neue Primitiv.

#Skills #Prompting#Kontext#Paradigmenwechsel#Claude

Ich weiß, der Titel ist provokativ. Bevor mir jemand mit „aber Prompts werden weiterhin gebraucht” um die Ecke kommt: Ja, klar. Niemand schreibt morgens eine SKILL.md, wenn er nur „Mach mir eine Twitter-Bio” will. Prompts sind nicht tot.

Aber die Idee, dass ein guter Prompt reicht? Die können wir 2026 beerdigen. Und genau diese Beerdigung ist es, die in der Branche gerade in slow motion passiert — und die die meisten Leute komplett verschlafen.

Lass mich erklären, warum ich nach fünf Monaten intensiver Skills-Arbeit überzeugt bin, dass wir gerade einen echten Paradigmenwechsel sehen. Mit allem, was dazugehört: neue Mental Models, neue Best Practices, neue Skill-Sets.

Die unbequeme Wahrheit über Kontextfenster

Erst die Realität, über die fast niemand spricht. Wir haben uns in den letzten zwei Jahren daran gewöhnt, in „Kontextfenster”-Zahlen zu denken. 200K Tokens! 1 Million Tokens! 2 Millionen Tokens!

Das Problem: Diese Zahlen sind eine Marketing-Wahrheit, keine Praxis-Wahrheit.

Schon 2023 hat das Paper „Lost in the Middle” von Liu et al. (Stanford) gezeigt, was eigentlich passiert, wenn man die Position relevanter Informationen in einem langen Kontext variiert: Die Modelle zeigen eine U-förmige Kurve. Information am Anfang und am Ende des Kontexts wird gut genutzt. Information in der Mitte wird systematisch unterbewertet — mit Performance-Drops von bis zu 30% bei realistischen Multi-Doc-QA-Aufgaben.

Es ist nicht so, dass die Modelle die Mitte „vergessen”. Sie geben ihr einfach weniger Gewicht. Wie wenn du einen Stapel Briefe vor dir liegen hast, vom obersten den Inhalt parat, vom untersten auch — aber die in der Mitte rutschen einfach durch.

NVIDIA hat das Bild 2024 mit dem RULER-Benchmark noch verschärft. Während Modelle in simplen Needle-in-a-Haystack-Tests nahezu perfekt performen, fallen sie in realistischen Tasks (Multi-Hop-Reasoning, Aggregation, Mehrfach-Retrieval) deutlich unter der beworbenen Kontextlänge auseinander. Ein Modell, das mit 128K Tokens beworben wird, hat in RULER-Tests oft eine effektive Kontextlänge von 32K oder weniger — abhängig von der Aufgabe.

Das Paper „Why Does the Effective Context Length of LLMs Fall Short?” (2024) bringt es nüchtern auf den Punkt: Es gibt eine signifikante Lücke zwischen claimed context length und effective context length. Selbst Top-Modelle wie GPT-4 halten ihre beworbene Länge in komplexen Aufgaben nicht durch.

Mein Take in Workshops: Behandle dein Kontextfenster wie deinen Schreibtisch. Was zuoberst liegt, nutzt du. Was untendrunter im Stapel verschwindet — auch wenn der Stapel theoretisch unendlich hoch sein dürfte — ist effektiv weg. Mehr Kontext ist nicht automatisch mehr Wissen für die KI. Es ist oft nur mehr Lärm.

Warum mehr Prompten nicht hilft

Hier ist der Punkt, an dem viele auf die falsche Idee kommen. „Okay, dann müssen meine Prompts halt besser werden! Detailreicher! Strukturierter! Mehr Few-Shot-Examples!”

Falsche Antwort. Du machst damit das Kontext-Problem nur größer.

Je länger dein Prompt, desto mehr Material muss die KI aktiv verarbeiten — und desto mehr davon landet in genau der Lost-in-the-Middle-Zone, die nachweislich schlechter genutzt wird. Du verschiebst das Problem, du löst es nicht.

Das ist der Grund, warum „Prompt Engineering” als Disziplin gerade an eine harte Wand fährt. Nicht weil Prompts schlecht sind. Sondern weil der Versuch, ein wiederholbares operatives Problem mit einem einzigen perfekten Prompt zu lösen, das Tool nicht artgerecht behandelt.

Skills: das strukturelle Update

Genau hier setzen Skills an. Und für mich ist das der eigentliche Aha-Moment, der 2026 gerade passiert.

Ein Skill funktioniert nicht wie ein längerer Prompt. Er funktioniert komplett anders. Die offizielle Anthropic Engineering-Doku zu Agent Skills beschreibt das Pattern als Progressive Disclosure — geliehen aus dem UX-Design der 1980er-Jahre, von der Nielsen Norman Group seit Jahrzehnten als eines der wichtigsten Interface-Patterns dokumentiert.

Übersetzt:

Beim Start lädt der Agent nur Name und Beschreibung jedes Skills. Anthropic gibt für 40 Skills einen Overhead von ungefähr 1.500 Tokens an — praktisch unsichtbar.
Erst wenn ein Skill zur Aufgabe passt, lädt der Agent den vollen Body.
Erst wenn die Aufgabe tiefer geht, lädt der Agent zusätzliche References, Scripts oder Templates.

Du hast also dynamische Kontext-Komposition statt statischen Mega-Prompt. Du nutzt das Kontextfenster wie eine durchsuchbare Bibliothek statt wie einen vollgepackten Aktenkoffer.

Das löst das Lost-in-the-Middle-Problem nicht komplett — aber es minimiert es dramatisch, weil der Agent zu jedem Zeitpunkt nur das geladen hat, was gerade gebraucht wird.

Skills kombinieren wie Lego

Hier wird’s für mich richtig spannend. Ein einzelner Skill ist nett. Mehrere Skills, die ein Agent automatisch kombiniert, sind das nächste Level.

Beispiel aus meinem Setup: „Bau mir eine Präsentation für den Workshop nächste Woche mit den Performance-Zahlen aus dem letzten Monat.”

In meinem aktuellen Claude-Setup ruft der Agent eigenständig drei Skills auf:

Excel-Skill — zieht die Zahlen aus meiner Reporting-Datei
Brand-Voice-Skill — formuliert die Slides in meiner Tonalität
PowerPoint-Skill — baut die Slides nach meinem Master-Template

Drei Skills, ein Aufruf, ein fertiges Deliverable. Anthropic hat genau dieses Szenario in der offiziellen Excel/PowerPoint-Integration im März 2026 als zentrales Use Case vorgestellt: Shared Context über mehrere Apps und Skills, ein Agent orchestriert.

Das ist nicht „besseres Prompting”. Das ist eine fundamental andere Arbeitslogik.

Was OpenAI gerade baut (und warum es kein Zufall ist)

Wer noch Zweifel hat, dass wir gerade in einem Paradigmenwechsel sind: OpenAI baut nahezu identisch. Bleeping Computer und das offizielle OpenAI Help Center bestätigen, dass ChatGPT Skills bekommt — interner Codename „Hazelnut”, Launch geplant für Anfang 2026.

Die offiziellen Eigenschaften lesen sich wie eine Eins-zu-eins-Übernahme der Anthropic-Spec: portable, on-demand geladen, kombiniert Instructions, Examples und Code. Die Slash-Command-Aktivierung (/financial-analysis) ist UX-Sugar auf dem gleichen Basis-Mechanismus.

Wenn der zweitgrößte KI-Player binnen Wochen die gleiche Architektur baut, ist das kein Zufall. Das ist die Branche, die kollektiv erkennt, dass das alte „immer wieder neu prompten”-Modell strukturell nicht skaliert.

Caveat: „Hazelnut” ist der durchgesickerte interne Codename, der inzwischen offiziell als „Skills in ChatGPT” auftaucht. Der genaue Funktionsumfang zum produktiven Launch kann sich noch ändern — aktuell verfügbar als Beta-Feature für bestimmte Pläne. Wer für die Allgemeinheit auf der ChatGPT-Seite plant, sollte den Rollout-Status für seinen Plan zum Zeitpunkt der Nutzung verifizieren.

Heißt das, Prompt Engineering ist tot? Nuanciert.

Damit ich hier nicht falsch verstanden werde — die ehrliche Differenzierung:

Wo Prompts weiter dominieren werden:

Einmalige Aufgaben und Exploration
Direkte API-Calls in eigenen Anwendungen, wo du den Kontext sowieso programmatisch baust
Klassische Automationen, in denen du einen exakten Output garantieren musst (Function Calling mit definierten Schemas)

Wo Skills das neue Primitiv sind:

Alles, was du regelmäßig machst
Alles, was klare Standards hat (Tonalität, Format, Prüfkriterien)
Alles, was zwischen mehreren Tools oder Datenquellen orchestriert wird
Alles, was du an Team-Mitglieder oder externe Mitarbeiter „vererben” willst

Das ist meine Faustregel für 2026: Wenn du es zum dritten Mal promptest, hast du einen Skill verpasst. Wenn dein Prompt länger als ein Absatz ist, ist es wahrscheinlich eigentlich ein Skill.

Mein Statement

Wir sind in einer Branche, die zu viel von Modellen und zu wenig von Architektur redet. Die Performance-Sprünge der nächsten Jahre kommen nicht primär aus GPT-6 oder Claude 5 — sie kommen aus der Art, wie wir KI in unsere operativen Prozesse einweben.

Skills sind das erste Primitiv, das diese Einbettung ehrlich angeht. Sie nutzen die Stärken aktueller Modelle (dynamisches Routing, Tool-Use, Multi-Step-Reasoning) und umgehen die Schwächen (Kontext-Degradation, Wiederhol-Aufwand, Vendor-Lock-in).

Das macht sie für mich zum wichtigsten Konzept, das die KI-Branche seit MCP hervorgebracht hat. Und genau deshalb gehe ich in jedem Workshop, jedem Talk, jeder Kunden-Session aktuell durch dieses Thema durch — auch wenn ich dabei wie ein Wiederholungstäter klinge.

Mein Tipp: Schreib heute deinen ersten Skill. Nicht für ein Tool. Nicht für eine Plattform. Sondern für dich. Eine Markdown-Datei, in der einer deiner regelmäßigen Vorgänge beschrieben ist. Probier ihn nächste Woche aus. Du wirst nicht zurückgehen.

Prompts sind nicht tot. Aber Skills sind das neue Primitiv. Und je früher du das verinnerlichst, desto weniger Lernkurve hast du, wenn dein gesamtes Team in zwölf Monaten sowieso so arbeitet.

Quellen

Benedikt Backhaus

Experte für KI, Automatisierung und die Zukunft der Arbeit. Ich helfe Unternehmen und Einzelpersonen dabei, die Potenziale neuer Technologien zu nutzen.

Mehr über mich → Termin buchen →

Prompts sind tot. Skills sind das neue Primitiv.

Die unbequeme Wahrheit über Kontextfenster

Warum mehr Prompten nicht hilft

Skills: das strukturelle Update

Skills kombinieren wie Lego

Was OpenAI gerade baut (und warum es kein Zufall ist)

Heißt das, Prompt Engineering ist tot? Nuanciert.

Mein Statement

Quellen

Quellen

Benedikt Backhaus

Das könnte dich auch interessieren

Deine KI braucht keine besseren Prompts. Sie braucht SOPs.

ChatGPT, Claude & Gemini: Warum ein Prompt nicht überall gleich funktioniert

Lass deine KI Rückfragen stellen: Wie 326.000 analysierte Sales-Calls dein Prompting verbessern