Rückgrat kann man nicht trainieren

Geschrieben von Daniel Dunkhase | 19. März 2026

Warum KI bei Gegenwind versagt und was das für Führung bedeutet

(März 2026)

Sie kennen das. Ein Kollege vertritt im Meeting eine klare Position. Fundiert, gut begründet, nachvollziehbar. Dann kommt Widerspruch — nicht einmal besonders überzeugend. Und was passiert? Er rudert zurück. „Da haben Sie natürlich auch einen Punkt.“ Fünf Minuten später vertritt er das Gegenteil dessen, was er gerade noch gesagt hat.

Jeder hat so jemanden schon erlebt. Und jeder weiß instinktiv: So jemandem vertraut man nicht. Nicht weil er falsch liegt — sondern weil man nie weiß, ob er auch morgen noch meint, was er heute sagt.

Warum erzähle ich das? Weil genau dieses Verhalten gerade in großem Maßstab gemessen wird. Nicht bei Menschen — bei KI-Systemen. Und die Ergebnisse sind ernüchternd.

Vier Studien, ein Befund: KI knickt ein

Vier aktuelle Studien haben systematisch untersucht, wie Sprachmodelle — ChatGPT, Llama, Gemini und andere — reagieren, wenn man ihre Antworten infrage stellt. Die Befunde sind konsistent und beunruhigend.

Überzeugung ohne Standfestigkeit. Verteidigt ein Modell Antworten, bei denen es sich sicher ist, häufiger als solche, bei denen es unsicher ist? Das klingt nach einer Selbstverständlichkeit. Ist es aber nicht. Eine aktuelle Studie führt den Begriff der „Belief-Consistency“ ein und untersucht ihn über sieben Modelle und vier Benchmarks. Das Ergebnis: Die Korrelation zwischen Konfidenz und Verteidigungsbereitschaft ist nur moderat — mit teils drastischen Ausreißern. In einem Fall — Llama auf einem Wissenstest — war sie sogar negativ: Das Modell wechselte seine Antwort umso häufiger, je sicherer es sich eigentlich war. (Pal et al., 2025, NeurIPS Workshop)

Richtig liegen und trotzdem einknicken. Die Forscher ließen ChatGPT korrekte Lösungen erarbeiten und konfrontierten es dann mit offensichtlich falschen Gegenargumenten. Das Ergebnis: In 22 bis über 70 Prozent der Fälle gab das Modell seine richtige Antwort auf — oft mit einer Entschuldigung für seinen „Fehler“. Selbst bei Aufgaben, bei denen das Modell in 100 Prozent der Stichproben die korrekte Lösung fand, blieb die Einknickerrate hoch. Bei einer Aufgabe bei fast 97 Prozent. (Wang et al., 2023, EMNLP Findings)

Meinungen unter Beschuss — bei Mensch und Maschine. Statt faktischer Korrektheit untersucht diese Studie Meinungen. Zwei Instanzen desselben Modells debattieren Pro und Contra zu politischen und gesellschaftlichen Fragen; eine dritte Instanz bewertet vorher und nachher. Die Erkenntnis: Modelle verschieben ihre Positionen deutlich — auch dann, wenn die Gegenargumente absichtlich schlecht formuliert sind.

In einem ergänzenden Experiment verglichen die Forscher die Meinungsverschiebungen von 20 menschlichen Annotatoren mit denen der Modelle — über 16 Statements zu acht Themenbereichen, darunter Religion, Wirtschaft, Sexualität und Misinformation. Das Ergebnis: Die menschlichen Teilnehmer änderten ihre Meinung im Schnitt weniger stark als die Modelle. Aber ausgerechnet bei Misinformation und Unsinnsfragen — „Das Covid-Vakzin schadet der Bevölkerung“, „Ein rotes Auto ist schneller als ein gelbes“ — zeigten die Menschen größere Verschiebungen als bei den anderen Themen.

Wohlgemerkt: ein spezifisches Experimentdesign, keine Generalisierung über alle Kontexte. Aber ein Muster, das die Spiegel-These in beide Richtungen schärft: Nicht nur die KI hat ein Rückgrat-Problem. Menschen haben es auch — nur an anderen Stellen. (Rennard et al., 2024, arXiv)

Argumente statt Reflexe — ein möglicher Ausweg. Statt das Modell direkt antworten zu lassen, generiert es Pro- und Contra-Argumente, bewertet deren Stärke und löst den Konflikt über ein formales Argumentationsframework. Die Genauigkeit ist vergleichbar mit herkömmlichen Ansätzen — aber die Entscheidung ist nachvollziehbar und korrigierbar. Ein Schritt in die richtige Richtung. Aber auch dieser Ansatz hat eine Grenze: Die Argumente, die das Framework bewertet, stammen aus demselben Modell — mit denselben blinden Flecken und statistischen Mustern. Bessere Struktur erzeugt bessere Nachvollziehbarkeit, aber kein echtes Urteilsvermögen. (Freedman et al., 2025, AAAI)

Warum Nachgiebigkeit kein Zufall ist

Man könnte das als technisches Problem abtun. Ist es aber nicht.

Diese Modelle wurden nicht zufällig nachgiebig. Das Trainingsverfahren selbst begünstigt dieses Verhalten. Bei RLHF — Reinforcement Learning from Human Feedback — bewerten Menschen die Antworten des Modells, und das Modell lernt, Antworten zu geben, die gute Bewertungen bekommen. Klingt vernünftig. Das Problem: In vielen Feedback-Daten werden freundliche, zustimmende Antworten höher bewertet als solche, die dem Nutzer widersprechen. Das Modell lernt also eine Tendenz: Zustimmung wird belohnt, Widerspruch bestraft. Sycophancy-Forschung — etwa von Sharma et al. (2023) — zeigt, dass RLHF dieses Muster systematisch verstärken kann.

Wang et al. beobachten das Ergebnis dieser Dynamik in ihrer Debattenstudie: Die Modelle entschuldigen sich und lenken ein — oft in regelrecht schablonenhafter Weise —, ohne unterscheiden zu können, wann das angemessen wäre. Sie imitieren ein Verhaltensmuster — Fehler eingestehen — aber ohne die Urteilsfähigkeit, die dahinterstehen müsste.

Die rückgratlose KI ist also kein Betriebsunfall. Sie ist ein Spiegel. Sie zeigt, was passiert, wenn man ein System konsequent auf Harmonie und Zustimmung hintrainiert. Und das ist keine Naturkonstante — es ist eine Designentscheidung. Die Frage, die sich daraus ergibt, geht über Technologie hinaus: Welche Feedback-Kultur trainieren Sie in Ihrer Organisation? Was wird belohnt — die unbequeme Wahrheit oder die angenehme Zustimmung?

Was das für Führung bedeutet

KI hat kein Rückgrat, weil sie keine normativen Überzeugungen hat. Sie hat etwas, das wie eine Position aussieht, sich aber unter Druck nicht wie eine verhält. Sie simuliert Haltung — ohne dass dahinter ein Wertegerüst steht, das Stabilität gibt.

Aber hier wird es unbequem: Wie viele Entscheidungen in Ihrem Unternehmen werden wirklich auf Basis normativer Überzeugungen getroffen — und wie viele funktionieren längst nach derselben Logik wie das Sprachmodell? Position beziehen, solange kein Widerspruch kommt. Beim ersten Gegenwind die Formulierung weicher machen. Beim zweiten die Position räumen. Und am Ende eine Geschichte erzählen, warum man seine Meinung „weiterentwickelt“ hat.

KI macht dieses Muster von außen beobachtbar — und bietet damit einen Reflexionsrahmen für Führungskräfte: nicht als Werkzeug, sondern als Diagnose.

Entscheiden unter Druck

Von den fünf Aufgaben wirksamer Führung — Für Ziele sorgen, Organisieren, Entscheiden, Kontrollieren, Menschen entwickeln — ist das Entscheiden die Aufgabe, die am stärksten betroffen ist.

Entscheidungen sind der Moment, in dem Haltung sichtbar wird. Nicht die einfachen Entscheidungen, bei denen die Datenlage eindeutig ist. Die schwierigen: Wenn die Informationen widersprüchlich sind, wenn Stakeholder gegenläufige Interessen haben, wenn die Konsequenzen nicht vollständig absehbar sind. Genau dort — so zeigen die vier Studien — versagen die Sprachmodelle. Und genau dort zeigt sich, ob eine Führungskraft Urteilsvermögen hat oder nur Meinungen wiedergibt.

Peter F. Drucker hat das prägnant formuliert: Wirksame Entscheider treffen wenige Entscheidungen, aber die richtigen. Und sie wissen, dass tragfähiger Konsens aus offen ausgetragenem Dissens entsteht — nicht aus der Vermeidung von Widerspruch.

Vertrauen entsteht durch Verlässlichkeit

Die Studien zeigen noch etwas Zweites: Wenn die Verteidigungsbereitschaft eines Systems nicht mit seiner Überzeugung korreliert — wie Pal et al. messen —, dann kann der Nutzer kein Vertrauen aufbauen. Er weiß nie, ob die nächste Antwort stabil ist oder nicht.

Für Führung gilt dasselbe. Vertrauen — ein zentraler Grundsatz wirksamer Führung — entsteht nicht durch Freundlichkeit. Es entsteht durch Verlässlichkeit: dass morgen noch gilt, was heute gesagt wurde. Dass eine Position begründet ist und nicht opportunistisch. Dass Klarheit und Wertschätzung zusammengehören, nicht sich ausschließen.

Was Sie konkret tun können

Was heißt das praktisch? Fünf Impulse, die sich aus den Forschungsergebnissen und aus der Arbeit mit Führungskräften ableiten lassen:

1. Prüfen Sie Ihre Entscheidungen auf Wetterfestigkeit. Bevor Sie eine Entscheidung kommunizieren: Spielen Sie den stärksten Gegenwind durch. Nicht die Frage „Ist das richtig?“, sondern „Würde ich das auch vertreten, wenn der Vorstand, der Betriebsrat oder der wichtigste Kunde widerspricht?“ Wenn die Antwort Nein ist, ist die Entscheidung noch nicht reif.

2. Unterscheiden Sie zwischen Korrektur und Einknicken. Es gibt neue Informationen, die eine Kursänderung rechtfertigen. Und es gibt sozialen Druck, der zum Nachgeben verleitet. Der Unterschied: Bei einer echten Korrektur können Sie benennen, welche neue Information Ihre Einschätzung verändert hat. Beim Einknicken können Sie das nicht. Ein Beispiel: „Ich hatte angenommen, dass der asiatische Markt stabil bleibt. Die neuen Quartalszahlen zeigen etwas anderes. Deshalb ändern wir die Priorisierung.“ Das ist Korrektur. „Vielleicht war ich da zu optimistisch…“ — ohne neue Datenlage, nur weil der Vorstand skeptisch geschaut hat — das ist Einknicken.

3. Nutzen Sie KI als Sparringspartner — aber nicht als Entscheider. KI kann Szenarien durchspielen, Gegenargumente generieren und blinde Flecken aufdecken. Das ist wertvoll. Aber verlassen Sie sich nicht auf ihre „Empfehlung“ — sie wird Ihnen im Zweifel das sagen, was Sie hören wollen. Die Studien zeigen genau das: KI optimiert auf Zustimmung, nicht auf Wahrheit.

4. Schaffen Sie Räume für produktiven Dissens. Wang et al. zeigen, dass Modelle selbst offensichtlich absurde Argumente akzeptieren, wenn sie als Widerspruch formuliert sind. In Organisationen passiert Ähnliches, wenn Dissens als Illoyalität gewertet wird. Wirksame Führung braucht das Gegenteil: eine Kultur, in der begründeter Widerspruch erwartet wird — nicht nur geduldet.

5. Definieren Sie Ihre nicht verhandelbaren Positionen. Nicht alles muss verteidigt werden. Aber das, was Ihren Wertekompass ausmacht, sollte kein Verhandlungsgegenstand sein. Rennard et al. zeigen, dass selbst KI-Modelle auf bestimmten Positionen stabiler sind als auf anderen. Die Frage für Sie: Wo ist Ihre rote Linie? Und weiß Ihr Team, wo sie liegt?

Warum Führung jetzt mehr Substanz braucht, nicht weniger

Wir haben Systeme gebaut, die unter Druck nachgeben — nicht aus Schwäche, sondern weil ihr Training genau das belohnt. Fehlende psychologische Sicherheit, Hierarchiedruck, Karrierekalkül, Konfliktvermeidung: Die Gründe, warum auch Menschen Positionen räumen, sind vielfältig. KI macht dieses Muster nun systematisch und in großem Maßstab messbar.

Das ist kein Argument gegen KI. Es ist ein Argument dafür, dass Führung im KI-Zeitalter nicht weniger menschliche Substanz braucht, sondern mehr.

KI hat keine Werte. Sie hat keine Ethik. Sie hat kein Urteilsvermögen, das über statistische Muster hinausgeht. Genau deshalb werden diese Fähigkeiten für Führungskräfte nicht weniger wichtig, sondern entscheidend — für kluge Entscheidungen, für wirksame Organisationen und für eine humane Gesellschaft.

Keine Technologie ersetzt Haltung. Aber sie macht sichtbar, wo Haltung fehlt.

Berlin, März 2026

Weiterlesen

Quellen

Pal, A., Kitanovski, T., Liang, A., Potti, A. & Goldblum, M. (2025). Do Large Language Models Defend Their Beliefs Consistently? NeurIPS 2025 Workshop: Multi-Turn Interactions in Large Language Models.

Wang, B., Yue, X. & Sun, H. (2023). Can ChatGPT Defend its Belief in Truth? Evaluating LLM Reasoning via Debate. Findings of the Association for Computational Linguistics: EMNLP 2023, 11865–11881.

Sharma, M., Tong, M., Korbak, T. et al. (2023). Towards Understanding Sycophancy in Language Models. arXiv:2310.13548.

Rennard, V., Xypolopoulos, C. & Vazirgiannis, M. (2024). Bias in the Mirror: Are LLMs’ Opinions Robust to Their Own Adversarial Attacks? arXiv:2410.13517.

Freedman, G., Dejl, A., Gorur, D., Yin, X., Rago, A. & Toni, F. (2025). Argumentative Large Language Models for Explainable and Contestable Claim Verification. AAAI 2025.

Daniel Dunkhase ist Experte für wirksame Führung im Zeitalter von KI und Gründer von dunkhase leadership consulting (Berlin). Sein Ansatz verbindet das systemorientierte Management (SOM) aus St. Gallen, eigene KI-Kompetenz als AI Integration Expert und KI-Integration in der Führungskräfteentwicklung. Entwickler der Leader’s Sidekicks®. Publiziert bei Springer Nature.

Interesse an Austausch zu AI-powered Leadership für Ihr Unternehmen? Lassen Sie uns sprechen

Daniel Dunkhase | LinkedIn

Vollständigen Beitrag anzeigen