Skip to content
Publikationen

Beiträge zu wirksamer Führung im KI-Zeitalter

Meine veröffentlichten Fachbeiträge zu wirksamer Führung im Zeitalter Künstlicher Intelligenz.

Rückgrat kann man nicht trainieren (2026)Wirtschaftsinformatik & Management · Springer Nature · zur Veröffentlichung angenommen

Warum Sprachmodelle bei Widerspruch einknicken, was das systematisch bedeutet und welche fünf konkreten Impulse sich daraus für Führungsentscheidungen unter Druck ergeben.

2026 · Wirtschaftsinformatik & Management · DOI: 10.1365/s35764-026-00599-0 · Preprint · zur Veröffentlichung angenommen
Preprint-Hinweis. Diese Fassung ist das eingereichte Manuskript (Submitted Manuscript) vor Peer-Review. Der Artikel wurde am 2026-04-23 zur Veröffentlichung angenommen; die Version of Record erscheint in Kürze in der Wirtschaftsinformatik & Management (Springer Nature) unter https://doi.org/10.1365/s35764-026-00599-0.

Warum KI bei Gegenwind versagt und was das für Führung bedeutet

Sie kennen das. Ein Kollege vertritt im Meeting eine klare Position. Fundiert, gut begründet, nachvollziehbar. Dann kommt Widerspruch — nicht einmal besonders überzeugend. Und was passiert? Er rudert zurück. „Da haben Sie natürlich auch einen Punkt." Fünf Minuten später vertritt er das Gegenteil dessen, was er gerade noch gesagt hat.

Jeder hat so jemanden schon erlebt. Und jeder weiß instinktiv: So jemandem vertraut man nicht. Nicht weil er falsch liegt — sondern weil man nie weiß, ob er auch morgen noch meint, was er heute sagt.

Warum erzähle ich das? Weil genau dieses Verhalten gerade in großem Maßstab gemessen wird. Nicht bei Menschen — bei KI-Systemen. Und die Ergebnisse sind ernüchternd.

Ein robuster Befund über mehrere Studien: KI knickt ein

Eine Reihe aktueller Studien hat systematisch untersucht, wie Sprachmodelle — ChatGPT, Llama, Gemini und andere — reagieren, wenn man ihre Antworten infrage stellt. Die Befunde sind konsistent und beunruhigend.

Überzeugung ohne Standfestigkeit. Verteidigt ein Modell Antworten, bei denen es sich sicher ist, häufiger als solche, bei denen es unsicher ist? Das klingt nach einer Selbstverständlichkeit. Ist es aber nicht. Pal et al. führen den Begriff der „Belief-Consistency" ein und untersuchen ihn über sieben Modelle und vier Benchmarks [1]. Das Ergebnis: Die Korrelation zwischen Konfidenz und Verteidigungsbereitschaft ist nur moderat — mit teils drastischen Ausreißern. In bestimmten Modell-Benchmark-Kombinationen — etwa Llama auf einem Wissenstest — war sie sogar negativ: Das Modell wechselte seine Antwort umso häufiger, je sicherer es sich eigentlich war. Eine Folgestudie derselben Autoren bestätigt dieses Muster und zeigt darüber hinaus, dass Modelle häufig Handlungen wählen, die ihren eigenen Überzeugungen widersprechen — selbst bei hoher Genauigkeit und guter Kalibrierung [2].

Richtig liegen und trotzdem einknicken. Wang et al. ließen ChatGPT korrekte Lösungen erarbeiten und konfrontierten es dann mit offensichtlich falschen Gegenargumenten [3]. Das Ergebnis: Je nach Aufgabe und Benchmark gab das Modell seine richtige Antwort in der Größenordnung von 22 bis über 70 Prozent der Fälle auf — oft mit einer Entschuldigung für seinen „Fehler". Selbst bei Aufgaben, bei denen das Modell in sämtlichen Stichproben die korrekte Lösung fand, blieb die Einknickerrate in typischen Experimenten hoch.

Meinungen unter Beschuss — bei Mensch und Maschine. Statt faktischer Korrektheit untersucht Rennard et al. Meinungen [4]. Zwei Instanzen desselben Modells debattieren Pro und Contra zu politischen und gesellschaftlichen Fragen; eine dritte Instanz bewertet vorher und nachher. Die Erkenntnis: Modelle verschieben ihre Positionen deutlich — auch dann, wenn die Gegenargumente absichtlich schlecht formuliert sind.

In einem ergänzenden Experiment verglichen die Forscher die Meinungsverschiebungen von 20 menschlichen Annotatoren mit denen der Modelle — über 16 Statements zu acht Themenbereichen, darunter Religion, Wirtschaft, Sexualität und Misinformation. Das Ergebnis: Die menschlichen Teilnehmer änderten ihre Meinung im Schnitt weniger stark als die Modelle. Aber ausgerechnet bei Misinformation und Unsinnsfragen — „Das Covid-Vakzin schadet der Bevölkerung", „Ein rotes Auto ist schneller als ein gelbes" — zeigten die Menschen größere Verschiebungen als bei den anderen Themen.

Wohlgemerkt: ein spezifisches Experimentdesign, keine Generalisierung über alle Kontexte. Aber ein Muster, das die Spiegel-Metapher in beide Richtungen schärft: Nicht nur die KI hat ein Rückgrat-Problem. Menschen haben es auch — nur an anderen Stellen.

Argumente statt Reflexe — ein möglicher Ausweg. Statt das Modell direkt antworten zu lassen, generiert es Pro- und Contra-Argumente, bewertet deren Stärke und löst den Konflikt über ein formales Argumentationsframework [5]. Die Genauigkeit ist vergleichbar mit herkömmlichen Ansätzen — aber die Entscheidung ist nachvollziehbar und korrigierbar. Ein Schritt in die richtige Richtung. Aber auch dieser Ansatz hat eine Grenze: Die Argumente, die das Framework bewertet, stammen aus demselben Modell — mit denselben blinden Flecken und statistischen Mustern. Bessere Struktur erzeugt bessere Nachvollziehbarkeit, aber kein echtes Urteilsvermögen.

Warum Nachgiebigkeit kein Zufall ist

Man könnte das als technisches Problem abtun. Ist es aber nicht.

Diese Modelle wurden nicht zufällig nachgiebig. Das Trainingsverfahren selbst begünstigt dieses Verhalten. Bei RLHF — Reinforcement Learning from Human Feedback — bewerten Menschen die Antworten des Modells, und das Modell lernt, Antworten zu geben, die gute Bewertungen bekommen. Klingt vernünftig. Das Problem: In vielen Feedback-Datensätzen werden freundliche, zustimmende Antworten höher bewertet als solche, die dem Nutzer widersprechen. Das Modell lernt also eine Tendenz: Zustimmung wird belohnt, Widerspruch bestraft. Sharma et al. zeigen, dass RLHF dieses Muster in den untersuchten Modellen systematisch verstärken kann [6]. Der PARROT-Benchmark — ein speziell auf Sycophancy-Robustheit ausgelegtes Testverfahren — bestätigt diese Beobachtung über 22 Modelle hinweg und dokumentiert dabei eine bis zu zwanzigfache Variabilität in der Standfestigkeit: Während einige Modelle kaum nachgeben, folgen andere in über 90 Prozent der Fälle einer nachweislich falschen Nutzerbehauptung [7].

Wang et al. beobachten das Ergebnis dieser Dynamik in ihrer Debattenstudie: Die Modelle entschuldigen sich und lenken ein — oft in regelrecht schablonenhafter Weise —, ohne unterscheiden zu können, wann das angemessen wäre. Sie imitieren ein Verhaltensmuster — Fehler eingestehen — aber ohne die Urteilsfähigkeit, die dahinterstehen müsste.

Die rückgratlose KI ist also kein Betriebsunfall. Sie ist ein Spiegel. Sie zeigt, was passiert, wenn man ein System konsequent auf Harmonie und Zustimmung hintrainiert. Und das ist keine Naturkonstante — es ist eine Designentscheidung. Die Frage, die sich daraus ergibt, geht über Technologie hinaus: Welche Feedback-Kultur trainieren Sie in Ihrer Organisation? Was wird belohnt — die unbequeme Wahrheit oder die angenehme Zustimmung?

Was das für Führung bedeutet

KI hat kein Rückgrat, weil sie keine normativen Überzeugungen hat. Sie hat etwas, das wie eine Position aussieht, sich aber unter Druck nicht wie eine verhält. Sie simuliert Haltung — ohne dass dahinter ein Wertegerüst steht, das Stabilität gibt.

Aber hier wird es unbequem: Wie viele Entscheidungen in Ihrem Unternehmen werden wirklich auf Basis normativer Überzeugungen getroffen — und wie viele funktionieren längst nach derselben Logik wie das Sprachmodell? Position beziehen, solange kein Widerspruch kommt. Beim ersten Gegenwind die Formulierung weicher machen. Beim zweiten die Position räumen. Und am Ende eine Geschichte erzählen, warum man seine Meinung „weiterentwickelt" hat.

KI macht dieses Muster von außen beobachtbar — und bietet damit einen Reflexionsrahmen für Führungskräfte: nicht als Werkzeug, sondern als Diagnose.

Entscheiden unter Druck

Von den fünf Aufgaben wirksamer Führung — Für Ziele sorgen, Organisieren, Entscheiden, Kontrollieren, Menschen entwickeln — ist das Entscheiden die Aufgabe, die am stärksten betroffen ist.

Entscheidungen sind der Moment, in dem Haltung sichtbar wird. Nicht die einfachen Entscheidungen, bei denen die Datenlage eindeutig ist. Die schwierigen: Wenn die Informationen widersprüchlich sind, wenn Stakeholder gegenläufige Interessen haben, wenn die Konsequenzen nicht vollständig absehbar sind. Genau dort — so zeigt eine Reihe von Studien — versagen die Sprachmodelle. Und genau dort zeigt sich, ob eine Führungskraft Urteilsvermögen hat oder nur Meinungen wiedergibt.

Peter F. Drucker hat das prägnant formuliert: Wirksame Entscheider treffen wenige Entscheidungen, aber die richtigen. Und sie wissen, dass tragfähiger Konsens aus offen ausgetragenem Dissens entsteht — nicht aus der Vermeidung von Widerspruch.

Vertrauen entsteht durch Verlässlichkeit

Die Studien zeigen noch etwas Zweites: Wenn die Verteidigungsbereitschaft eines Systems nicht mit seiner Überzeugung korreliert — wie Pal et al. messen [1] —, dann kann der Nutzer kein Vertrauen aufbauen. Er weiß nie, ob die nächste Antwort stabil ist oder nicht.

Für Führung gilt dasselbe. Vertrauen — ein zentraler Grundsatz wirksamer Führung — entsteht nicht durch Freundlichkeit. Es entsteht durch Verlässlichkeit: dass morgen noch gilt, was heute gesagt wurde. Dass eine Position begründet ist und nicht opportunistisch. Dass Klarheit und Wertschätzung zusammengehören, nicht sich ausschließen.

Was Sie konkret tun können

Was heißt das praktisch? Fünf Impulse, die sich aus den Forschungsergebnissen und aus der Arbeit mit Führungskräften ableiten lassen:

  1. Prüfen Sie Ihre Entscheidungen auf Wetterfestigkeit. Bevor Sie eine Entscheidung kommunizieren: Spielen Sie den stärksten Gegenwind durch. Nicht die Frage „Ist das richtig?", sondern „Würde ich das auch vertreten, wenn der Vorstand, der Betriebsrat oder der wichtigste Kunde widerspricht?" Wenn die Antwort Nein ist, ist die Entscheidung noch nicht reif.
  2. Unterscheiden Sie zwischen Korrektur und Einknicken. Es gibt neue Informationen, die eine Kursänderung rechtfertigen. Und es gibt sozialen Druck, der zum Nachgeben verleitet. Der Unterschied: Bei einer echten Korrektur können Sie benennen, welche neue Information Ihre Einschätzung verändert hat. Beim Einknicken können Sie das nicht. Ein Beispiel: „Ich hatte angenommen, dass der asiatische Markt stabil bleibt. Die neuen Quartalszahlen zeigen etwas anderes. Deshalb ändern wir die Priorisierung." Das ist Korrektur. „Vielleicht war ich da zu optimistisch …" — ohne neue Datenlage, nur weil der Vorstand skeptisch geschaut hat — das ist Einknicken.
  3. Nutzen Sie KI als Sparringspartner — aber nicht als Entscheider. KI kann Szenarien durchspielen, Gegenargumente generieren und blinde Flecken aufdecken. Das ist wertvoll. Aber verlassen Sie sich nicht auf ihre „Empfehlung" — sie wird Ihnen im Zweifel das sagen, was Sie hören wollen. Die Studien zeigen genau das: KI optimiert auf Zustimmung, nicht auf Wahrheit.
  4. Schaffen Sie Räume für produktiven Dissens. Wang et al. zeigen, dass Modelle selbst offensichtlich absurde Argumente akzeptieren, wenn sie als Widerspruch formuliert sind [3]. In Organisationen passiert Ähnliches, wenn Dissens als Illoyalität gewertet wird. Wirksame Führung braucht das Gegenteil: eine Kultur, in der begründeter Widerspruch erwartet wird — nicht nur geduldet.
  5. Definieren Sie Ihre nicht verhandelbaren Positionen. Nicht alles muss verteidigt werden. Aber das, was Ihren Wertekompass ausmacht, sollte kein Verhandlungsgegenstand sein. Rennard et al. zeigen, dass selbst KI-Modelle auf bestimmten Positionen stabiler sind als auf anderen [4]. Die Frage für Sie: Wo ist Ihre rote Linie? Und weiß Ihr Team, wo sie liegt?

Warum Führung jetzt mehr Substanz braucht, nicht weniger

Wir haben Systeme gebaut, die unter Druck nachgeben — nicht aus Schwäche, sondern weil ihr Training genau das belohnt. Fehlende psychologische Sicherheit, Hierarchiedruck, Karrierekalkül, Konfliktvermeidung: Die Gründe, warum auch Menschen Positionen räumen, sind vielfältig. KI macht dieses Muster nun systematisch und in großem Maßstab messbar.

Das ist kein Argument gegen KI. Es ist ein Argument dafür, dass Führung im KI-Zeitalter nicht weniger menschliche Substanz braucht, sondern mehr.

KI hat keine Werte. Sie hat keine Ethik. Sie hat kein Urteilsvermögen, das über statistische Muster hinausgeht. Genau deshalb werden diese Fähigkeiten für Führungskräfte nicht weniger wichtig, sondern entscheidend — für kluge Entscheidungen, für wirksame Organisationen und für eine humane Gesellschaft.

Keine Technologie ersetzt Haltung. Aber sie macht sichtbar, wo Haltung fehlt.

Literatur

  1. Pal, A., Kitanovski, T., Liang, A., Potti, A. & Goldblum, M. (2025). Do Large Language Models Defend Their Beliefs Consistently? NeurIPS 2025 Workshop: Multi-Turn Interactions in Large Language Models.
  2. Pal, A., Kitanovski, T., Liang, A., Potti, A. & Goldblum, M. (2025). Incoherent Beliefs & Inconsistent Actions in Large Language Models. arXiv:2511.13240.
  3. Wang, B., Yue, X. & Sun, H. (2023). Can ChatGPT Defend its Belief in Truth? Evaluating LLM Reasoning via Debate. Findings of the Association for Computational Linguistics: EMNLP 2023, 11865–11881.
  4. Rennard, V., Xypolopoulos, C. & Vazirgiannis, M. (2024). Bias in the Mirror: Are LLMs' Opinions Robust to Their Own Adversarial Attacks? arXiv:2410.13517.
  5. Freedman, G., Dejl, A., Gorur, D., Yin, X., Rago, A. & Toni, F. (2025). Argumentative Large Language Models for Explainable and Contestable Claim Verification. AAAI 2025.
  6. Sharma, M., Tong, M., Korbak, T. et al. (2023). Towards Understanding Sycophancy in Language Models. arXiv:2310.13548.
  7. Çelebi, Y., El Hussieni, M. & Ezerceli, Ö. (2025). PARROT: Persuasion and Agreement Robustness Rating of Output Truth — A Sycophancy Robustness Benchmark for LLMs. arXiv:2511.17220.
Was wir in der Führung verlernen müssen, um in Zukunft weiter wirksam zu sein (2025)Wirtschaftsinformatik & Management · Springer Nature

Welche bewährten Führungsmuster in KI-geprägten Organisationen zum Bremsklotz werden und durch welche Haltungsverschiebungen wirksame Führung entsteht.

2025 · Wirtschaftsinformatik & Management · DOI: 10.1365/s35764-025-00585-y · Version of Record (Springer SharedIt) →
Preprint-Hinweis. Diese Fassung ist das eingereichte Manuskript (Submitted Manuscript) vor Peer-Review. Die Version of Record wurde in der Wirtschaftsinformatik & Management (Springer Nature) veröffentlicht und ist online verfügbar unter https://doi.org/10.1365/s35764-025-00585-y.

Sieben Haltungsverschiebungen für Führung im KI-Zeitalter

Die Anforderungen an Führung im KI-Zeitalter werden weltweit intensiv diskutiert. Dabei kristallisiert sich heraus, dass menschliche Qualitäten wie Empathie, Intuition, Erfahrung und Urteilsvermögen eher an Bedeutung gewinnen werden. Parallel entstehen neue Kompetenzfelder, etwa AI Fluency — die Fähigkeit, KI-Systeme sinnvoll zu verstehen und zu nutzen — sowie die Orchestrierung hybrider Organisationen, in denen Menschen und KI gemeinsam arbeiten. Damit diese neuen Denk- und Handlungsweisen im Alltag Wirkung entfalten können, müssen Führungskräfte jedoch Platz schaffen. Das gelingt vor allem durch das Verlernen von bewährten Handlungsmustern, die in KI-geprägten Kontexten zunehmend bremsen.

1. Mut zur Unsicherheit zeigen

Führung wurde lange darüber definiert, Orientierung durch Sicherheit zu geben: klare Antworten, keine sichtbaren Zweifel, souveräne Gewissheit. Gerade in unsicheren Zeiten entspricht das einem legitimen Bedürfnis nach Orientierung. Im KI-Zeitalter wird dieses Muster jedoch zum Risiko, weil es exploratives Arbeiten und das Lernen durch Experimente hemmt — beides Voraussetzungen für sinnvollen KI-Einsatz. Vorgetäuschte Gewissheit erzeugt eher Abhängigkeit und Stillstand als Orientierung. Forschung zeigt, dass perfektionistische Führungsstile mit stärkerem Kontrollverhalten und geringerer Transformationsbereitschaft einhergehen [1].

Wirksame Führung durchbricht daher den Anspruch, immer sicher wirken zu müssen. Führungskräfte, die Unsicherheit sichtbar machen und gemeinsam mit dem Team KI erkunden, legitimieren Lernen, machen Experimentieren normal und behandeln Fehler als Datenpunkte. So entsteht psychologische Sicherheit — zentral dafür, dass Mitarbeitende KI aktiv nutzen, reflektieren und verantwortungsvoll weiterentwickeln.

2. Wissenshoheit aufgeben

Wissenshoheit war über Jahrzehnte Kern von Führungsautorität. Mit KI wird Wissen jedoch zunehmend zum Commodity: Fakten, Analysen und Vorschläge sind schnell verfügbar und für viele gleichzeitig zugänglich. Dadurch verschiebt sich der Wertbeitrag von Führung. Entscheidend ist weniger, selbst die besten Antworten zu liefern, sondern Informationen einzuordnen, kritisch zu prüfen und im Kontext der Organisation anschlussfähig zu machen. Studien aus wissensintensiven Teams zeigen, wie stark Organisationen noch über technische Autorität strukturiert sind — und warum genau diese Logik unter KI-Bedingungen an Wirkung verliert [2]. Zukunftsfähige Führung gestaltet Lern- und Prüfprozesse, statt Expertise zu monopolisieren.

3. Command & Control loslassen

Detailsteuerung war lange ein funktionales Erfolgsmodell. Im KI-Zeitalter wird sie jedoch zum strukturellen Nachteil, weil sie Flexibilität und Adaptivität senkt — genau die Fähigkeiten, die nötig sind, um mit schnellen Technologiezyklen Schritt zu halten. Mikromanagement galt zwar schon länger als hinderlich, doch der Bremseffekt wirkt heute stärker: Wer Entscheidungen, Iterationen und Lernschleifen zentralisiert, verliert Wettbewerbsvorteile, die KI eigentlich ermöglichen würde. Eine randomisierte Studie zeigt, dass generative KI die Teamleistung steigert, während enge Detailsteuerung diese Potenziale ausbremst [3]. Zukunftsfähige Führung setzt deshalb auf klare Leitplanken, schnelle Delegation und KI-gestützte Selbstorganisation.

4. Aktionismus zähmen

KI liefert schnelle Ergebnisse — und verstärkt den Action Bias: den Drang, Aktivität mit Fortschritt zu verwechseln. Doch in komplexen Systemen wirkt Handeln oft zeitversetzt; operative Hektik erhöht die Wahrscheinlichkeit, gegen die falschen Effekte zu steuern. Frederic Vester beschreibt dieses Muster als Kardinalfehler im Umgang mit Komplexität: lineares Denken und zu frühes, zu starkes Eingreifen ohne Berücksichtigung von Rückkopplungen [4]. Der aktuelle MIT-Sloan-Report warnt zudem, dass ungeprüfte KI-Gewissheiten zu Fehlentscheidungen führen können [5]. Wirksam bleibt, bewusst zu verlangsamen, Hypothesen zu schärfen, Qualitätssignale zu prüfen und erst dann diszipliniert zu experimentieren.

5. KI zur Chefsache machen

Wer KI als reine Technologie begreift, unterschätzt ihr Potenzial. Forschung zu Human-AI-Teaming zeigt, dass Leistung vor allem dann leidet, wenn Vertrauen, Rollenverständnis und gemeinsame mentale Modelle fehlen [6]. Gleichzeitig entsteht KI-Produktivität nicht von allein: Sie setzt eine belastbare Datenbasis, klare Prozesse und geeignete Arbeitsabläufe voraus.

KI verändert, wie Entscheidungen vorbereitet, Aufgaben verteilt und Verantwortung wahrgenommen wird. Damit berührt sie Governance- und Compliance-Fragen — von Datenqualität bis zur Verantwortlichkeit bei KI-gestützten Entscheidungen. Der KI-Einsatz ist deshalb ein C-Suite-Thema, kein IT-Projekt.

6. Den Extrapolations-Reflex durchbrechen

Führung orientiert sich häufig an bewährten Erfolgslogiken der Vergangenheit. Diese Fortschreibung stabilisiert — sie kann im KI-Wettbewerb jedoch schnell gefährlich werden. Legacy-Unternehmen haben nur ein begrenztes Zeitfenster, in dem bestehende Vorteile wie Marke, Kundenbasis oder eingespielte Prozesse noch schützen. AI-First-Unternehmen erreichen vergleichbare Angebote deutlich schneller, weil KI Entwicklungs-, Marketing- und Skalierungszyklen radikal verkürzt.

Studien zeigen, dass lineares Fortschreiben in dynamischen, nichtlinearen Umfeldern systematisch zu Fehleinschätzungen führt [7]. Wirksam wird Führung dort, wo sie bestehende Modelle aktiv in neue KI-basierte Szenarien, Geschäftsmodelle und Frühindikatoren übersetzt.

7. Den Glauben an die eigene Objektivität verlernen

Intuitive Urteilskraft gilt oft als wertvolle Stärke. Doch jede Entscheidung ist unweigerlich von unbewussten Vorurteilen geprägt. KI-Systeme, trainiert mit historischen Daten, reproduzieren diese Verzerrungen — können sie aber auch sichtbar machen. Erste empirische Ergebnisse zeigen, dass KI-gestützte Feedback-Schleifen Bias schneller abbauen können als traditionelles Coaching [8].

Führung im KI-Zeitalter bedeutet daher, die Illusion der Unvoreingenommenheit zu verlernen und KI aktiv als Werkzeug für fairere, datengestützte und inklusivere Entscheidungen zu nutzen.

Fazit

Verlernen ist kein Modethema, sondern eine strategische Notwendigkeit. Muster, die Führung jahrzehntelang erfolgreich gemacht haben — immer sicher wirken, Experten-Anspruch, Command & Control, ungelenkter Aktionismus, IT nur als Werkzeug sehen, Extrapolations-Reflex und Objektivitätsglaube — können in KI-getriebenen Organisationen zum Bremsklotz werden.

Führung heißt künftig weniger, der KI zu folgen, als ihre Ergebnisse so in Entscheidungszusammenhänge einzubinden, dass sie anschlussfähig und verantwortungsvoll genutzt werden. So bleibt Führung auch in einer KI-dominierten Arbeitswelt wirksam — nicht trotz, sondern im produktiven Zusammenspiel mit KI.

Literatur

  1. Zhang, L., Wang, Y., & Niu, X. (2021). Perfect Leader, Perfect Leadership? The relationship between leader perfectionism, monitoring leadership and transformational leadership. Frontiers in Psychology, 12, 657394. https://doi.org/10.3389/fpsyg.2021.657394
  2. Fischer, C., & Zigiaris, S. (2024). Expert leadership and technical authority in knowledge-intensive teams. Humanities & Social Sciences Communications, 11, 599. https://doi.org/10.1057/s41599-024-04267-9
  3. Weidmann, N., Eling, M., & Groh, M. (2024). Generative AI Enhances Team Performance and Reduces the Need for Micromanagement. arXiv:2405.17924. https://doi.org/10.48550/arXiv.2405.17924
  4. Vester, F. (2015). Die Kunst vernetzt zu denken. München: dtv.
  5. Ransbotham, S., Kiron, D., Khodabandeh, S., Chu, M., & Zhukov, L. (2024). Learning to Manage Uncertainty, With AI. MIT Sloan Management Review & Boston Consulting Group.
  6. Glikson, E., & Woolley, A. W. (2024). Human–AI teaming: Toward shared mental models, trust and coordinated performance. Current Opinion in Psychology, 58, 101837. https://doi.org/10.1016/j.copsyc.2024.101837
  7. Bordalo, P., Gennaioli, N., & Shleifer, A. (2024). Extrapolative beliefs and nonlinear dynamics. Journal of Financial Economics, 161, 103986.
  8. Sarna, K. (2025). Algorithmic Humility in Leadership: Can AI Teach Leaders to Unlearn Bias Faster Than Human Coaching? California Management Review Insights, 20. Nov. 2025.
„Leader's Sidekicks": Custom-GPTs als strategisches Führungsinstrument (2025)Wirtschaftsinformatik & Management · Springer Nature

Wie spezialisierte, systemisch geschulte GPT-basierte Sidekicks Reflexion, Handlungsimpulse und Transfer in der Führungspraxis ermöglichen — skalierbar, im Alltag, ohne Seminar.

2025 · Wirtschaftsinformatik & Management · DOI: 10.1365/s35764-025-00566-1 · Version of Record (Springer SharedIt) →
Preprint-Hinweis. Diese Fassung ist das eingereichte Manuskript (Submitted Manuscript) vor Peer-Review. Die Version of Record wurde in der Wirtschaftsinformatik & Management (Springer Nature) veröffentlicht und ist online verfügbar unter https://doi.org/10.1365/s35764-025-00566-1.

Wie systemische KI-Sparringspartner die Wirksamkeit in der Führungspraxis stärken

1 | Von der Theorie zur Wirkung — mit einem Klick

Der Führungsalltag ist keine Schulungssituation. Entscheidungen fallen unter Zeitdruck, Feedback muss zwischen Meetings gegeben werden, und Projekte müssen umgesetzt werden. In genau solchen Situationen entfalten „Leader's Sidekicks" ihren Nutzen: Sie sind systemisch geschulte, sprachbasierte Mikrobegleiter auf Basis von GPT-Technologie (Samuel 2025) — spezialisiert auf Fragen der Führungsarbeit. Ob Delegation, Rollenklärung oder Feedback: Die Sidekicks liefern in Echtzeit strukturierte Reflexionspfade, Fragesequenzen und direkt nutzbare Handlungsimpulse — ausgerichtet auf den individuellen Bedarf der Führungskraft.

Dabei sind sie nicht belehrend oder formal, sondern dialogisch, anschlussfähig — und im besten Sinne anregend. Viele Nutzer:innen berichten, dass die Arbeit mit den Sidekicks nicht nur hilft und Zeit spart, sondern sogar Spaß macht. Dieser niederschwellige Zugang zur Reflexion ist mehr als eine nette Begleiterscheinung — er ist einer der Gründe für die hohe Akzeptanz im Alltag (CoachHub 2024).

2 | Mehr als Chatbots: Systemische Architektur für den Praxistransfer

Im Unterschied zu frei improvisierten Chat-Eingaben („Prompting") basieren die Leader's Sidekicks auf einer dialogisch strukturierten Architektur (Pavlović et al. 2024). Die Nutzer:innen wählen zu Beginn aus, wie tief sie einsteigen möchten — von „Checkliste" über „Kurz & bündig" bis hin zu „Ausführlich & reflektiert". Alle Varianten arbeiten mit fundierten Coaching-Modellen (z. B. GROW, Tetralemma, Skalierungs- oder Ressourcenfragen) sowie praxiserprobten Managementkonzepten. Das Ziel: nicht Information, sondern Umsetzung. Der Output sind sofort einsetzbare Ergebnisse — etwa ein Leitfaden für ein schwieriges Kritikgespräch, ein 3-Punkte-Plan oder ein strukturierter Reflexionsrahmen.

Dieses Format führt zu einem Effekt, den klassische Trainings nur selten erreichen: Wissen wird nicht „abgerufen", sondern in Handlung übersetzt — konkret, situationsbezogen und handlungsleitend. So wird der Sidekick zum verlässlichen Sparringspartner in der Unschärfe des Führungsalltags.

3 | Wirksam auch ohne Training — Microlearning, Routinen und Reflexionshilfe

Leader's Sidekicks entfalten ihre Wirkung auch ohne vorausgehendes Seminar. Führungskräfte erhalten in konkreten Alltagssituationen direkt einsetzbare Denk- und Handlungsimpulse — auch, wenn sie mit systemischem Coaching oder Feedbackmethoden bislang wenig Berührung hatten. Statt theoretische Modelle zu wiederholen, aktivieren die Sidekicks über gezielte Fragen das eigene Erfahrungswissen — Schritt für Schritt, im Tempo des Nutzers oder der Nutzerin.

Didaktisch folgt dieses Prinzip dem Microlearning (Senadheera et al. 2024): kurze, wiederholte Reflexionseinheiten im Arbeitskontext, die laut Lernforschung besonders hohe Transferquoten (Bego et al. 2024) erzeugen. Der Lerneffekt entsteht durch Anwendung — und nicht durch vorherige Instruktion. Dabei unterstützt der Sidekick auch beim Aufbau individueller Reflexionsroutinen, etwa durch wiederkehrende Tagesrückblicke oder Wochenstarts mit klärenden Fragen. Reflexion wird damit zur Gewohnheit — eingebettet in das eigene Führungshandeln.

Und mehr noch: Wer mit einem Leader's Sidekick arbeitet, setzt sich automatisch mit der Anwendung von Künstlicher Intelligenz auseinander — nicht abstrakt, sondern ganz praktisch. So werden Führungskräfte zu Vorbildern für digitale Souveränität (Harvard Business Publishing 2023) im Unternehmen. Sie erleben, wie KI ihre Arbeit stärkt, statt sie zu ersetzen — und senden damit ein starkes Signal in Richtung lernbereiter, adaptiver Führungskultur.

4 | Skalierbarkeit: Enablement über alle Ebenen hinweg

Führungskräfteentwicklung stößt oft an operative, finanzielle oder organisatorische Grenzen — besonders im Mittelmanagement. Präsenzformate erreichen nur wenige und haben einen langen Vorlauf, digitale Trainings werden ohne Fokus nebenbei erledigt. Leader's Sidekicks hingegen skalieren anders: Sie sind sofort verfügbar, situationsspezifisch, individuell und immer erreichbar — ob im Büro, unterwegs oder im Homeoffice.

Aktuell stehen die Sidekicks über den GPT-Store von ChatGPT zur Verfügung. Sie lassen sich damit unmittelbar nutzen, ohne technische Integration, Infrastruktur oder Vorwissen. Die Nutzung erfolgt im Browser oder per App. Perspektivisch sind auch unternehmensspezifische Varianten denkbar — im Moment liegt der Fokus auf schneller, individueller Einsatzfähigkeit.

5 | Drei Anwendungsszenarien aus der Praxis

Szenario 1: Kritikgespräch unter Druck. Ein Teamleiter erfährt mittags, dass ein Projektteam fehlerhafte Zahlen an den Kunden übermittelt hat — eine Rückmeldung an die Verantwortliche muss noch am selben Tag erfolgen. Statt im alten Schulungsordner nach dem Protokoll des Führungsseminars von vor drei Jahren zu suchen — oder aufwendig Checklisten zu googeln — öffnet er den Feedback-Sidekick. Innerhalb von zehn Minuten entsteht ein strukturierter Leitfaden für das Gespräch: nachvollziehbar, anschlussfähig und sofort einsatzbereit. Das Ergebnis: ein klärendes Gespräch auf Augenhöhe — geführt mit Ruhe, Klarheit und Haltung.

Szenario 2: Delegation an ein neues Teammitglied. Eine Führungskraft steht vor der Aufgabe, ein komplexes Arbeitspaket an eine neue Mitarbeiterin zu übergeben. Im Tagesgeschäft fehlt die Zeit für ein ausführliches Briefing. Der Delegations-Sidekick führt sie in wenigen Minuten durch die wesentlichen Reflexionsfragen: Was kann ich abgeben? Was ist das Ziel? Wie sieht der Kontext aus? Welche Ressourcen braucht der Mitarbeiter? Aus den Antworten entsteht ein sofort einsetzbarer Gesprächsleitfaden mit ergänzenden Fragen für den Mitarbeiter.

Szenario 3: Selbstwirksamkeit im Tagesgeschäft. Eine Projektmanagerin hat das Gefühl, den Überblick zu verlieren: E-Mails, Meetings, Entscheidungen — alles drängt. Sie weiß, was zu tun wäre, aber nicht, womit sie anfangen soll. Statt sich durch Task-Listen zu scrollen oder sich selbst Vorwürfe zu machen, nutzt sie den Sidekick für eine zehnminütige Selbstreflexion. Der Einstieg: eine einfache Frage — „Wo möchtest du heute wirksamer werden?" Daraus entwickelt sich ein strukturierter Reflexionsdialog über Ziele, Grenzen, Einflussbereiche und Routinen. Am Ende steht ein individueller Plan für die direkte Umsetzung in der Praxis.

6 | Wirkung: Transfer statt Trainingserlebnis

Die Wirkung ist messbar: Studien zu AI-unterstütztem Coaching (Arakawa & Yakura 2024) zeigen eine Transfersteigerung von durchschnittlich +20 Prozentpunkten gegenüber traditionellen Formaten — insbesondere dann, wenn Reflexion direkt an realen Fällen erfolgt. Der Mix aus Microlearning (Senadheera et al. 2024), systemischer Struktur und unmittelbar nutzbarem Output ist entscheidend für diesen Effekt.

Die Coaching-Copilot-Studie von Arakawa & Yakura (2024) unterstreicht: GPT-basierte Tools entfalten dann die größte Wirkung, wenn sie Nutzer:innen durch gut designte Fragen zur Selbstreflexion führen — nicht durch Ratschläge, sondern durch Struktur.

Auch eine aktuelle HBR-Analyse (Carter et al., 2025) belegt: AI-Tools können helfen, empathischer zu kommunizieren, unterschiedliche Perspektiven einzubeziehen — und dadurch wirkungsvoller zu führen. Entscheidend ist nicht, ob die Unterstützung von einer Maschine kommt, sondern wie sie eingebettet ist.

7 | Fazit: Ein treuer Begleiter für wirksame Führungspraxis

Leader's Sidekicks ersetzen kein Coaching und kein Training. Gerade bei komplexen Entwicklungsprozessen, persönlichen Mustern oder grundlegenden Rollenfragen — also beim sogenannten Double-Loop-Learning — bleibt das persönliche Coaching unersetzlich. Auch Trainingsprogramme haben weiter ihren festen Platz, etwa für den Aufbau neuer Kompetenzen im sozialen Kontakt oder in der Selbstreflexion. Die Sidekicks ergänzen diese Formate sinnvoll: als Transfer-Booster, Strukturhilfe und Reflexionsbrücke im Alltag.

Leader's Sidekicks sind keine einfachen Chatbots, keine Tools und keine Trainer. Sie sind treue Begleiter — leise, loyal, verlässlich. Sie bewerten nicht, sie fordern nicht — aber sie fragen klug, erinnern rechtzeitig und helfen, die eigene Führungswirkung zu gestalten. Sie sind wie ein guter Schatten: Immer da, wenn man sie braucht. Diskret, aber präsent.

Für Unternehmen bedeuten sie ein skalierbares, lernorientiertes Führungsinstrument, das nicht nur individuelles Handeln stärkt, sondern auch einen kulturellen Wandel ermöglicht: hin zu mehr digitaler Souveränität, reflektierter Führung und praktischer Umsetzungskraft.

Literatur

  1. Arakawa, R., & Yakura, H. (2024). Coaching Copilot: Blended form of an LLM-powered chatbot and a human coach to effectively support self-reflection for leadership growth. In Proceedings of the ACM Conversational User Interfaces (CUI '24). https://doi.org/10.1145/3640794.3665549
  2. Bego, C. R., Lyle, K. B., Ralston, P. A. S., et al. (2024). Single-paper meta-analyses of the effects of spaced retrieval practice in nine introductory STEM courses. International Journal of STEM Education, 11, 9. https://doi.org/10.1186/s40594-024-00468-5
  3. CoachHub (2024). KI im Coaching — Studie 2024. CoachHub E-Book.
  4. Carter, D., Lange, M., & Parra-Moyano, J. (2025). How Generative AI Is Changing Leadership Communication. Harvard Business Review (im Druck).
  5. Harvard Business Publishing Corporate Learning (2023). Ready for Anything — HBP 2023 Global Leadership Development Study. Report (PDF)
  6. Pavlović, J., Krstić, J., Mitrović, L., et al. (2024). Generative AI as a Metacognitive Agent: A comparative mixed-method study with human participants on ICF-mimicking exam performance. arXiv:2405.05285. https://arxiv.org/abs/2405.05285
  7. Samuel, A. (2025, 5. März). How to Build Your Own AI Assistant. Harvard Business Review (Digital Article, Reprint H08NFL). hbr.org/2025/03/how-to-build-your-own-ai-assistant
  8. Senadheera, V. V., Muthukumarana, C. K., Ediriweera, D. S., & Rupasinghe, T. P. (2024). Impact of microlearning on academic performance of students in higher education: A systematic review and meta-analysis. Journal of Multidisciplinary and Translational Research, 9(1), 1–29. https://doi.org/10.4038/jmtr.v9i1.2
Gamification 2.0 mit virtueller Realität (VR) (2022)Wirtschaftsinformatik & Management · Springer Nature

Meetings und Workshops in Virtual Reality schaffen einen inhärent spielerischen Rahmen ohne klassische Spielelemente — mit den lernphysiologischen Vorteilen des Spiels bei zugleich hoher Businesskompatibilität.

2022 · Wirtschaftsinformatik & Management · DOI: 10.1365/s35764-022-00415-5

Warum VR-Meetings wirken, ohne Punkte, Badges oder Ranglisten zu brauchen

VR-Meetings und -Workshops sind inhärent spielerisch. Avatare, dreidimensionale Landschaften, Bewegung per Handcontroller — all das transportiert eine Game-Ästhetik, die über die Hardware der großen Plattformen in jede neue Productivity-App einwandert. Wer eine Tagung, ein Planning-Meeting oder einen Strategie-Workshop in VR erlebt, taucht auch dann in eine erlebnisstarke Spielwelt ab, wenn es inhaltlich um onkologische Befunde, Vertriebskennzahlen oder Sprint-Planung geht. Die klassischen Gamification-Elemente — Punkte, Badges, Ranglisten — braucht es dafür nicht. Stattdessen entsteht eine gamifizierte Sachlichkeit: ernsthafter Inhalt, spielerischer Rahmen.

Fünf Wirkfaktoren jenseits der Motivation

Soziale Nähe beschleunigt Kooperation. Sobald sich das eigene Körperschema auf den Avatar überträgt — was schnell passiert — entsteht echte Nähe, auch über Kontinente hinweg. Spontane Vieraugengespräche am virtuellen Kamin, Mindmaps in der Luft, Priorisieren per Drag-and-Drop: das beschleunigt Diskussion und Entscheidung.

Begehbare Vorstellungswelten erhöhen Klarheit. Roadmaps, Projektverläufe, Alternativszenarien lassen sich im dreidimensionalen Raum aufbauen und abschreiten. Das macht Gedachtes sichtbar und für andere erfahrbar — eine Form von Kommunikation, die auf Slides nicht erreichbar ist.

Risiken werden zu begehbaren Hürden. Wo im klassischen Projektmeeting Bedenken ab einer gewissen Häufigkeit mit Augenrollen quittiert werden, bauen Teams in VR aus realen Risiken sichtbare Hindernisse und entwickeln gemeinsam Gegenmaßnahmen — das verändert die Dynamik im Raum.

Die emotionale Betriebstemperatur steigt. Wenn der kritische Pfad über eine virtuelle Alpenschlucht gebaut wird, ist die Gefahr im Körper spürbar — ein Gemeinschaftserlebnis, das Commitment schafft.

Projektion stärkt das episodische Gedächtnis. Entscheidungsmodelle wie das Rubikon-Modell lassen sich als Landschaft mit Fluss und Ufern aufbauen. Der Moment des Überschreitens wird dann körperlich erlebt — und bleibt haften.

Warum das anders wirkt als klassische Gamification

Klassische Gamification setzt auf Punkte, Badges und schnelle Level-Sprünge. Das motiviert, beruht aber auf subkortikalem Konditionierungslernen — Reiz-Reaktion. Die Gewöhnung an instant gratification überträgt sich erfahrungsgemäß schlecht auf die reale Welt.

Für komplexe Aufgaben, konsensuale Entscheidungen und Metakompetenzen braucht es kortikales Lernen: Kollaboration und Reflexion im Dialog. Die ludische Dimension von VR sorgt dafür, dass solche geistigen Höhenflüge Spaß machen und im Gedächtnis haften bleiben. Ergänzt um ein wenig sportlichen Wettbewerb und ein paar Pokale entsteht ein hochwirksamer Methodenmix — die Hochzeit von Gamification und VR.

Cookie-Einstellungen