KI misst. Sie beurteilen.

Wie Führungskräfte mit KI besser kontrollieren — wenige vitale Größen statt KPI-Dickicht, Selbstkontrolle statt Überwachung. Das Beurteilen bleibt Führung.

Kontrollieren ist die unbeliebte Führungsaufgabe. Sie wird mit Misstrauen verwechselt, gelegentlich mit Bürokratie, häufig mit Überwachung. Sie ist keines davon. Kontrolle ist die Vergewisserung, dass Ergebnisse tatsächlich entstehen — ohne die Selbstständigkeit derer einzuschränken, die diese Ergebnisse erzielen. Was sich verändert, seit KI im Reporting sitzt: Das Messen wird radikal billiger. Was nicht: das Beurteilen, das Eingreifen und die Verantwortung dafür.

Warum Kontrollieren Führungsaufgabe bleibt — auch mit KI

Wer einen Bereich verantwortet, ohne zu wissen, wo er steht, führt im Blindflug. Die Aufgabe abzulehnen, weil sie unangenehm ist, bedeutet, einen Teil der Führungsverantwortung abzulehnen. Zur Abgrenzung: Kontrolle als Führungsaufgabe ist nicht Controlling (die institutionalisierte betriebswirtschaftliche Funktion), nicht Monitoring (die kontinuierliche technische Beobachtung), nicht Performance Management (das prozessuale Gerüst aus Zielsetzung, Beurteilung und Bonus). Diese Funktionen liefern Material — sie ersetzen die Kontrollarbeit der Führungskraft nicht.

Grundlage der Aufgabe ist Vertrauen in zwei Dinge: in die Leistungsfähigkeit der Menschen und in ihre Leistungsbereitschaft. Fehlt eines davon, ist das kein Kontrollproblem, sondern ein Stellenbesetzungsproblem. Diese Unterscheidung verschiebt die Frage von der Kontrolldichte zur Personalfrage und entlastet die Kontrollarbeit von der Aufgabe, fehlende Voraussetzungen zu kompensieren.

Auf dieser Grundlage zerfällt die Aufgabe in drei Schritte, die zusammengehören und in der Praxis regelmäßig vermischt werden:

Messen — objektive Daten erheben: Umsatz, Qualität, Durchlaufzeit, Reklamationsquote, Termintreue. Das kann delegiert werden, auch an KI.
Beurteilen — diese Daten einordnen: Was bedeuten sie, welche Konsequenzen folgen? Das ist subjektiv, aber nicht willkürlich — und es bleibt Führungsarbeit.
Eingreifen — handeln, wo es nötig ist, und ausdrücklich nicht handeln, wo Selbstkorrektur trägt. Das verlangt Augenmaß und Erfahrung.

Das tragende Designziel der Aufgabe ist Selbstkontrolle, nicht Überwachung. Drucker hat das mit Management by Objectives and Self-Control früh formuliert; die kybernetische Tradition (Stafford Beers Viable System Model, in der deutschsprachigen Adaption die St. Galler Schule um Malik) baut Lebensfähigkeit auf Selbstregulation auf. Daraus folgt eine andere Architektur von Kennzahlen: Sichtbarkeit zuerst dort, wo gesteuert wird — nicht dort, wo überwacht wird. Fließen die Daten primär nach oben, kippt dieselbe Technik in eine Surveillance-Architektur. Der Unterschied liegt nicht in den Daten, sondern in der Verwendung — und in der Frage, wer sie zuerst zu sehen bekommt.

BSC, OKR oder Maliks Schlüsselgrößen: Welches Kontrollsystem trägt im Mittelstand

Vor jeder Methodenwahl steht eine ältere Frage: Was muss in diesem Bereich überhaupt im Blick bleiben, damit er lebensfähig bleibt? Erst danach lohnt der Vergleich der Frameworks. Im deutschen Mittelstand begegnen sich drei Linien — die offizielle, die importierte und die in der Substanz schärfste, aber am wenigsten verbreitete:

Ansatz	Wann er trägt	Risiko bei Fehlanwendung
Balanced Scorecard (Kaplan/Norton: Finanzen, Kunden, Prozesse, Lernen)	Strukturierter Überblick, wenn die Strategie klar ist und die Ursache-Wirkungs-Hypothesen tragen	In der Praxis oft KPI-Sammlung ohne BSC-Logik — Dashboards mit dreißig Größen, die niemand mehr liest
OKR (Objectives and Key Results, Silicon-Valley-Tradition)	Tech-nahe Bereiche und Startups mit kurzen Zyklen und hoher Eigensteuerung	Im klassischen Mittelstand wird OKR zur Bürokratie, wenn die Selbstkontroll-Architektur fehlt
Maliks sechs Schlüsselgrößen (Marktstellung · Innovation · Produktivität · Attraktivität für gute Leute · Liquidität · Gewinnerfordernis)	Lebensfähigkeit eines Bereichs ganzheitlich beurteilen — keine Größe für sich genommen erlaubt einen tragfähigen Schluss	Wenig Risiko — die Falle liegt in der Verbreitung: das Set ist scharf, wird aber selten konsequent geführt

Keiner dieser Mängel löst sich durch ein anderes Framework. Ein Wechsel von Balanced Scorecard auf OKR bringt nach drei Jahren in der Regel dieselben Symptome unter neuem Etikett. Was trägt, ist nicht die Methodenwahl, sondern die Disziplin, mit der die wenigen vitalen Größen — drei bis sieben, mit fünf als Orientierungswert — identifiziert, gepflegt und vom Beurteilen sauber getrennt werden. Und mit der das Nicht-Messbare nicht aus dem Blick verloren geht. Drucker hat dazu zwei Sätze formuliert, die als Filter taugen: „That we can quantify something is no reason for measuring it" — und: „Any organization has important results that are incapable of being measured."

Kontrollieren mit KI: Was sich beschleunigt, was beim Menschen bleibt

KI verschiebt nicht den Charakter der Aufgabe, sondern die Verteilung der Arbeit. Was früher eine Controlling-Abteilung pro Monatsabschluss zwei Wochen gekostet hat, läuft kontinuierlich im Hintergrund mit — vorausgesetzt, die Datenbasis trägt. Was sich nicht verschiebt: das Urteil, das Gespräch, die Verantwortung.

Das übernimmt KI zuverlässig

Daten aggregieren und bereinigen — Konsolidierung aus Quellsystemen, Konsistenzprüfung, Anomalie-Erkennung in großen Datenmengen.
Attention Briefing statt 60-Seiten-Report — eine Seite pro Woche: was läuft, was weicht ab, was braucht Ihr Urteil. Die Datenflut wird auf das Wenige verdichtet, das Aufmerksamkeit verdient.
Stichproben statt Vollerhebung — Spesen, Reisekosten, Lieferantenrechnungen, Compliance-Vorgänge: KI zieht risikobasiert, markiert Auffälligkeiten, prüft in der Tiefe. Aufwand sinkt deutlich.
Indizien für das Nicht-Messbare — Sentimentmuster aus Kundengesprächen, Frühwarnsignale in der Mitarbeiterbindung, Reputationsmuster. Was Drucker das „most important and yet least measurable" nannte, wird nicht messbar — aber Indizien werden sichtbarer als zuvor.
Maschinen- und Sensordaten nutzbar machen — Predictive Maintenance, Prozessparameter-Optimierung, Qualitätsabweichungen früher erkennen, als die klassische statistische Prozesskontrolle es erlaubt.
Pendenzen automatisch nachhalten — KI extrahiert offene Zusagen aus Mails, Calls und Meeting-Protokollen, setzt Reminder, macht Muster sichtbar. Eine Disziplin, die viele Führungskräfte ohne sie nicht durchhalten.

Das bleibt beim Menschen

Die wenigen vitalen Größen festlegen — welche Kennzahlen die Lebensfähigkeit des Bereichs tatsächlich abbilden, ist eine Führungsentscheidung. KI kann Vorschläge liefern; die Auswahl trifft, wer Bereich, Strategie und Verantwortung kennt.
Beurteilen, nicht nur messen — KI liefert Daten; was sie bedeuten und welche Konsequenzen folgen, ist ein Urteil. Maliks Richter-Analogie trifft den Punkt: subjektiv, aber nicht willkürlich. Nicht Subjektivität ist das Problem — Willkür wäre es.
Persönlicher Augenschein — Berichte enthalten nur, was beschreibbar ist; das Wahrnehmbare ist um ein Vielfaches größer. Je heikler eine Lage, desto weniger trägt das Reporting allein. Sloan ist mehrmals im Jahr selbst hinter die Verkaufstheke gegangen — kein Reporting hat den persönlichen Eindruck eines Verkaufsgesprächs ersetzt.
Wohlwollendes Übersehen — nicht jede Abweichung muss benannt, nicht jede Schwäche thematisiert werden. Manche Dinge regeln sich mit Zeit. Das ist nicht das Gegenteil von Kontrolle, sondern ihre reife Form.
Verantwortung für Konsequenzen — eine Performance-Bewertung mit Verweis auf das System zu rechtfertigen, ist keine Erklärung. Die Führungskraft, die kontrolliert hat, steht für ihre Beurteilung gerade.

Das eigentliche Risiko sind nicht falsche KI-Berechnungen. Es sind die Verzerrungen, die KI in der Kontrolle erzeugt: Automation Bias — markierte Anomalien werden überbewertet, übersehene Lagen geraten aus dem Blick. Skalierung von Bias — ein Beurteilungsfehler trifft potenziell alle, die durch dasselbe System bewertet werden. Goodhart-Effekte — eine Kennzahl, die zum Ziel wird, hört auf, eine gute Kennzahl zu sein. Übergang zur Surveillance — was technisch messbar ist (Tastenanschläge, Zeit am Bildschirm, Pausenmuster), ist nicht das, was kontrolliert werden sollte. Hinzu kommen die regulatorischen Leitplanken: EU AI Act (Hochrisiko-Pflichten für Personalbeurteilung ab August 2026), §87 BetrVG (Mitbestimmung bei Verhaltens- und Leistungsauswertung), AGG (mittelbare Diskriminierung über Proxy-Variablen), DSGVO (Zweckbindung, Datenminimierung, Transparenz).

Sie wollen KI in Ihrem Reporting einsetzen — ohne dass Ihre Führungskräfte zu Datenjongleuren oder Ihre Mitarbeitenden zu Überwachten werden?
Sprechen wir über Ihr Führungsteam →

Bessere Kontrollarbeit mit KI: Coaching, Führungstraining, Workshop

Ich arbeite an diesem Thema in drei Formaten: im Executive Coaching, im Führungstraining und in Führungsworkshops für bestehende Teams — vom Mittelstand bis zum Konzern, methodisch in der Tradition der St. Galler Managementlehre, ergänzt um Drucker, kybernetische Selbstregulation und die regulatorischen Leitplanken zum KI-Einsatz. „Kontrollieren" wird selten als Trainingsthema gebucht. Es wird sichtbar, wenn man hinter Reporting-Frust, Performance-Management-Reformen oder KI-Pilotprojekten schaut. Fünf Fragen stehen in jedem der drei Formate im Zentrum:

Was sind die wenigen vitalen Größen Ihres Bereichs? Drei bis sieben, mit fünf als Orientierungswert — abgeleitet aus Maliks Schlüsselgrößen, gefiltert durch „Was muss ich unbedingt wissen, damit ich gerechtfertigtes Vertrauen haben kann?". Alles andere ist bestenfalls nice to know.
Wo wird Messen mit Beurteilen vermischt? Die Trennung ist die häufigste Quelle unsauberer Performance Reviews. Daten haben ihren Platz, das Urteil hat seinen — beides darf nicht miteinander verwechselt werden.
Ist Ihr Reporting aktionsorientiert oder informationsorientiert? Maliks Unterscheidung — was sollen die Leute tun (aktionsorientiert) versus was wollen wir über sie wissen (informationsorientiert) — entscheidet, ob aus Kennzahlen Selbstkontrolle oder Reporting-Last wird.
Wie nutzen Sie KI, ohne in Surveillance zu kippen? Welche Auswertungen sind mitbestimmungspflichtig, welche AI-Act-relevant, welche unter DSGVO heikel — und welche Designentscheidungen schützen die Selbstkontroll-Architektur?
Wie kontrollieren Sie die KI-Agenten in Ihren Prozessen? Sobald Agenten in Workflows mitlaufen, gehören sie selbst in den Kontrollumkreis: Erfolgsquote, Tonalität, Kompetenzgrenzen, Drift nach Modell-Updates.

Was Sie mitnehmen, ist keine neue Methode — sondern ein geschärfter Blick auf das, was in Ihrem Bereich tatsächlich kontrolliert werden muss, und welche Reportings und Routinen Sie unter KI-Bedingungen abschaffen, behalten oder umbauen sollten.

7 Praxishacks für bessere Kontrolle mit KI

Kleine Routinen, die sofort wirken.

1. Drei-Größen-Regel und Kontroll-Audit (jährlich, halber Tag)

Einmal im Jahr zwei Fragen zusammen klären. Erstens: Was sind die drei bis sieben Schlüsselgrößen, die ich wirklich brauche, um meinen Bereich zu steuern? Pro Größe prüfen: Hat sie einen Gegenpol, der einseitige Optimierung verhindert? (Goodhart-Schutz: Abschlussquote braucht Kundenzufriedenheit nach 90 Tagen). Zweitens: Welche Reportings, Dashboards und Reviews schaffe ich ab? KI macht es leicht, alles am Leben zu halten — die Führungsentscheidung ist, das Ablaufdatum durchzusetzen.

2. Viability Scorecard quartalsweise (60 Minuten, allein oder im engen Führungskreis)

Maliks sechs Schlüsselgrößen einmal pro Quartal explizit durchgehen: Marktstellung, Innovationsleistung, Produktivität (Arbeit, Kapital, Zeit, Wissen), Attraktivität für gute Leute, Liquidität, Gewinnerfordernis. KI liefert die Datenlage; die Beurteilung des Gesamtbildes treffen Sie. Maliks Warnung beachten: niemals von einer Größe auf den Zustand des Bereichs schließen — gute Liquidität bei Substanzverlust, guter Gewinn bei nachlassender Marktstellung, hohe Produktivität bei Talent-Abwanderung. Nur das Zusammenspiel ergibt ein korrektes Bild.

3. Attention Briefing mit Bias-Check wöchentlich (15 Minuten, montags)

KI fasst auf einer Seite zusammen: im grünen Bereich, Aufmerksamkeit empfohlen, Eingriff erforderlich. Bei jedem markierten Alert die Reflex-Frage: Würde ich das auch sehen, wenn ich die Rohdaten anschaue? Bei kritischen Alerts: tatsächlich in die Rohdaten schauen, bevor reagiert wird. Disziplin ist entscheidend — sobald das Briefing auf zwei Seiten anwächst, wird es zum kleinen Reporting. Über mehrere Wochen mitschreiben, wie oft die Rohdaten-Prüfung einen Alert relativiert hat — das kalibriert das Vertrauen ins System genauer als jede Anbieter-Spezifikation.

4. Hingehen / Gemba Walk monatlich (halber Tag, ohne Dashboard)

Einmal im Monat bewusst ohne Dashboard und ohne Bildschirm in einen Bereich gehen — Werkstatt, Verkauf, Service, Entwicklung, Außendienst. Gemba Walk, Genchi Genbutsu, MBWA — der Inhalt ist derselbe: hingehen, hinschauen, mit den Leuten sprechen, die die Arbeit machen. Was Sie dort wahrnehmen — Stimmung, Tonalität, ungesagte Konflikte, stille Erschöpfung — gehört in keinen Bericht und ist genau deshalb kontrollrelevant. Diese Routine ist die Anti-These zum Reporting-Reflex und der wirksamste Schutz gegen den Automation Bias.

5. Messen-vs-Beurteilen-Trennung in Reviews (in jedem Performance Review)

Bei Beurteilungen bewusst trennen: Was sind Fakten — was ist gemessen, dokumentiert, nachprüfbar? und Was ist mein Urteil — meine Einordnung, meine Schlussfolgerung? Beides hat seinen Platz, aber das eine darf nicht als das andere ausgegeben werden. KI liefert die Faktengrundlage; die Beurteilung führen Sie. Das Gespräch selbst — Mensch zu Mensch — wird durch keine KI ersetzt.

6. Pendenzen-Hygiene mit KI-Unterstützung (täglicher 5-Minuten-Check)

Eine Liste aller offenen Zusagen, vereinbarten Aufgaben und Termine. Der tägliche Check stellt sicher: Vereinbartes wird nicht vergessen. Was nicht erledigt wird, wird nicht erledigt, weil eine Entscheidung dagegen getroffen wurde — niemals, weil es vergessen wurde. KI extrahiert Zusagen aus Mails und Meeting-Protokollen, setzt Reminder, macht Muster sichtbar. Konsistent gelebt, gewöhnt diese Routine die Umgebung daran, dass nichts durchrutscht — ein Kontrolleffekt, der mit keinem Dashboard zu erreichen ist.

7. Agent Health Check (pro Agent, Rhythmus nach Einsatz-Intensität)

Pro KI-Agent vier Fragen: Hat der Agent die Aufgaben korrekt verstanden? Sind seine Antworten relevant, präzise, im richtigen Ton? Wurden die Kompetenzgrenzen eingehalten? Wo muss der System-Prompt angepasst werden? Plus Drift-Kontrolle: Versionierung des Prompts, fixierte Baseline-Test-Suite, Regressionstests nach Modell- oder Tool-Updates. KI-Agenten verändern sich über die Zeit — durch Modell-Updates beim Anbieter, neue Datenstände, Erosion durch akkumulierte Edge-Case-Patches. Die Frage „Wie steht das Team?" erweitert sich um „Wie steht jeder Agent, der mitläuft?".

Führungstraining, Coaching, Keynote — so arbeiten wir zusammen

Führungstraining & Workshops

Für Führungskräfte und Teams, die ihre Kontrollarbeit unter KI-Bedingungen neu kalibrieren wollen — an realen Reportings, Performance-Review-Formaten und KPI-Architekturen Ihres Geschäfts, nicht an generischen Cases.

Programme ansehen →

Executive Coaching

Für einzelne Führungskräfte, die ihr Reporting verschlanken, Performance Reviews schärfen oder die Surveillance-Schwelle in ihrem Bereich neu ziehen wollen — vertraulich, mit einem Sparringspartner ohne Interessen am Ausgang.

Gespräch vereinbaren →

Keynote

Für Führungstagungen, die den Diskurs über Kontrolle, Vertrauen und KI-Einsatz in der Organisation öffnen wollen. Keine Hype-Show, sondern ein ehrlicher Blick auf das, was Führung im KI-Zeitalter ausmacht.

Keynote anfragen →

Häufige Fragen zu Kontrolle, KPI-Systemen und KI im Reporting

Wie viele KPIs braucht ein Bereich wirklich?

Drei bis sieben, mit fünf als Orientierungswert. Drucker hat es früh formuliert: Eine erfahrene Führungskraft fischt aus jedem voluminösen Controllerbericht eine Handvoll Größen heraus und steuert mit ihnen ihren Bereich — der Rest ist Daten, nicht Information. Maliks sechs Schlüsselgrößen liegen in genau diesem Korridor. Dashboards mit zwanzig oder dreißig Kennzahlen sind kein Zeichen guter Kontrolle, sondern ein Zeichen dafür, dass die Auswahl nicht getroffen wurde. KI senkt die Hürde, beliebig viele Größen zu erfassen — die Führungsentscheidung ist, sich davon nicht verleiten zu lassen.

Wann ist Kontrolle Überwachung — und wann noch Führung?

Die Schwelle liegt nicht bei der Datenmenge, sondern in der Frage, wer die Daten zuerst zu sehen bekommt. Aktionsorientierte Kontrolle — die Mitarbeitenden sehen ihre Kennzahlen zuerst, steuern sich selbst — ist Führung. Informationsorientierte Kontrolle — die Daten fließen primär nach oben, die Führungsebene überwacht — ist Surveillance unter Steuerungs-Etikett. Hinzu kommt die Unterscheidung Ergebnis-Kontrolle versus Verhaltens-Kontrolle: Ergebnis-Kontrolle (was wurde erreicht?) ist die Voreinstellung, Verhaltens-Kontrolle (wie wurde gearbeitet — Tastenanschläge, Pausenmuster, Bearbeitungsschritte) ist die begründete Ausnahme für sicherheitskritische und stark regulierte Bereiche.

Mein Dashboard hat dreißig Kennzahlen, niemand schaut hin — was tun?

Nicht beschleunigen, sondern abschaffen. Vor jeder Optimierung den Kontroll-Audit: Welche dieser Größen brauche ich wirklich, damit ich gerechtfertigt ruhig schlafen kann? Drei bis sieben überleben — der Rest wird gestrichen, nicht digitalisiert. KI macht es leicht, alles am Leben zu halten; die Führungsentscheidung ist, das Ablaufdatum konsequent durchzusetzen. Pro überlebende Kennzahl die zwei Goodhart-Fragen: Hat sie einen Gegenpol, der einseitige Optimierung verhindert? Ist sie einer neuen Person in fünf Minuten erklärbar?

Wie nutze ich KI für Performance Reviews ohne EU AI Act zu verletzen?

Die folgende Aussage ersetzt keine juristische Prüfung. Der EU AI Act erfasst KI-Systeme in Personalmanagement (Auswahl, Beurteilung, Beförderung, Trennung) als Hochrisiko-Anwendungen nach Anhang III; die Pflichten greifen grundsätzlich ab dem 2. August 2026. Praktisch heißt das: KI-gestützte Vorschläge sind möglich, die Bewertung bleibt menschlich — in einer Form, die ohne Verweis auf das System begründbar ist. Die Beurteilung gehört in eigene Worte, nicht ins Copy-Paste aus dem KI-Output. Für die Hochrisiko-Pflichten kommen Risikomanagement, dokumentierte Datenqualität, Logging, menschliche Aufsicht und Diskriminierungsprüfung hinzu — Themen, die unter §87 BetrVG und AGG ohnehin auf den Tisch gehören.

Brauche ich für KI-gestützte Auswertungen den Betriebsrat?

In den meisten Konstellationen: ja. §87 BetrVG verlangt die Einbeziehung bei technischen Einrichtungen, die zur Überwachung von Verhalten oder Leistung objektiv geeignet sind. Sobald die Daten einzelnen Personen zuordenbar sind oder Leistung beziehungsweise Verhalten personenbezogen auswertbar werden, ist die Schwelle in der Regel überschritten — KI-gestützte Auswertung von Tickets, Kundenkommunikation, Code-Beiträgen oder Bearbeitungszeiten fällt typischerweise darunter. Aggregierte, nicht rückführbare Auswertungen können anders liegen. Eine Einführung ohne Mitbestimmung ist später schwer zu reparieren — Mitbestimmung früh klären spart Reibung.

Wie kontrolliere ich erfahrene Mitarbeitende, ohne sie zu demotivieren?

Maliks Punkt: Kontrolle ist eine Wissensfrage, keine Vertrauensfrage. Bei Bewährten fällt die Kontrolle weniger eng aus — engmaschige Aufsicht wäre hier unnötig und in der Wirkung demotivierend. Bei Neuen oder Personen mit unklarem Leistungsmuster fällt sie intensiver aus — hier ist sie Orientierung, nicht Misstrauen. Das richtige Maß ergibt sich aus der Lage, nicht aus einer Haltung. Hersey/Blanchards situatives Führen operationalisiert das: Aufgaben-Reife einschätzen, Stil und Kontrolldichte daraus ableiten. Hohe Reife heißt mehr Delegation, niedrige Reife mehr Begleitung. Die saubere Operationalisierung gehört in die Aufgabe Menschen entwickeln.

Wie kontrolliere ich KI-Agenten, die in unseren Prozessen mitlaufen?

Wie menschliche Mitarbeitende — mit denselben Drucker-Prinzipien (angemessen, ohne falsche Präzision, fokussiert auf wenige Vitale, strukturell gültig). Konkret: Erfolgsquote, Eskalationen, Tonalität, Einhaltung der Kompetenzgrenzen. Plus eigene KI-spezifische Dimension: Drift. KI-Agenten verändern sich über die Zeit, ohne dass jemand etwas am Prompt ändert — Modell-Updates beim Anbieter, neue Datenstände, Erosion durch Edge-Case-Patches. Operative Antwort: Versionierung des System-Prompts, fixierte Baseline-Test-Suite, Regressionstests nach Modell- oder Tool-Updates. Pro Agent muss erkennbar sein, welche menschliche Person die Verantwortung trägt — Black-Box-Agenten ohne Owner gehören nicht in produktive Prozesse.