Statistikrechner

Mittelwert, Median, Standardabweichung und Quartile berechnen — erst die Daten bereinigen

Deskriptive Statistik fasst einen Datensatz mit einer Handvoll Zahlen zusammen: die Lage (Mittelwert, Median), die Streuung (Standardabweichung, IQR) und die Extreme (Min, Max). Aber Daten aus der Praxis sind selten sauber — sie enthalten oft fehlende Werte, kodiert als -999, N/A oder andere Sentinel-Codes, die jede Berechnung verzerren würden.

Dieses Tool lädt einen Stichprobendatensatz von 30 Mitarbeitern mit Name, Alter, Gehalt und Abteilung — einschließlich einiger -999 Sentinel-Werte in der Gehaltsspalte. Klicke auf Daten verknüpfen, um zu sehen, wie diese fehlerhaften Werte den Mittelwert beeinflussen, und bitte dann die KI, sie zu bereinigen und neu zu berechnen. Der Unterschied wird dramatisch sein.

Füge deine eigene CSV ein, um Statistiken für deine Daten zu berechnen.

Was ist ein Sentinel-Wert und warum ist er ein Problem?
Ein Sentinel-Wert ist eine Zahl, die fehlende Daten anzeigt — häufig -999, -1 oder 9999. Wenn du den Mittelwert einer Gehaltsspalte berechnest, die -999 enthält, wird der Mittelwert völlig falsch sein. Bereinige Sentinel-Werte immer vor der Statistikberechnung.
Wann sollte ich Median statt Mittelwert verwenden?
Verwende den Median, wenn deine Daten Ausreißer haben oder schief sind. Der Median ist der mittlere Wert und wird nicht von Extremwerten beeinflusst. Bei Gehältern, Hauspreisen oder Einkommensdaten gibt der Median fast immer ein besseres Bild des „typischen" Wertes als der Mittelwert.
Was sagt mir die Standardabweichung?
Standardabweichung misst, wie weit die Daten um den Mittelwert gestreut sind. In einer Normalverteilung fallen etwa 68 % der Werte innerhalb von ±1 Standardabweichung vom Mittelwert und 95 % innerhalb von ±2. Eine kleine Standardabweichung bedeutet, dass die Daten eng beisammen liegen; eine große bedeutet hohe Variabilität.
Was ist die Fünf-Punkte-Zusammenfassung?
Die Fünf-Punkte-Zusammenfassung ist: Minimum, Q1 (25. Perzentil), Median (50.), Q3 (75.) und Maximum. Diese fünf Werte beschreiben vollständig die Streuung und Lage eines Datensatzes. Sie sind auch die Bausteine eines Boxplots.