Aus der Praxis
Lückenhafte Daten – was tun?
In vielen Betrieben sind Datenbasis und Kennzahlenlandschaft alles andere als perfekt: Excel-Listen mit Lücken, Messwerte nur einmal pro Schicht, handschriftliche Nachträge, Maschinenstillstände ohne Ursache. Trotzdem müssen Entscheidungen getroffen, Investitionen begründet und Verbesserungen bewertet werden. Die Frage lautet also: Wie kann man mit lückenhaften Daten trotzdem sinnvoll arbeiten – ohne sich in falscher Genauigkeit zu verlieren?
Typische Situationen im technischen Alltag
In kleinen und mittleren Unternehmen tauchen ähnliche Muster auf:
- Produktionsdaten: Stückzahlen pro Tag sind vorhanden, aber Ausschuss wird nur „wenn viel anfällt“ notiert.
- Energieverbrauch: Zählerstände werden nicht täglich, sondern unregelmäßig abgelesen.
- Stillstände: Laufzeiten sind am BDE-Terminal, aber Stillstandsgründe nur teilweise erfasst.
- Wartung: Es gibt eine Liste von Instandhaltungen, aber ohne klare Zuordnung zu Anlagen, Fehlerursachen oder Ausfallzeiten.
- Projektzeiten: Mitarbeitende buchen auf Projekte, aber Buchungen fehlen oder sind pauschalisiert.
Damit lassen sich Kennzahlen wie Gesamtanlageneffektivität (OEE), spezifischer Energieverbrauch oder Wartungskennzahlen nur mit Mühe oder scheinbar gar nicht berechnen. Gerade hier hilft ein strukturierter Umgang mit Datenlücken.
Schritt 1: Datenlücke bewusst machen statt verstecken
Der größte Fehler ist, fehlende Daten stillschweigend „aufzufüllen“ oder wegzulassen, bis es „gut aussieht“. Besser ist ein technischer und organisatorischer Minimalstandard:
- Lücken ausdrücklich markieren (z.B. als NaN im Datensatz anstatt 0 oder Mittelwert).
- Dokumentieren, warum Daten fehlen (Sensor defekt, Schichtzettel unvollständig, Prozess neu, keine Erfassung vorgesehen).
- Klar festlegen, für welche Auswertungen der Datensatz trotz Lücken noch verwendet werden darf – und für welche nicht.
In Python oder einem Datenanalyse-Tool bedeutet das: fehlende Werte nicht automatisch ersetzen, sondern erst analysieren, wo und wie sie auftreten.
Beispiel in Python (vereinfacht, lesbar gehalten):
import pandas as pd
df = pd.read_csv("produktion.csv", parse_dates=["datum"])
## Überblick: Welche Spalten haben wie viele Lücken?
fehlende_werte = df.isna().sum()
print(fehlende_werte)
Das Ziel ist nicht „perfekte Statistik“, sondern Transparenz: Wo ist die Datenbasis belastbar, wo nicht?
Schritt 2: Relevante Kennzahlen trotz Lücken definieren
Auch mit unvollständigen Daten lassen sich hilfreiche Kennzahlen definieren – wenn die Einschränkungen offen benannt werden. Drei typische Klassen:
- Robuste Kennzahlen auf Teilmengen Wenn zum Beispiel Ausschuss nur auf zwei von fünf Linien sauber erfasst wird, kann man:
- Kennzahlen gezielt auf diesen beiden Linien berechnen.
- Diese Bereiche als „Pilotbereich“ für Verbesserungsprojekte nutzen.
- Kennzahlen mit Unsicherheitsbereich Wenn etwa Energiezähler unregelmäßig abgelesen werden, ist eine exakte Tageskennzahl unsicher, ein Monatswert aber brauchbar. → Lösung: Aggregation auf eine Ebene, auf der die Lücken weniger ins Gewicht fallen.
- Relative Veränderungen statt absoluter Werte Auch wenn der absolute OEE-Wert unsicher ist, kann die Veränderung vor/nach einer Maßnahme aussagekräftig sein – sofern die Datenerfassung in beiden Zeiträumen gleich (gleich gut oder gleich schlecht) ist.
Wichtig ist eine klare Beschriftung und Dokumentation: „Auswertung basiert auf Linie 1 und 2, Zeitraum X–Y, Datenvollständigkeit etwa 80 % (Fehltage dokumentiert).“
Schritt 3: Lücken systematisch quantifizieren
Für fundierte Entscheidungen reicht es häufig, zu wissen, wie stark Daten fehlen und ob dies zufällig oder strukturiert passiert.
Beispiel: Produktionslinie mit unvollständiger Ausschusserfassung
Annahme:
- Schichtdaten über 6 Monate
- Ausschuss wird teilweise vergessen zu buchen
- Die Qualitätssicherung führt Stichprobenkontrollen durch
Vorgehen:
- Fehltage identifizieren Tage, an denen kein Ausschuss erfasst wurde, aber Produktion stattfand.
- Stichprobendaten nutzen Aus den Qualitätsprüfungen sind Ausschussquoten an bestimmten Tagen bekannt.
- Bandbreite schätzen Daraus lässt sich für Tage ohne Ausschusserfassung eine realistische Spanne ableiten.
Vereinfachtes Python-Beispiel:
## df: datum, gutteile, ausschuss (teilweise NaN), pruef_ausschussquote an Stichprobentagen
import numpy as np
## Annahme: an Tagen mit Stichprobe ist ausschuss verlässlich
stichproben = df.dropna(subset=["pruef_ausschussquote"])
## typische Ausschussquote (Median, robust gegen Ausreißer)
typquote = stichproben["pruef_ausschussquote"].median()
## Unsicherheitsband z.B. zwischen 25. und 75. Perzentil
untergrenze = stichproben["pruef_ausschussquote"].quantile(0.25)
obergrenze = stichproben["pruef_ausschussquote"].quantile(0.75)
## für Tage ohne Ausschusserfassung Schätzung ergänzen (als zusätzliche Spalten, Original bleibt leer)
mask = df["ausschuss"].isna() & df["gutteile"].notna()
df.loc[mask, "ausschuss_schaetzung_mitte"] = df.loc[mask, "gutteile"] * typquote
df.loc[mask, "ausschuss_schaetzung_min"] = df.loc[mask, "gutteile"] * untergrenze
df.loc[mask, "ausschuss_schaetzung_max"] = df.loc[mask, "gutteile"] * obergrenze
Die Originaldaten werden nicht überschrieben. Stattdessen erhält man eine Schätzung mit Bandbreite, auf deren Basis man vorsichtige Aussagen treffen kann: „Mit 50–80 % Wahrscheinlichkeit liegt die Ausschussquote zwischen x % und y %.“
Schritt 4: Visualisierung – Unsicherheit sichtbar machen
In der Praxis werden Daten häufig in Diagrammen „glattgebügelt“. Gerade bei lückenhaften Daten ist das gefährlich. Besser sind Visualisierungen, die Unsicherheit und Datenlücken explizit zeigen:
- Lücken als Unterbrechung in der Zeitreihe anzeigen (anstatt durchgezogener Linien).
- Bandbreiten statt nur einer einzigen Linie, wenn geschätzte Werte verwendet werden.
- Farbliche Markierung von Abschnitten mit geschätzten Daten.
Beispielhafte Interpretation:
- Blaue Linie: gemessene Ausschussquote.
- Hellblaues Band: geschätzte Spanne in Perioden ohne direkte Messung.
- Graue Balken: Tage ohne verlässliche Daten (weder Messung noch Schätzung möglich).
Damit können technische Führungskräfte auf einen Blick erkennen: Wo sind wir sicher, und wo bewegen wir uns in einer Schätzregion?
Schritt 5: Entscheidungen trotz lückenhafter Daten treffen
Entscheidungen lassen sich selten aufschieben, bis Daten „perfekt“ sind. Hilfreich ist eine bewusst konservative Vorgehensweise:
- Szenarien statt Punkt-Schätzung
- Best-Case, Realistic-Case, Worst-Case auf Basis der Bandbreiten.
- Wenn sich eine Maßnahme in allen drei Szenarien rechnet, ist sie robust.
- Sensitivitätsanalyse
- Wie stark ändert sich die Wirtschaftlichkeit einer Maßnahme, wenn die Ausschussquote ±1 Prozentpunkt abweicht?
- Typische Frage: „Muss ich recht haben – oder nur grob im richtigen Bereich sein?“
- Entscheidung nach Nutzen-Risiko-Verhältnis
- Geringe Investition, hoher Nutzen in mehreren Szenarien: eher umsetzen.
- Hohe Investition, Nutzen nur im Ideal-Szenario: eher auf bessere Datenbasis hinarbeiten.
Schritt 6: Gezielt in bessere Datenerfassung investieren
Lückenhafte Daten sind nicht nur ein Problem, sondern auch ein Hinweis, wo eine Verbesserung der Datenerfassung den größten Hebel bringt.
Pragmatische Priorisierung:
- Kritische Prozesse zuerst Linien oder Anlagen, die besonders hohe Kosten, Engpässe oder Reklamationsrisiken verursachen, sollten zuerst datenmäßig stabilisiert werden.
- Geringer Aufwand, hoher Informationsgewinn Beispiele:
- Standardisierte digitale Schichtprotokolle mit Pflichtfeldern für Stillstandsgründe.
- Einfache Barcodescans statt handschriftlicher Aufschriebe.
- Regelmäßige automatische Messungen (z.B. Stromzähler mit Datenlogger) statt händischer Zählerstände.
- Prozessseitige Klarheit Technik und Software helfen nur, wenn Rollen und Verantwortlichkeiten klar sind:
- Wer erfasst welche Daten?
- Bis wann?
- Wie werden Fehler oder Ausfälle der Erfassung dokumentiert?
Aus Sicht des österreichischen Rechts ist bei allen technisch relevanten Datenströmen zu beachten, dass bestimmte Dokumentationspflichten zwingend einzuhalten sind, insbesondere im Arbeitnehmerschutz und bei sicherheitsrelevanten Anlagen. Hier geht es nicht nur um Kennzahlenoptimierung, sondern um rechtlich verbindliche Aufzeichnungen.
Beispiel: Arbeitsschutz und sicherheitsrelevante Daten (Österreich)
Das ArbeitnehmerInnenschutzgesetz (ASchG) verlangt unter anderem eine systematische Evaluierung der Gefahren (§ 4 ASchG) und entsprechende Dokumentation. Dazu gehören – je nach Anlage und Tätigkeit – unter anderem:
- Prüf- und Wartungsaufzeichnungen von Arbeitsmitteln.
- Dokumentation von Unfällen und Beinaheunfällen.
- Aufzeichnungen über Messergebnisse, sofern sie für die Beurteilung von Gefahren notwendig sind (z.B. Lärm, Gefahrstoffe).
Lückenhafte oder fehlende Daten können hier nicht einfach „geschätzt“ werden, wenn es um gesetzliche Nachweispflichten geht. In solchen Fällen gilt:
- Gesetzliche Mindestanforderungen an Prüfungen und Dokumentation müssen vollständig erfüllt werden.
- Schätzungen sind nur als zusätzliches Analyseinstrument zulässig, nicht als Ersatz für vorgeschriebene Aufzeichnungen.
- Wo Unklarheit über die Anforderungen besteht, sollte fachkundige Beratung (Sicherheitsfachkraft, Arbeitsmediziner, befugtes Ingenieurbüro) beigezogen werden.
Für alle darüber hinausgehenden betrieblichen Kennzahlen (z.B. interne OEE, Energiekennzahlen) können Schätzungen und Modelle sehr wohl sinnvoll sein – solange sie klar von rechtlich relevanten Daten getrennt werden.
Praxisempfehlungen in Kurzform
1. Ehrlich mit Lücken umgehen
Fehlende Daten markieren, dokumentieren und in Auswertungen sichtbar lassen.
2. Auf geeignete Aggregationsebene wechseln
Wenn Tageswerte zu unsicher sind, auf Wochen- oder Monatswerte ausweichen.
3. Bandbreiten statt Scheinpräzision
Lieber 90–110 MWh als „exakt“ 100 MWh, wenn die Datenbasis unvollständig ist.
4. Pilotbereiche nutzen
Dort, wo Daten am besten sind, gezielt Verbesserungsprojekte starten und Vorgehen erproben.
5. Kritische Lücken zuerst schließen
Insbesondere bei Sicherheit, gesetzlichen Pflichten und kostenintensiven Prozessen.
6. Einfache technische Hilfsmittel einsetzen
Kleine Python-Skripte, standardisierte Excel-Vorlagen oder Dashboards helfen, Lücken systematisch zu erkennen und zu kommunizieren – auch ohne Großprojekt.
Quellen (Auswahl)
- Arbeiterkammer Wien: „Arbeitnehmerschutzgesetz (ASchG) – Kommentierte Ausgabe“, Stand 2023, arbeiterkammer.at
- Statistik Austria: „Energieverbrauch in der Industrie“, laufende Reihe, statistik.at
- DIN EN ISO 9001:2015 – Qualitätsmanagementsysteme – Anforderungen
- Montgomery, D.C.: „Introduction to Statistical Quality Control“, 8th Edition, 2019, Wiley
Wenn Sie lückenhafte Daten in Ihrem Betrieb haben und unsicher sind, was noch belastbar ist und wo Sie zuerst ansetzen sollten, unterstützen wir Sie gerne – von der schnellen Bestandsaufnahme bis zur pragmatischen Umsetzungsstrategie. Stellen Sie Ihre konkreten Fragen oder schicken Sie ein anonymisiertes Beispiel – ich gehe im Detail darauf ein.
📊 #DatenMitDenken #LemconTech #IngenieurbueroLemmerer #Datenqualitaet #Kennzahlen #Industrie40 #OEE #Energieeffizienz