Aus der Praxis

Lückenhafte Daten – was tun?

Jörg Lemmerer
#DatenMitDenken

In vielen Betrieben sind Datenbasis und Kennzahlenlandschaft alles andere als perfekt: Excel-Listen mit Lücken, Messwerte nur einmal pro Schicht, handschriftliche Nachträge, Maschinenstillstände ohne Ursache. Trotzdem müssen Entscheidungen getroffen, Investitionen begründet und Verbesserungen bewertet werden. Die Frage lautet also: Wie kann man mit lückenhaften Daten trotzdem sinnvoll arbeiten – ohne sich in falscher Genauigkeit zu verlieren?

Typische Situationen im technischen Alltag

In kleinen und mittleren Unternehmen tauchen ähnliche Muster auf:

  • Produktionsdaten: Stückzahlen pro Tag sind vorhanden, aber Ausschuss wird nur „wenn viel anfällt“ notiert.
  • Energieverbrauch: Zählerstände werden nicht täglich, sondern unregelmäßig abgelesen.
  • Stillstände: Laufzeiten sind am BDE-Terminal, aber Stillstandsgründe nur teilweise erfasst.
  • Wartung: Es gibt eine Liste von Instandhaltungen, aber ohne klare Zuordnung zu Anlagen, Fehlerursachen oder Ausfallzeiten.
  • Projektzeiten: Mitarbeitende buchen auf Projekte, aber Buchungen fehlen oder sind pauschalisiert.

Damit lassen sich Kennzahlen wie Gesamtanlageneffektivität (OEE), spezifischer Energieverbrauch oder Wartungskennzahlen nur mit Mühe oder scheinbar gar nicht berechnen. Gerade hier hilft ein strukturierter Umgang mit Datenlücken.

Schritt 1: Datenlücke bewusst machen statt verstecken

Der größte Fehler ist, fehlende Daten stillschweigend „aufzufüllen“ oder wegzulassen, bis es „gut aussieht“. Besser ist ein technischer und organisatorischer Minimalstandard:

  • Lücken ausdrücklich markieren (z.B. als NaN im Datensatz anstatt 0 oder Mittelwert).
  • Dokumentieren, warum Daten fehlen (Sensor defekt, Schichtzettel unvollständig, Prozess neu, keine Erfassung vorgesehen).
  • Klar festlegen, für welche Auswertungen der Datensatz trotz Lücken noch verwendet werden darf – und für welche nicht.

In Python oder einem Datenanalyse-Tool bedeutet das: fehlende Werte nicht automatisch ersetzen, sondern erst analysieren, wo und wie sie auftreten.

Beispiel in Python (vereinfacht, lesbar gehalten):

import pandas as pd

df = pd.read_csv("produktion.csv", parse_dates=["datum"])

## Überblick: Welche Spalten haben wie viele Lücken?

fehlende_werte = df.isna().sum()

print(fehlende_werte)

Das Ziel ist nicht „perfekte Statistik“, sondern Transparenz: Wo ist die Datenbasis belastbar, wo nicht?

Schritt 2: Relevante Kennzahlen trotz Lücken definieren

Auch mit unvollständigen Daten lassen sich hilfreiche Kennzahlen definieren – wenn die Einschränkungen offen benannt werden. Drei typische Klassen:

  1. Robuste Kennzahlen auf Teilmengen Wenn zum Beispiel Ausschuss nur auf zwei von fünf Linien sauber erfasst wird, kann man:
  2. Kennzahlen gezielt auf diesen beiden Linien berechnen.
  3. Diese Bereiche als „Pilotbereich“ für Verbesserungsprojekte nutzen.
  4. Kennzahlen mit Unsicherheitsbereich Wenn etwa Energiezähler unregelmäßig abgelesen werden, ist eine exakte Tageskennzahl unsicher, ein Monatswert aber brauchbar. → Lösung: Aggregation auf eine Ebene, auf der die Lücken weniger ins Gewicht fallen.
  5. Relative Veränderungen statt absoluter Werte Auch wenn der absolute OEE-Wert unsicher ist, kann die Veränderung vor/nach einer Maßnahme aussagekräftig sein – sofern die Datenerfassung in beiden Zeiträumen gleich (gleich gut oder gleich schlecht) ist.

Wichtig ist eine klare Beschriftung und Dokumentation: „Auswertung basiert auf Linie 1 und 2, Zeitraum X–Y, Datenvollständigkeit etwa 80 % (Fehltage dokumentiert).“

Schritt 3: Lücken systematisch quantifizieren

Für fundierte Entscheidungen reicht es häufig, zu wissen, wie stark Daten fehlen und ob dies zufällig oder strukturiert passiert.

Beispiel: Produktionslinie mit unvollständiger Ausschusserfassung

Annahme:

  • Schichtdaten über 6 Monate
  • Ausschuss wird teilweise vergessen zu buchen
  • Die Qualitätssicherung führt Stichprobenkontrollen durch

Vorgehen:

  1. Fehltage identifizieren Tage, an denen kein Ausschuss erfasst wurde, aber Produktion stattfand.
  2. Stichprobendaten nutzen Aus den Qualitätsprüfungen sind Ausschussquoten an bestimmten Tagen bekannt.
  3. Bandbreite schätzen Daraus lässt sich für Tage ohne Ausschusserfassung eine realistische Spanne ableiten.

Vereinfachtes Python-Beispiel:


## df: datum, gutteile, ausschuss (teilweise NaN), pruef_ausschussquote an Stichprobentagen

import numpy as np

## Annahme: an Tagen mit Stichprobe ist ausschuss verlässlich

stichproben = df.dropna(subset=["pruef_ausschussquote"])

## typische Ausschussquote (Median, robust gegen Ausreißer)

typquote = stichproben["pruef_ausschussquote"].median()

## Unsicherheitsband z.B. zwischen 25. und 75. Perzentil

untergrenze = stichproben["pruef_ausschussquote"].quantile(0.25)
obergrenze = stichproben["pruef_ausschussquote"].quantile(0.75)

## für Tage ohne Ausschusserfassung Schätzung ergänzen (als zusätzliche Spalten, Original bleibt leer)

mask = df["ausschuss"].isna() & df["gutteile"].notna()

df.loc[mask, "ausschuss_schaetzung_mitte"] = df.loc[mask, "gutteile"] * typquote
df.loc[mask, "ausschuss_schaetzung_min"]   = df.loc[mask, "gutteile"] * untergrenze
df.loc[mask, "ausschuss_schaetzung_max"]   = df.loc[mask, "gutteile"] * obergrenze

Die Originaldaten werden nicht überschrieben. Stattdessen erhält man eine Schätzung mit Bandbreite, auf deren Basis man vorsichtige Aussagen treffen kann: „Mit 50–80 % Wahrscheinlichkeit liegt die Ausschussquote zwischen x % und y %.“

Schritt 4: Visualisierung – Unsicherheit sichtbar machen

In der Praxis werden Daten häufig in Diagrammen „glattgebügelt“. Gerade bei lückenhaften Daten ist das gefährlich. Besser sind Visualisierungen, die Unsicherheit und Datenlücken explizit zeigen:

  • Lücken als Unterbrechung in der Zeitreihe anzeigen (anstatt durchgezogener Linien).
  • Bandbreiten statt nur einer einzigen Linie, wenn geschätzte Werte verwendet werden.
  • Farbliche Markierung von Abschnitten mit geschätzten Daten.

Beispielhafte Interpretation:

  • Blaue Linie: gemessene Ausschussquote.
  • Hellblaues Band: geschätzte Spanne in Perioden ohne direkte Messung.
  • Graue Balken: Tage ohne verlässliche Daten (weder Messung noch Schätzung möglich).

Damit können technische Führungskräfte auf einen Blick erkennen: Wo sind wir sicher, und wo bewegen wir uns in einer Schätzregion?

Schritt 5: Entscheidungen trotz lückenhafter Daten treffen

Entscheidungen lassen sich selten aufschieben, bis Daten „perfekt“ sind. Hilfreich ist eine bewusst konservative Vorgehensweise:

  1. Szenarien statt Punkt-Schätzung
  2. Best-Case, Realistic-Case, Worst-Case auf Basis der Bandbreiten.
  3. Wenn sich eine Maßnahme in allen drei Szenarien rechnet, ist sie robust.
  4. Sensitivitätsanalyse
  5. Wie stark ändert sich die Wirtschaftlichkeit einer Maßnahme, wenn die Ausschussquote ±1 Prozentpunkt abweicht?
  6. Typische Frage: „Muss ich recht haben – oder nur grob im richtigen Bereich sein?“
  7. Entscheidung nach Nutzen-Risiko-Verhältnis
  8. Geringe Investition, hoher Nutzen in mehreren Szenarien: eher umsetzen.
  9. Hohe Investition, Nutzen nur im Ideal-Szenario: eher auf bessere Datenbasis hinarbeiten.

Schritt 6: Gezielt in bessere Datenerfassung investieren

Lückenhafte Daten sind nicht nur ein Problem, sondern auch ein Hinweis, wo eine Verbesserung der Datenerfassung den größten Hebel bringt.

Pragmatische Priorisierung:

  1. Kritische Prozesse zuerst Linien oder Anlagen, die besonders hohe Kosten, Engpässe oder Reklamationsrisiken verursachen, sollten zuerst datenmäßig stabilisiert werden.
  2. Geringer Aufwand, hoher Informationsgewinn Beispiele:
  3. Standardisierte digitale Schichtprotokolle mit Pflichtfeldern für Stillstandsgründe.
  4. Einfache Barcodescans statt handschriftlicher Aufschriebe.
  5. Regelmäßige automatische Messungen (z.B. Stromzähler mit Datenlogger) statt händischer Zählerstände.
  6. Prozessseitige Klarheit Technik und Software helfen nur, wenn Rollen und Verantwortlichkeiten klar sind:
  7. Wer erfasst welche Daten?
  8. Bis wann?
  9. Wie werden Fehler oder Ausfälle der Erfassung dokumentiert?

Aus Sicht des österreichischen Rechts ist bei allen technisch relevanten Datenströmen zu beachten, dass bestimmte Dokumentationspflichten zwingend einzuhalten sind, insbesondere im Arbeitnehmerschutz und bei sicherheitsrelevanten Anlagen. Hier geht es nicht nur um Kennzahlenoptimierung, sondern um rechtlich verbindliche Aufzeichnungen.

Beispiel: Arbeitsschutz und sicherheitsrelevante Daten (Österreich)

Das ArbeitnehmerInnenschutzgesetz (ASchG) verlangt unter anderem eine systematische Evaluierung der Gefahren (§ 4 ASchG) und entsprechende Dokumentation. Dazu gehören – je nach Anlage und Tätigkeit – unter anderem:

  • Prüf- und Wartungsaufzeichnungen von Arbeitsmitteln.
  • Dokumentation von Unfällen und Beinaheunfällen.
  • Aufzeichnungen über Messergebnisse, sofern sie für die Beurteilung von Gefahren notwendig sind (z.B. Lärm, Gefahrstoffe).

Lückenhafte oder fehlende Daten können hier nicht einfach „geschätzt“ werden, wenn es um gesetzliche Nachweispflichten geht. In solchen Fällen gilt:

  • Gesetzliche Mindestanforderungen an Prüfungen und Dokumentation müssen vollständig erfüllt werden.
  • Schätzungen sind nur als zusätzliches Analyseinstrument zulässig, nicht als Ersatz für vorgeschriebene Aufzeichnungen.
  • Wo Unklarheit über die Anforderungen besteht, sollte fachkundige Beratung (Sicherheitsfachkraft, Arbeitsmediziner, befugtes Ingenieurbüro) beigezogen werden.

Für alle darüber hinausgehenden betrieblichen Kennzahlen (z.B. interne OEE, Energiekennzahlen) können Schätzungen und Modelle sehr wohl sinnvoll sein – solange sie klar von rechtlich relevanten Daten getrennt werden.

Praxisempfehlungen in Kurzform

1. Ehrlich mit Lücken umgehen

Fehlende Daten markieren, dokumentieren und in Auswertungen sichtbar lassen.

2. Auf geeignete Aggregationsebene wechseln

Wenn Tageswerte zu unsicher sind, auf Wochen- oder Monatswerte ausweichen.

3. Bandbreiten statt Scheinpräzision

Lieber 90–110 MWh als „exakt“ 100 MWh, wenn die Datenbasis unvollständig ist.

4. Pilotbereiche nutzen

Dort, wo Daten am besten sind, gezielt Verbesserungsprojekte starten und Vorgehen erproben.

5. Kritische Lücken zuerst schließen

Insbesondere bei Sicherheit, gesetzlichen Pflichten und kostenintensiven Prozessen.

6. Einfache technische Hilfsmittel einsetzen

Kleine Python-Skripte, standardisierte Excel-Vorlagen oder Dashboards helfen, Lücken systematisch zu erkennen und zu kommunizieren – auch ohne Großprojekt.


Quellen (Auswahl)

  • Arbeiterkammer Wien: „Arbeitnehmerschutzgesetz (ASchG) – Kommentierte Ausgabe“, Stand 2023, arbeiterkammer.at
  • Statistik Austria: „Energieverbrauch in der Industrie“, laufende Reihe, statistik.at
  • DIN EN ISO 9001:2015 – Qualitätsmanagementsysteme – Anforderungen
  • Montgomery, D.C.: „Introduction to Statistical Quality Control“, 8th Edition, 2019, Wiley

Wenn Sie lückenhafte Daten in Ihrem Betrieb haben und unsicher sind, was noch belastbar ist und wo Sie zuerst ansetzen sollten, unterstützen wir Sie gerne – von der schnellen Bestandsaufnahme bis zur pragmatischen Umsetzungsstrategie. Stellen Sie Ihre konkreten Fragen oder schicken Sie ein anonymisiertes Beispiel – ich gehe im Detail darauf ein.

📊 #DatenMitDenken #LemconTech #IngenieurbueroLemmerer #Datenqualitaet #Kennzahlen #Industrie40 #OEE #Energieeffizienz

Sie haben einen konkreten Anlass? Oder wollen einfach wissen, wo Sie stehen?

Das Erstgespräch ist kostenlos und unverbindlich. 30 Minuten am Telefon oder via Video. Ich melde mich innerhalb eines Werktages.