Wie fähig ist mein Inspektionssystem wirklich?

Wie fähig ist mein
Inspektionssystem wirklich?

Quantitative Fähigkeitskenngrößen für klassifizierende Bildverarbeitungssysteme und ihre Einflussfaktoren

Gerade im industriellen Umfeld nimmt die Bedeutung von Bildverarbeitungssystemen stetig zu. Von der korrekten Funktion dieser Inspektionssysteme hängt viel ab, meist sogar das Qualitätsniveau der ausgelieferten Teile. Daher ist es von entscheidender Bedeutung, ob das eingesetzte Inspektionssystem für die gewählte Prüfaufgabe geeignet, das heißt ob es fähig ist. Ein neuer Ansatz erlaubt es, diese Fähigkeit für klassifizierende Bildverarbeitungssysteme zu quantifizieren.

Fehlende Standards

Grundlegend kann man zwischen messenden und klassifizierenden Inspektionssystemen unterscheiden; erstere liefern (geometrische) Maße, letztere attributive Merkmale der Prüfteile. Messende Systeme lassen sich über Messunsicherheiten charakterisieren, ihre Fähigkeit für spezielle Prüfaufgaben wird über die Messmittelfähigkeit beschrieben. Diese Größen und Verfahren zu ihrer Bestimmung sind in anerkannten Regelwerken festgelegt. Für klassifizierende Systeme gibt es dagegen noch keine entsprechenden Standards – und das stellt ein erhebliches Problem dar, wenn ein solches System für eine spezifische Prüfaufgabe ausgelegt, spezifiziert und abgenommen werden soll. Aufgrund der Vielfalt klassifizierender Bildverarbeitungssysteme wird eine allgemeine Definition quantitativer Fähigkeitskennzahlen vielleicht nicht gelingen. Anhand eines Beispiels soll hier aber eine Systematik skizziert werden, die auf ähnliche Inspektionssysteme übertragbar ist. Diese Systematik orientiert sich an Kenngrößen, die den gesamten Prüfprozess beschreiben, nämlich der Fehlausschussrate (Anteil fälschlicherweise aussortierter Prüfteile, Falsch-Negativ-Rate) und der Durchschlupfrate (Anteil fälschlich als gut akzeptierter Prüfteile, Falsch-Positiv-Rate). Das sind letztlich die einzigen für den Endanwender relevanten Kennzahlen. Ein oft nicht klar genug erkanntes Problem ist, dass diese Kenngrößen nicht nur von der Leistungsfähigkeit des Inspektionssystems abhängen. Zusätzliche, entscheidende Einflussgrößen sind, wie viele Defekte auf den inspizierten Prüfteilen auftreten und welche Qualitätsregeln für diese Defekte gelten.

Das Bildverarbeitungssystem

Nehmen wir als Beispiel ein System zur Oberflächeninspektion, das auf einem Metallteil Defekte wie offene Lunker, Kratzer und Flecken von Reinigungsmittelrückständen oder Bearbeitungsspuren erkennen soll. Typischerweise geht die Bildverarbeitung in zwei Schritten vor sich: zuerst müssen lokale Auffälligkeiten (Ereignisse) identifiziert werden (Detektion). Im zweiten Schritt werden die entsprechenden Bildausschnitte klassifiziert, also zugeordnet, ob es sich bei dem Ereignis um einen Lunker, Kratzer… handelt. Ein Ereignis kann also, muss aber nicht qualitätsrelevant sein. Qualitätsrelevante Ereignisse wären dann echte Defekte. Allgemein lässt sich die Leistungsfähigkeit dieser Verarbeitungsschritte über eine Detektionsrate d und eine Klassifikationsrate cij beschreiben. Die Klassifikationsrate beschreibt auch Kreuzklassifikationen, also die fälschliche Klassifikation eines Defekts vom Typ j als Typ i. Idealerweise sollten diese Raten bei d=100% und cii=100% liegen. Mit diesen beiden Kenngrößen ist die Kernfunktionalität der Bildverarbeitung erfasst; beide Größen lassen sich in einer Erkennungsrate rij=di*cij zusammenfassen. Es gibt auch klassifizierende Systeme, bei denen Ereignisse nicht eigens detektiert werden müssen. So ist beispielsweise bei der Inspektion einer Blisterverpackung für Tabletten von vornherein klar, wo hingeschaut werden muss. Die Zielgrößen Fehlausschuss und Durchschlupf hängen aber auf jeden Fall noch von anderen Einflüssen ab.

Einfluss von Produktion und Qualitätskriterien

In absoluten Zahlen wird das Inspektionssystem mehr Fehler bei sehr häufig auftretenden Defekten machen, umgekehrt kann die Leistungsfähigkeit des Systems für Defekte, die nie vorkommen, beliebig schlecht sein. Der vorgeschaltete Produktionsprozess spielt mithin eine zentrale Rolle. Also macht es Sinn, die Auftretenshäufigkeiten hi der Defekte (vom Typ i) einzubeziehen und damit die Detektions- und Klassifikationsraten zu wichten: d*i=hi*di und c*ij= hi*cij. Nach der eigentlichen Klassifikation (nach Lunkern, Kratzern, Flecken,…) folgt noch die Zuordnung, ob die entsprechende Ereignisse qualitätsrelevant sind oder nicht. Zwar findet dieser Schritt meist auch im Bildverarbeitungsrechner statt, gehört aber nicht zur Kernfunktionalität der eigentlichen Bildverarbeitung. Insbesondere ist dieser Schritt von den Qualitätsregeln abhängig, die sich ändern können. Betrachten wir als Beispiel die nach der Reinigung zurückgebliebenen Flecken auf unserem Metallteil. Die Fleckenränder sehen gewissen Kratzertypen sehr ähnlich und können daher vom Inspektionssystem leicht verwechselt werden (Kreuzklassifikationsrate relativ hoch). Das hat keine großen Auswirkungen, solange sowohl die Flecken als auch diese Kratzer tolerabel sind und die Teilequalität nicht herabsetzen. Erst wenn ein neuer Kunde diese Kratzer nicht mehr akzeptiert und die Qualitätsregeln entsprechend angepasst werden, macht es einen großen Unterschied ob die Klassifikation zwischen ‚guten’´ Flecken und ´’bösen’´ Kratzern sicher funktioniert. Dann wird die Zuverlässigkeit des Prüfprozesses sinken, obwohl sich an der eigentlichen Leistungsfähigkeit des Inspektionssystems nichts geändert hat. Quantitativ lässt sich die Zuverlässigkeit der Qualitätszuordnung mit ´Qualifizierungsraten´ qlk beschreiben, in denen alle detektierten und klassifizierten Ereignisse gemäß ihrer Qualitätsklasse (ok oder nok = nicht ok) zusammengefasst werden. Damit hängen die Qualifizierungsraten sowohl von den Detektions- und Klassifikationsraten als auch von den Qualitätsregeln ab. Nicht detektierte Defekte gehören implizit immer zur Qualität ok.

Prüfteile mit vielen Ereignissen

Es gibt noch einen weiteren Aspekt, der von großer Bedeutung sein kann: Auf einem Prüfteil befindet sich häufig mehr als nur ein einziges Ereignis. Die betrachteten Metallteile können beispielsweise selten Lunker, aber häufige Flecken und viele Kratzer aufweisen. Damit die Gesamtqualität des Prüfteils korrekt zugeordnet werden kann, muss jedes Einzelereignis korrekt detektiert und klassifiziert werden. Je mehr Ereignisse auf einem Prüfteil vorliegen, desto wahrscheinlicher wird es, dass selbst ein gutes System irgendwo einen Inspektionsfehler macht und damit die Qualität des ganzen Prüfteils falsch zuordnet. Liegen beispielsweise nur N nicht-qualitätsrelevante ok-Ereignisse vor, dann wird das ganze Prüfteil mit der Wahrscheinlichkeit (Prüfrate) von QOK-OK = qNokok korrekt als ´OK´ bewertet. Dabei ist die Qualifizierungsrate qokok die Wahrscheinlichkeit dafür, dass ein ok-Ereignis vom Inspektionssystem tatsächlich als ok eingestuft wird. Wenn die Anzahl N der Ereignisse von Prüfteil zu Prüfteil variieren kann, muss das in der Rechnung über eine statistische Mittelung berücksichtigt werden. Die anderen Fälle ergeben sich aus analogen Überlegungen, auch wenn die genauere Betrachtung Unerwartetes zutage fördert. Ein Schlechtteil wird z.B. auch dann scheinbar korrekt geprüft, wenn das Inspektionssystem den einen qualitätsrelevanten nok-Defekt als gutartig einstuft, gleichzeitig aber aus einem tolerierbaren Ereignis einen qualitätsrelevanten Defekt macht. Die Betrachtung wird vollständig, wenn man zu guter Letzt noch einbezieht, wie häufig Gutteile und Schlechtteile tatsächlich vorkommen. Das lässt sich z.B. aus der Wahrscheinlichkeit abschätzen, mit der qualitätsrelevante Defekte auftreten. Eine Wichtung der oben genannten Prüfraten mit den entsprechenden Häufigkeiten von Gut- und Schlechtteilen führt zu den gesuchten Raten für Durchschlupf Q*NOKOK und Fehlausschuss Q*OKNOK.

Die Umsetzung

Die (hier nicht im Detail ausgeführten) mathematischen Zusammenhänge lassen sich gut in einem gängigen Tabellenkalkulationsprogramm abbilden. Damit ist es möglich, auf belastbare Weise aus konkreten Angaben zu den Häufigkeiten der Ereignisse/Defekte und vorgegebenen Grenzwerten für Durchschlupf- und Fehlausschussraten abzuleiten, welche Leistungsfähigkeit das Inspektionssystem haben muss, sprich welche Detektions- und Klassifikationsraten notwendig sind. Diese können als Spezifikation in einem Lastenheft niedergelegt werden. Ferner lassen sich Szenarien rechnen, etwa welche Konsequenzen es für die Zuverlässigkeit der Prüfung hat, wenn durch ein anderes Ausgangsmaterial die Anzahl der Lunker steigt. Wird das Inspektionssystem in Betrieb genommen (oder wird es im Rahmen einer Prüfmittelüberwachung re-validiert) stellt sich die Frage, ob die geforderten Detektions- und Klassifikationsraten tatsächlich erreicht werden. Das geschieht sinnvollerweise auf empirischem Weg, also durch Überprüfen einer Stichprobe von Inspektionsergebnissen. Die so durch Auszählen gewonnenen Raten sind allerdings nur Schätzwerte und mit einer statistischen Unsicherheit behaftet. Diese Unsicherheit (das Vertrauensintervall) wird umso kleiner, je größer die Stichprobe ist. Da die gesuchten Raten typischerweise nahe bei 100% liegen, sind leider sehr große Stichproben notwendig. An dieser Stelle kann man sich das Leben vereinfachen, wenn man nicht in der laufenden Produktion auf Schlechtteile wartet, sondern entsprechende Stichproben rechtzeitig zusammenstellt. Konkret würde man also beispielsweise auszählen, wie viele der 500 angebotenen Lunker das Inspektionssystem tatsächlich findet. Bei 498 detektierten Lunkern ergibt sich ein Schätzwert für die Detektionsrate von 99,6%, der wahre Wert kann allerdings irgendwo zwischen 98,93% und 100% liegen (bei einem Vertrauensintervall von 95%). Wenn als Detektionsrate 99,9% spezifiziert war, ist es jetzt fraglich, ob die Anlagenspezifikation erfüllt wird oder nicht. Solche Probleme sind in der Natur der Sache begründet und in der Praxis weit verbreitet. Daher ist es sehr ratsam, sich frühzeitig über das Abnahmeverfahren und die entsprechenden Abnahmebedingungen zu einigen, vorzugsweise schon bei der Erstellung von Lasten- und Pflichtenheft.