Globale Sensitivitätsanalysemethoden zur automatischen Identifikation der wichtigsten Einflussparameter
In vielen praktischen Anwendungen des maschinellen Lernens auf Prozessdaten, Simulationsdaten or Daten aus Experimenten ist man daran interessiert, die wesentlichen Einflussparameter zu bestimmen. Darunter verstehen wir diejenigen (Gruppen von) Parametern, die die Ausgangsgröße bzw. das Systemverhalten am stärksten beeinflussen.
Sogenannte Sensitivitätsanalysemethoden beantworten diese Frage, indem sie die Unsicherheit der Ausgangsgröße in Abhängigkeit von Veränderungen der Eingangsparameter messen. Globale Sensitivitätsanalysemethoden (GSA) untersuchen die Veränderungen aller Eingangsparameter und erlauben damit eine Analyse der Wichtigkeit jedes Eingangsparameters. Sie können auch Interaktionen zwischen Eingangsparametern identifizieren und sind nicht, wie lokale Verfahren, auf die Bestimmung der Sensitivität für eine spezifische Eingangsparameterkonfiguration beschränkt.
Ein übersichtlicher und prägnanter Vergleich solcher GSA Methoden wurde vor kurzem in IEEE Access veröffentlicht (Preprint: “A Comparison of Global Sensitivity Analysis Methods for Explainable AI with an Application in Genomic Prediction” von Bas van Stein, Elena Raponi, Zahra Sadeghi, Niek Bouman, Roeland van Ham und Thomas Bäck). Der Artikel gibt einen Überblick dieser Methoden, gruppiert nach der jeweiligen Grundidee:
- Varianzbasierte Verfahren: Sobol, Fourier Amplitude Sensitivity Test (FAST), Random Balance Designs FAST
- Ableitungsbasierte Verfahren: Morris, Derivative-based global sensitivity measures (DSGM)
- Dichtebasierte Verfahren: DELTA, PAWN
- Modellbasierte Verfahren: Linear models, random forest, Shapley, SHAP and TreeSHAP.
Um die Verfahren zu vergleichen, wurden auf geeigneten akademischen Testproblemen die Robustheit und Genauigkeit untersucht. Hinsichtlich der Robustheit zeigen die Untersuchungen, dass nur wenige Verfahren bei kleiner Anzahl an Datenpunkten mit wachsender Dimensionalität des Eingangsraums (Anzahl der Eingangsparameter) umgehen können. Das Morris-Verfahren schneidet hinsichtlich Robustheit auf den Testproblemen am besten ab. Die Genauigkeit wird mittels eines Experiments getestet, in dem eine Anzahl von einflusslosen „Dummy“-Parametern korrekt identifiziert werden sollte. Auch hier zeigt sich auf den (nur linearen) Testproblemen, dass das Morris-Verfahren auch dann gut abschneidet, wenn die Dimensionalität hoch und die Anzahl der Datenpunkte niedrig ist.
In dem Artikel wird auch ein qualitativer Vergleich hinsichtlich der folgenden Anforderungskriterien an die Methoden vorgestellt:
- Berechnung von Sensitivitäten erster, zweiter, und totaler Ordnung.
- Bestimmung der Richtung eines Parametereinflusses.
- Bestimmung eines Konfidenzmaßes für die Sensitivität.
- Möglichkeit, Gruppen von Einflussfaktoren zu identifizieren.
- Unabhängigkeit von einem Modell.
- Unabhängigkeit von einem speziellen experimentellen Plan.
- Unabhängigkeit von einem spezifischen Parametersatz im Eingangsraum.
Dieser Vergleich zeigt auch die potenziellen Vorteile der Morris Methode, woraus wir schließen können, dass es sich lohnt, dieses Verfahren weiter auf seine Eignung für simulationsbasierte Anwendungen zu prüfen. Mit Hilfe von Response Surface Modellen, die mit maschinellen Lernverfahren auf solchen Daten gelernt werden, können wir diese globalen Sensitivitätsmaße für die Eingangsparameter der Simulation bestimmen. Für viele praktische Aufgabenstellungen wäre ein solcher Ansatz, der bereits in divis’ ClearVu Analytics Software integriert ist, daher sehr nützlich.