29. Oktober 2015

Modellqualität

Die Qualität eines Modells lässt sich über den Vergleich der vorhergesagten Werte und den Originalwerten bestimmen. Es gibt zwei verschiedene Arten von Modellen: Regressionsmodelle und Klassifikatoren.

Bei Regressionsmodellen wird am häufigsten der absolute Abstand zwischen der Vorhersage und dem Originalwert für jeden Punkt berechnet und dann entweder addiert und gemittelt (mittlerer absoluter Fehler) oder quadriert, addiert und gemittelt (mittlerer quadratischer Fehler). Der mittlere absolute Fehler hat den Vorteil der besseren Lesbarkeit, wohingegen der quadratische Fehler analytisch besser handhabbar ist (Ableitung). Neben den Zahlenwerten lohnt sich häufig auch ein Blick auf einen Scatterchart, der die vorhergesagten Werte gegen die Originalwerte grafisch darstellt.


Bei Klassifikatoren kann grundsätzlich der Klassifikationsfehler bestimmt werden (1-Anzahl Fehlklassifiaktion/Gesamtanzahl). Allerdings ist es häufig so, dass eine Klasse stark unterrepräsentiert ist. Daher könnte ein niedriger Klassifikationsfehler dadurch erreicht werden, dass immer die Klasse, die am häufigsten vorkommt, vorhergesagt wird. Um dem entgegen zu wirken kann die Wahrheitsmatrix (auch Konfusionsmatrix) aufgestellt werden.

Vorhersage\Originalklasse Klasse A Klasse B
Klasse A Anz. Vorhersage A richtig Anz. Vorhersage A falsch
Klasse B Anz. Vorhersage B falsch Anz. Vorhersage B richtig

Daraus können verschiedene Gütekriterien abgeleitet werden. Zum Beispiel kann die Sensitivität für Klasse A berechnet werden: Anz. Vorhersage A richtig/Anz. Auftreten A. D.h. wie hoch ist der Anteil der korrekt vorhergesagten Objekte einer Klasse. Die Genauigkeit hingegen ist Anz. Vorhersage A richtig/Anz. Vorhersage A. D.h. wie hoch ist der Anteil der korrekten Vorhersagen einer Klasse gegenüber aller Vorhersagen dieser Klasse.  Es gibt noch weitere Möglichkeiten, Gütekriterien aus der Konfusionsmatrix abzuleiten (siehe https://de.wikipedia.org/wiki/Beurteilung_eines_Klassifikators). Je nachdem, wo der Fokus liegt (jedes Auftreten einer bestimmten Klasse muss gefunden werden, die Vorhersage einer Klasse muss immer richtig sein), kann eines der Maße verwendet werden, um den Klassifikator zu optimieren.