Clusteranalyse
Eines der wichtigsten mathematisch-statistischen Einzelverfahren der multivariaten Datenanalyse, das ebenso wie die - Faktorenanalyse als ein Verfahren der Datenreduktion zur Analyse ungeteilter Variablenmengen der InterdependenzanaIyse zugerechnet wird. Es dient zur Typologisierung von Objekten (Personen, Personenkategorien, Meinungs- und Einstellungsgegenständen, Produkten, usw.), von denen jedes einen bestimmten Meßwert und eine Anzahl von Eigenschaften aufweist. Ziel ist es, Gruppen zu bilden, bei denen jedes Objekt den seiner Gruppe ebenfalls angehörenden Objekten ähnlicher (interne Homogenität) ist, als den Objekten, die ihr nicht angehören (externe Heterogenität).
Bei der Clusterbildung wird iterativ vorgegangen, d.h. die Gruppierungen entstehen schrittweise durch Vergleich jedes einzelnen Objekts mit allen anderen Objekten bzw. mit den in den vorangegangenen Teilschritten bereits aufgebauten Gruppierungen.
Die Ausgangsposition ist dadurch charakterisiert, dass jedes einzelne Objekt zunächst als ein eigenständiges Cluster (Einheitscluster) verstanden wird, das im zweiten Schritt mit dem ihm ähnlichsten Einheitscluster zu einem zweielementigen Cluster und mit einem weiteren, diesem ähnlichsten Objekt zu einem dreielementigen Cluster zusammengefügt wird usw. Zur Bestimmung der Nähe bzw. Entfernung zweier Objekte bedarf es eines Proximitätsmaßes. Dabei werden in der Clusteranalyse vor allem die folgenden Maße verwendet:
· Distanzmaße (Entfernungsmaße) wie z.B. die City-Block-Distanz oder die Euklidische Distanz
· Ähnlichkeitskoeffizienten wie z.B. der Tanimoto-Koeffizient
· Korrelationsuraße.
Im Gegensatz zur Faktorenanalyse, durch die eine Vielzahl von Merkmalskorrelationen auf eine geringe Zahl von Grunddimensionen, die Faktoren, reduziert und die Daten durch Verkleinerung des Raums der Merkmalsvariablen verdichtet werden, erfolgt die Verdichtung der Daten bei der Clusteranalyse durch Gruppierung der Objekte. Am weitesten verbreitet sind die hierarchischen Klassifizierungsverfahren der Clusteranalyse, bei denen eine baumähnliche, hierarchische Struktur der Einheitscluster erstellt wird, Average-Linkage-Methode, Complete-Linkage-Methode, Single-Linkage-Methode. Die graphische Darstellung der Proximitätsverhältnisse in einem Cluster erfolgt dabei mit Hilfe eines - Dendrogramms.
<< vorhergehender Fachbegriff |
|
nächster Fachbegriff >> |
|
|
|
|