Factoranalyse

Uit Wikipedia, de vrije encyclopedie
Ga naar: navigatie, zoeken

Factoranalyse is een multivariate statistische techniek die voor een groot aantal geobserveerde variabelen een kleiner aantal achterliggende variabelen identificeert. Deze niet geobserveerde, achterliggende variabelen worden factoren genoemd. Belangrijk is dat de factoren bijna evenveel van de variatie verklaren als de geobserveerde variabelen. Factoranalyse wordt gebruikt voor datareductie en om inzicht te krijgen in de structuur van de dataset

Een goede factoroplossing bepaalt een relatief klein aantal factoren die samen een groot deel van de variantie die in de oorspronkelijke variabelen aanwezig is, verklaren. Matrixalgebra is een essentieel onderdeel van factoranalyse. De factoroplossing wordt verkregen door manipulatie van de correlatiematrix.

Voorbeeld met 2 variabelen en 1 factor, ieder punt stelt de scores op A en B van één proefpersoon voor.

Voorbeeld[bewerken]

Een zeer vereenvoudigd voorbeeld verduidelijkt een en ander.

Stel dat een groep proefpersonen van een vragenlijst twee vragen, A en B, beantwoordt. Uit analyse blijkt dat er een verband is tussen A en B. Dan kan dit komen door de invloed van A op B, door de invloed van B op A, of doordat er nog een andere onbekende variabele C in het spel is. Met factoranalyse kan de onbekende variabele C opgespoord worden.

Duidelijk is te zien dat de beide variabelen A en B gecorreleerd zijn. De lijn die goed bij de puntenwolk past geeft deze samenhang tussen A en B weer. De grootste variatie vindt plaats langs de lijn, de kleinste loodrecht daarop. De lijn stelt een nieuwe variabele, in dit geval factor genaamd, voor, die de plaats van A en B kan innemen. Een lage score op die variabele komt overeen met een lage score op zowel A als B en een hoge score met een hoge score op A en B. Het doel van factoranalyse is in dit geval het bepalen van deze lijn en daarmee de onbekende factor.

Als voorbeeld nemen we een proef waarbij van een aantal personen de lengte van de armen en de lengte van de benen worden gemeten. Deze blijken goed gecorreleerd te zijn. De onbekende factor zou hier de grootte van de persoon kunnen zijn.

Doel[bewerken]

Het vinden van een of meer achterliggende (mogelijk hypothetische) variabelen is het doel van factoranalyse. In theorie kan het aantal factoren uiteenlopen van een tot het aantal oorspronkelijke variabelen. Als vuistregel geldt vaak dat een derde tot een vijfde van het aantal oorspronkelijke variabelen een nuttige factoroplossing kan betekenen.

Bij het uitvoeren van een factoranalyse wordt op elk moment in het proces veel eigen interpretatie van de uitvoerder gevraagd. Twee verschillende personen kunnen daardoor met exact dezelfde dataset tot andere conclusies komen. Waar de ene persoon drie factoren meent te onderscheiden, kan een ander van mening zijn dat het in werkelijkheid om vijf factoren gaat. Om deze reden heeft factoranalyse in een aantal wetenschappelijke disciplines aan belang ingeboet.

Factoranalyse lijkt erg op hoofdcomponentenanalyse. Wat in factoranalyse factoren genoemd wordt, wordt in hoofdcomponentenanslyse componenten genoemd. Het verschil tussen beide analysetechnieken is dat bij factoranalyse alleen naar de gemeenschappelijke variantie in de oorspronkelijke variabelen wordt gekeken, terwijl hoofdcomponentenanalyse ook naar de unieke variantie kijkt. In de meeste gevallen zijn de verschillen tussen beide methoden niet erg groot. Mochten er wel verschillen zijn, dan komt dit dus door de unieke variantie binnen (sommige) van de geobserveerde variabelen.

  • Communaliteiten: de communaliteit van een geobserveerde variabele geeft het deel van de variantie weer dat door de factor voorspeld wordt. Omdat een communaliteit een proportie van de totale variantie is, kan deze in theorie slechts waarden tussen de 0 en 1 aannemen. Als vuistregel wordt doorgaans gehanteerd dat een variabele pas goed op een factor laadt als deze een communaliteit heeft van meer dan 0.45. In situaties waarin te weinig data aanwezig is, de startwaarden verkeerd gekozen zijn, of het aantal geëxtraheerde factoren verkeerd is, kunnen in de praktijk variabelen met een communaliteiten die groter dan 1 is voorkomen. In een dergelijke situatie spreekt men van een Heywoodgeval. De gekozen factoroplossing moet in dat geval geïnterpreteerd worden als een problematische oplossing.
Screeplot van 18 variabelen, waarbij 3 factoren een eigenwaarde hebben groter dan 1 (in de afbeelding boven de blauwe lijn).
Op basis van de screeplot kan ook de 'elleboog' van de grafiek bepaald worden. In dit voorbeeld ligt die bij een 2-factor oplossing; de grafiek daalt vanaf dit punt veel minder scherp
  • Aantal factoren: het aantal factoren kan onder meer op basis van de eigenwaarden van de factoren bepaald worden. De eigenwaarde geeft hierbij aan hoeveel additionele variantie door de extra factor wordt verklaard. Omdat het hier gestandaardiseerde variabelen betreft, voegt elke extra factor een variantie van 1 toe. Factoren met een eigenwaarde van minder dan 1 verklaren dus minder variantie dan ze zelf toevoegen. Deze vuistregel wordt ook wel het Kaiser-criterium genoemd of ook wel het Guttman-criterium. Nadeel van de vuistregel is de aanwezige kans op overschatting van het aantal factoren. Een alternatieve beslissingsregel voor het aantal factoren kan op basis van een zogenaamde screeplot verkregen worden (zie figuur). Hierbij wordt op basis van de grafiek gekeken waar de zogenaamde 'elleboog' van de eigenwaarden zich voordoet. Dit is het punt waarop de richtingscoëfficiënt van de lijn door de eigenwaarden een knik vertoont.
  • Factorladingen zijn de correlatiecoëfficiënten tussen de gemeten variabelen en de verklarende factoren.
Links een factoroplossing die hoog laadt op beide factoren; Rechts de (oblique) geroteerde factoren, waarbij duidelijk wordt dat er twee factoren zijn
  • Rotatie: Nadat factoren uit de correlatiematrix zijn geëxtraheerd is het mogelijk om de factoren te draaien met als doel de interpretatie van de factoren te vergemakkelijken. Factorrotatie verandert niets aan de oplossing, maar wijst combinaties van de oorspronkelijke factoren als nieuwe factoren aan. Vooral wanneer de factoren niet grafisch, maar in tabelvorm geïnterpreteerd worden, werkt rotatie vaak verhelderend. Draaiing van de matrix kan zo gedaan worden dat de correlatie tussen variabelen die in de oorspronkelijke matrix van factorladingen laag was, nog lager wordt, en correlatie tussen factorladingen die hoog waren, nog hoger wordt. Er zijn veel methoden om een factorrotatie uit te voeren, onderverdeeld in orthogonale en oblique rotaties; bij het eerste type worden de verschillende factoren strikt onafhankelijk van elkaar verondersteld, bij oblique methoden kunnen de factoren gecorreleerd zijn. Een aantal specifieke rotatiemethoden is opgenomen in de populaire statistische softwarepakketten zoals SPSS en SAS. Voorbeelden van rotatiemethoden zijn Varimax, Direct Oblimin, Quartimax, Equamax en Promax.
  • Factorscores: De hypothetische scores van individuen op de gevonden factoren. Deze worden uitgedrukt als Z-scores, dat wil zeggen met een standaarddeviatie van 1 en een verwachting 0.

Model[bewerken]

Het factoranalysemodel stelt dat de waargenomen variabelen X, op een onverklaarbaar deel, de uniciteit U, na, uitgedrukt kunnen worden als lineaire combinaties L van een geringer aantal variabelen, de factoren F.

X=\mu+LF+U\,.

Daarin is X de vector van de p variabelen, μ de vector met verwachtingswaarden van de variabelen, F de vector met de k (k < p) factoren, L de matrix met coëfficiënten, factorladingen genoemd, en U de vector van uniciteiten. De factoren worden verondersteld gestandaardiseerd te zijn en onderling ongecorreleerd. De uniciteiten worden verondersteld verwachting 0 te hebben en ongecorreleerd te zijn met de factoren.

Voor de covariantiematrix Σ van de variabelen volgt dan:

\Sigma = \operatorname{E}(X-\mu)(X-\mu)'=\operatorname{E}(LF+U)(LF+U)'=LL'+W,\,

waarin W de covariantiematrix van de uniciteiten is.

Het is de opgave van factoranalyse de dimensie k en de factorladingen L zo te bepalen dat de bijdrage aan de variantie door de uniciteiten klein blijft. Het deel van de variantie van een variabele i dat voor rekening van de factoren komt heet communaliteit hi; het wordt gevormd door de som van de kwadraten van de betrokken factorladingen:

h_i=\sum_j L^2_{ij}=(LL')_{ii}\,.

Een gebruikelijke analyse is de hoofdcomponenten van LL' te bepalen, en daarvan de k belangrijkste als factoren te benoemen.