Factoren analyse
Factoren analyse is een statistisch methode gebruikt om te beschrijven variabiliteit Onder waargenomen, gecorreleerde variabelen In termen van een potentieel lager aantal niet -waargenomen variabelen genoemd factoren. Het is bijvoorbeeld mogelijk dat variaties in zes waargenomen variabelen voornamelijk de variaties weerspiegelen in twee niet -waargenomen (onderliggende) variabelen. Factoranalyse zoekt naar dergelijke gewrichtsvariaties in reactie op niet -waargenomen latente variabelen. De waargenomen variabelen worden gemodelleerd als lineaire combinaties van de potentiële factoren plus "fout"Voorwaarden, daarom kan factoranalyse worden beschouwd als een speciaal geval van Fouten-in-variabelen modellen.[1]
Simpel gezegd, de factorbelasting van een variabele kwantificeert de mate waarin de variabele gerelateerd is aan een bepaalde factor.[2]
Een veel voorkomende reden achter factoranalytische methoden is dat de informatie die wordt verkregen over de onderlinge afhankelijkheden tussen waargenomen variabelen later kunnen worden gebruikt om de set variabelen in een gegevensset te verminderen. Factoranalyse wordt vaak gebruikt in psychometrie, persoonlijkheid Psychologie, biologie, marketing, product management, Operations Research, financiën, en Machine Learning. Het kan helpen bij het omgaan met gegevenssets waarbij er grote aantallen waargenomen variabelen zijn waarvan wordt gedacht dat ze een kleiner aantal onderliggende/latente variabelen weerspiegelen. Het is een van de meest gebruikte inter-afhankelijkheidstechnieken en wordt gebruikt wanneer de relevante set variabelen een systematische onderlinge afhankelijkheid vertoont en de doelstelling is om de latente factoren te vinden die een gemeenschappelijkheid creëren.
Statistisch model
Definitie
Het model probeert een set van te verklaren waarnemingen in elk van individuen met een set van veel voorkomende factoren () waar er minder factoren per eenheid zijn dan waarnemingen per eenheid (). Elk individu heeft van hun eigen gemeenschappelijke factoren, en deze zijn gerelateerd aan de waarnemingen via factor laadmatrix (), voor een enkele observatie, volgens
waardoor
- is de waarde van de de observatie van de de persoon,
- is het observatiegemiddelde voor de de observatie,
- is het laden voor de de observatie van de de factor,
- is de waarde van de de factor van de het individu, en
- is de e niet -waargenomen stochastische foutterm met gemiddelde nul en eindige variantie.
In matrixnotatie
waar observatiematrix , laadmatrix , factormatrix , fouttermmatrix en gemiddelde matrix waarbij de Het element is eenvoudigweg .
Ook zullen we de volgende veronderstellingen opleggen :
- en zijn onafhankelijk.
- ; waar is Verwachting
- waar is de covariantiematrix, om ervoor te zorgen dat de factoren niet gecorreleerd zijn, en is de identiteitsmatrix.
Veronderstellen . Dan
en daarom uit de voorwaarden die zijn opgelegd bovenstaande,
Of instellen ,,
Merk op dat voor iedereen orthogonale matrix , als we instellen en , de criteria voor het zijn van factoren en factorenbelastingen zijn nog steeds van kracht. Daarom is een reeks factoren en factorbelastingen uniek alleen tot een Orthogonale transformatie.
Voorbeeld
Stel dat een psycholoog de hypothese heeft dat er twee soorten zijn intelligentie-, "verbale intelligentie" en "wiskundige intelligentie", die geen van beide direct worden waargenomen. Bewijs Want de hypothese wordt gezocht in de examenscores van elk van de 10 verschillende academische velden van 1000 studenten. Als elke student willekeurig uit een grote is gekozen bevolking, dan zijn de 10 scores van elke student willekeurige variabelen. De hypothese van de psycholoog kan zeggen dat voor elk van de 10 academische velden de score gemiddeld over de groep van alle studenten die een aantal gemeenschappelijke waarden delen voor verbale en wiskundige "intelligenties" constante keer hun niveau van verbale intelligentie plus een andere constante tijden hun niveau van wiskundige intelligentie, d.w.z. het is een lineaire combinatie van die twee "factoren". De cijfers voor een bepaald onderwerp, waarmee de twee soorten intelligentie worden vermenigvuldigd om de verwachte score te behalen, worden door de hypothese voor alle paren van alle intelligentieniveau hetzelfde en worden ze genoemd en worden ze genoemd en worden ze genoemd "Factor laden" voor dit onderwerp.[verduidelijking nodig] De hypothese kan bijvoorbeeld van mening zijn dat de voorspelde gemiddelde student op het gebied van het gebied van astronomie is
- {10 × de verbale intelligentie van de student} + {6 × de wiskundige intelligentie van de student}.
De getallen 10 en 6 zijn de factorbelastingen geassocieerd met astronomie. Andere academische vakken kunnen verschillende factorbelastingen hebben.
Twee studenten verondersteld identieke graden van verbale en wiskundige intelligentie te hebben, kunnen verschillende gemeten aanbgen hebben in astronomie omdat individuele aanleg verschilt van gemiddelde geschiktheden (hierboven voorspeld) en vanwege meetfout zelf. Dergelijke verschillen vormen wat collectief de "fout" wordt genoemd - een statistische term die de hoeveelheid betekent waarmee een individu, zoals gemeten, verschilt van wat gemiddeld is voor of voorspeld door zijn of haar niveaus van intelligentie (zie Fouten en residuen in statistieken).
De waarneembare gegevens die in factoranalyse gaan, zouden 10 scores van elk van de 1000 studenten zijn, in totaal 10.000 cijfers. De factorbelastingen en niveaus van de twee soorten intelligentie van elke student moeten worden afgeleid uit de gegevens.
Wiskundig model van hetzelfde voorbeeld
In het volgende zullen matrices worden aangegeven door geïndexeerde variabelen. "Onderwerp" -indices worden aangegeven met behulp van letters , en , met waarden die vanaf worden uitgevoerd tot die gelijk is aan In het bovenstaande voorbeeld. "Factor" -indices worden aangegeven met behulp van letters , en , met waarden die vanaf worden uitgevoerd tot die gelijk is aan In het bovenstaande voorbeeld. "Instantie" of "monster" -indices worden aangegeven met behulp van letters , en , met waarden die vanaf worden uitgevoerd tot . In het bovenstaande voorbeeld, als een voorbeeld van Studenten namen deel aan de examens, de De score van de student voor de Het examen wordt gegeven door . Het doel van factoranalyse is het karakteriseren van de correlaties tussen de variabelen waarvan de zijn een bepaald exemplaar of een reeks observaties. Om de variabelen op gelijke voet te hebben, zijn ze dat genormaliseerd in standaardscores :
Waar het monstergemiddelde is:
en de voorbeeldvariantie wordt gegeven door:
Het factoranalysemodel voor dit specifieke monster is dan:
Of, bondiger:
waar
- is de De "verbale intelligentie" van de student,
- is de De "wiskundige intelligentie" van de student,
- zijn de factorbelastingen voor de het onderwerp, voor .
In Matrix Notatie, we hebben
Merk op dat door de schaal te verdubbelen waarop "verbale intelligentie" - de eerste component in elke kolom van —S is gemeten en halverteren de factorbelastingen voor verbale intelligentie geen verschil voor het model. Er gaat dus geen algemeenheid verloren door aan te nemen dat de standaardafwijking van de factoren voor verbale intelligentie is . Evenzo voor wiskundige intelligentie. Bovendien gaat om soortgelijke redenen geen algemeenheid verloren door aan te nemen dat de twee factoren zijn niet gecorrigeerd met elkaar. Met andere woorden:
waar is de Kronecker Delta ( wanneer en wanneer ). De fouten worden verondersteld onafhankelijk te zijn van de factoren:
Merk op dat, omdat elke rotatie van een oplossing ook een oplossing is, dit de interpretatie van de factoren moeilijk maakt. Zie onderstaande nadelen. In dit specifieke voorbeeld, als we niet van tevoren weten dat de twee soorten intelligentie niet gecorreleerd zijn, kunnen we de twee factoren niet interpreteren als de twee verschillende soorten intelligentie. Zelfs als ze niet gecorreleerd zijn, kunnen we niet zeggen welke factor overeenkomt met verbale intelligentie en welke overeenkomt met wiskundige intelligentie zonder een extern argument.
De waarden van de ladingen , de gemiddelden , en de varianties van de "fouten" moet worden geschat gezien de waargenomen gegevens en (De veronderstelling over de niveaus van de factoren is vastgesteld voor een gegeven ). De "fundamentele stelling" kan worden afgeleid uit de bovenstaande voorwaarden:
De term links is de -Term van de correlatiematrix (a matrix afgeleid als het product van de matrix van gestandaardiseerde waarnemingen met zijn transponering) van de waargenomen gegevens, en zijn Diagonale elementen zullen zijn s. De tweede term aan de rechterkant is een diagonale matrix met termen die minder dan eenheid. De eerste term aan de rechterkant is de "verminderde correlatiematrix" en zal gelijk zijn aan de correlatiematrix behalve voor zijn diagonale waarden die minder zullen zijn dan eenheid. Deze diagonale elementen van de verminderde correlatiematrix worden "gemeenschappen" genoemd (die de fractie van de variantie in de waargenomen variabele vertegenwoordigen die door de factoren wordt verklaard):
De voorbeeldgegevens zal niet precies de hierboven gegeven fundamentele vergelijking gehoorzamen vanwege bemonsteringsfouten, ontoereikendheid van het model, enz. Het doel van een analyse van het bovenstaande model is om de factoren te vinden en laden die een "beste pasvorm" geven aan de gegevens. In factoranalyse wordt de beste pasvorm gedefinieerd als het minimum van de gemiddelde vierkante fout in de off-diagonale residuen van de correlatiematrix:[3]
Dit komt overeen met het minimaliseren van de off-diagonale componenten van de foutcovariantie die in de modelvergelijkingen waarden van nul hebben verwacht. Dit moet worden in contrast met de hoofdcomponentanalyse die de gemiddelde vierkante fout van alle residuen wil minimaliseren.[3] Vóór de komst van high-speed computers was er aanzienlijke inspanningen gewijd aan het vinden van geschatte oplossingen voor het probleem, met name bij het schatten van de gemeenschappen op andere manieren, wat het probleem vervolgens aanzienlijk vereenvoudigt door een bekende verminderde correlatiematrix op te leveren. Dit werd vervolgens gebruikt om de factoren en de belastingen te schatten. Met de komst van high-speed computers kan het minimalisatieprobleem iteratief worden opgelost met voldoende snelheid, en de gemeenschappen worden in het proces berekend, in plaats van vooraf nodig te zijn. De Minres Algoritme is vooral geschikt voor dit probleem, maar is nauwelijks het enige iteratieve middel om een oplossing te vinden.
Als de oplossingsfactoren mogen worden gecorreleerd (zoals bijvoorbeeld in 'oblimin' -rotatie), gebruikt het overeenkomstige wiskundige model scheef coördinaten in plaats van orthogonale coördinaten.
Geometrische interpretatie

De parameters en variabelen van factoranalyse kunnen een geometrische interpretatie krijgen. De data (), de factoren () en de fouten () kan worden gezien als vectoren in een -Dimensionale Euclidische ruimte (monsterruimte), weergegeven als , en respectievelijk. Omdat de gegevens gestandaardiseerd zijn, zijn de gegevensvectoren van de lengte van de eenheid (). De factorenvectoren definiëren een -Dimensionale lineaire subruimte (d.w.z. een hyperplane) in deze ruimte, waarop de gegevensvectoren orthogonaal worden geprojecteerd. Dit volgt uit de modelvergelijking
en de onafhankelijkheid van de factoren en de fouten: . In het bovenstaande voorbeeld is het hyperplane slechts een tweedimensionaal vlak gedefinieerd door de twee factorenvectoren. De projectie van de gegevensvectoren op het hyperplane wordt gegeven door
en de fouten zijn vectoren van dat geprojecteerde punt naar het gegevenspunt en staan loodrecht op het hyperplane. Het doel van factoranalyse is om een hyperplane te vinden dat in zekere zin een "beste pasvorm" is voor de gegevens, dus het maakt niet uit hoe de factorenvectoren die dit hyperplane bepalen, worden gekozen, zolang ze onafhankelijk zijn en liggen het hyperplane. We zijn vrij om ze te specificeren als zowel orthogonaal als normaal () zonder verlies van algemeenheid. Nadat een geschikte reeks factoren zijn gevonden, kunnen ze ook willekeurig worden gedraaid in het hyperplane, zodat elke rotatie van de factorvectoren hetzelfde hyperplane zal definiëren en ook een oplossing zal zijn. Als gevolg hiervan, in het bovenstaande voorbeeld, waarin het passende hyperplane tweedimensionaal is, als we niet van tevoren weten dat de twee soorten intelligentie niet gecorreleerd zijn, kunnen we de twee factoren niet interpreteren als de twee verschillende soorten intelligentie. Zelfs als ze niet gecorreleerd zijn, kunnen we niet zien welke factor overeenkomt met verbale intelligentie en welke overeenkomt met wiskundige intelligentie, of dat de factoren lineaire combinaties van beide zijn, zonder een externe argument.
De gegevensvectoren een eenheid lengte hebben. De vermeldingen van de correlatiematrix voor de gegevens worden gegeven door . De correlatiematrix kan geometrisch worden geïnterpreteerd als de cosinus van de hoek tussen de twee gegevensvectoren en . De diagonale elementen zullen duidelijk zijn S en de off diagonale elementen hebben absolute waarden kleiner dan of gelijk aan eenheid. De "verminderde correlatiematrix" wordt gedefinieerd als
- .
Het doel van factoranalyse is om het passende hyperplane te kiezen zodat de verminderde correlatiematrix de correlatiematrix zo bijna mogelijk reproduceert, behalve voor de diagonale elementen van de correlatiematrix waarvan bekend is dat ze eenheidswaarde hebben. Met andere woorden, het doel is om de kruiscorrelaties in de gegevens zo nauwkeurig mogelijk te reproduceren. In het bijzonder, voor het passende hyperplane, de gemiddelde vierkante fout in de off-diagonale componenten
moet worden geminimaliseerd, en dit wordt bereikt door het te minimaliseren met betrekking tot een set orthonormale factorenvectoren. Het kan gezien worden dat
De term rechts is slechts de covariantie van de fouten. In het model wordt de foutcovariantie vermeld als een diagonale matrix en dus zal het bovenstaande minimalisatieprobleem in feite een "beste pasvorm" op het model opleveren: het zal een steekproefschatting opleveren van de foutcovariantie die zijn off-diagonale componenten heeft geminimaliseerd in de gemiddelde vierkante zin. Het is te zien dat sinds de zijn orthogonale projecties van de gegevensvectoren, hun lengte zal kleiner zijn dan of gelijk zijn aan de lengte van de geprojecteerde gegevensvector, die eenheid is. Het kwadraat van deze lengtes zijn slechts de diagonale elementen van de verminderde correlatiematrix. Deze diagonale elementen van de verminderde correlatiematrix staan bekend als "gemeenschappen":
Grote waarden van de gemeenschap zullen aangeven dat het passende hyperplane de correlatiematrix vrij nauwkeurig reproduceert. De gemiddelde waarden van de factoren moeten ook worden beperkt tot nul, waaruit volgt dat de gemiddelde waarden van de fouten ook nul zullen zijn.
Praktische implementatie
Soorten factoranalyse
Verkennende factoranalyse
Exploratory Factor Analysis (EFA) wordt gebruikt om complexe onderlinge relaties tussen items en groepsitems te identificeren die deel uitmaken van uniforme concepten.[4] De onderzoeker maakt nee a priori Veronderstellingen over relaties tussen factoren.[4]
Bevestigende factoranalyse
Bevestigende factoranalyse (CFA) is een meer complexe benadering die de hypothese test dat de items worden geassocieerd met specifieke factoren.[4] CFA gebruikt Structurele vergelijkingsmodellering Om een meetmodel te testen waarbij het laden op de factoren mogelijk maakt om relaties tussen waargenomen variabelen en niet -waargenomen variabelen mogelijk te maken.[4] Structurele vergelijkingsmodelleringsbenaderingen kunnen tegemoet komen aan meetfout en zijn minder beperkend dan De schatting van de kleinste kwadraten.[4] Veronderstelde modellen worden getest tegen werkelijke gegevens en de analyse zou ladingen van waargenomen variabelen op de latente variabelen (factoren) aantonen, evenals de correlatie tussen de latente variabelen.[4]
Soorten factor -extractie
Hoofdcomponentanalyse (PCA) is een veelgebruikte methode voor factor -extractie, de eerste fase van EFA.[4] Factorgewichten worden berekend om de maximaal mogelijke variantie te extraheren, waarbij opeenvolgende factoring doorgaan totdat er geen verdere betekenisvolle variantie over is.[4] Het factormodel moet vervolgens worden gedraaid voor analyse.[4]
Canonieke factoranalyse, ook wel RAO's canonieke factoring genoemd, is een andere methode om hetzelfde model te berekenen als PCA, dat de belangrijkste asmethode gebruikt. Canonieke factoranalyse zoekt factoren die de hoogste canonieke correlatie hebben met de waargenomen variabelen. Canonieke factoranalyse wordt niet beïnvloed door willekeurige herschaling van de gegevens.
Gemeenschappelijke factoranalyse, ook wel principale factoranalyse (PFA) of Principal Axis Factoring (PAF) genoemd, zoekt de minste factoren die de gemeenschappelijke variantie (correlatie) van een set variabelen kunnen verklaren.
Afbeelding factoring is gebaseerd op de correlatiematrix van voorspelde variabelen in plaats van werkelijke variabelen, waarbij elke variabele wordt voorspeld door de anderen die gebruiken meervoudige regressie.
Alpha Factoring is gebaseerd op het maximaliseren van de betrouwbaarheid van factoren, ervan uitgaande dat variabelen willekeurig worden bemonsterd uit een universum van variabelen. Alle andere methoden gaan ervan uit dat gevallen moeten worden bemonsterd en variabelen worden opgelost.
Factorregressiemodel is een combinatorisch model van factormodel en regressiemodel; of als alternatief kan het worden gezien als het hybride factormodel,[5] wiens factoren gedeeltelijk bekend zijn.
Terminologie
- Factorbelastingen
- Gemeenschap is het kwadraat van de gestandaardiseerde buitenste lading van een item. Analoog aan Pearson's r-Squared, de kwadratische factorbelasting is het percentage variantie in die indicatorvariabele verklaard door de factor. Om het percentage variantie in alle variabelen te krijgen die door elke factor worden verklaard, voegt u de som van de kwadratische factorbelastingen toe voor die factor (kolom) en deel door het aantal variabelen. (Merk op dat het aantal variabelen gelijk is eigenwaarde door het aantal variabelen. Bij interpretatie, door één vuistregel in bevestigende factoranalyse, moeten factorbelastingen .7 of hoger zijn om te bevestigen dat onafhankelijke variabelen die a priori zijn geïdentificeerd, worden weergegeven door een bepaalde factor, op de reden dat het .7 -niveau overeenkomt met ongeveer de helft van de Variantie in de indicator die wordt uitgelegd door de factor. De .7-norm is echter hoog en real-life gegevens voldaan mogelijk niet aan dit criterium, daarom zullen sommige onderzoekers, met name voor verkennende doeleinden, een lager niveau gebruiken zoals .4 voor de centrale factor en .25 voor andere factoren. In elk geval moeten factorbelastingen worden geïnterpreteerd in het licht van theorie, niet door willekeurige afsnijdniveaus. In schuin Rotatie, men kan zowel een patroonmatrix als een structuurmatrix onderzoeken. De structuurmatrix is eenvoudig de factorlaadmatrix zoals bij orthogonale rotatie, die de variantie vertegenwoordigt in een gemeten variabele verklaard door een factor op zowel unieke als gemeenschappelijke bijdragen. De patroonmatrix bevat daarentegen coëfficiënten die alleen unieke bijdragen vertegenwoordigen. Hoe meer factoren, hoe lager de patrooncoëfficiënten in de regel lager zijn, omdat er meer veel voorkomende bijdragen aan de uitleg van variantie zullen leveren. Voor schuine rotatie kijkt de onderzoeker naar zowel de structuur als de patrooncoëfficiënten bij het toeschrijven van een label aan een factor. Principes van schuine rotatie kunnen worden afgeleid van zowel kruistropie als de dubbele entropie.[6]
- Gemeenschap
- De som van de kwadratische factorbelastingen voor alle factoren voor een gegeven variabele (rij) is de variantie in die variabele die door alle factoren wordt verklaard. De Communality meet het percentage variantie in een gegeven variabele verklaard door alle gezamenlijk factoren en kan worden geïnterpreteerd als de betrouwbaarheid van de indicator in de context van de gestelde factoren.
- Valse oplossingen
- Als de Communality meer dan 1,0 overschrijdt, is er een valse oplossing, die een te klein monster of de keuze kan weerspiegelen om te veel of te weinig factoren te extraheren.
- Uniekheid van een variabele
- De variabiliteit van een variabele minus zijn communaliteit.
- Eigenwaarden/karakteristieke wortels
- Eigenwaarden meten de hoeveelheid variatie in het totale monster dat door elke factor wordt verantwoord. De verhouding van eigenwaarden is de verhouding van verklarende belang van de factoren met betrekking tot de variabelen. Als een factor een lage eigenwaarde heeft, draagt deze weinig bij aan de uitleg van varianties in de variabelen en kan deze worden genegeerd als minder belangrijk dan de factoren met hogere eigenwaarden.
- Extractiescums van vierkante ladingen
- Eerste eigenwaarden en eigenwaarden na extractie (vermeld door SPSS als "extractiesums van vierkante ladingen") zijn hetzelfde voor PCA -extractie, maar voor andere extractiemethoden zullen eigenwaarden na extractie lager zijn dan hun aanvankelijke tegenhangers. SPSS drukt ook "rotatiefommen van vierkante ladingen" af en zelfs voor PCA zullen deze eigenwaarden verschillen van initiële en extractie -eigenwaarden, hoewel hun totaal hetzelfde zal zijn.
- Factor scores
- Componentscores (in PCA)
-
De scores van elk geval (rij) op elke factor (kolom). Om de factorscore voor een bepaald geval voor een bepaalde factor te berekenen, neemt men de gestandaardiseerde score van de case op elke variabele, vermenigvuldigt zich met de overeenkomstige belastingen van de variabele voor de gegeven factor en vat deze producten samen. Computingfactor scores stelt men in staat om factoruitschenders te zoeken. Factorscores kunnen ook worden gebruikt als variabelen in de daaropvolgende modellering.
Criteria voor het bepalen van het aantal factoren
Onderzoekers willen dergelijke subjectieve of willekeurige criteria voor factorbehoud vermijden als "het was logisch voor mij". Er zijn een aantal objectieve methoden ontwikkeld om dit probleem op te lossen, waardoor gebruikers een geschikt scala aan oplossingen kunnen bepalen om te onderzoeken.[7] Deze verschillende methoden zijn het echter vaak niet met elkaar eens over het aantal factoren dat moet worden behouden. Bijvoorbeeld de parallelle analyse kan 5 factoren suggereren, terwijl de kaart van Velicer 6 suggereert, dus de onderzoeker kan zowel 5 als 6-factor oplossingen aanvragen en elk bespreken in termen van hun relatie tot externe gegevens en theorie.
Moderne criteria
Horn's parallelle analyse (VADER):[8] Een op Monte-Carlo gebaseerde simulatiemethode die de waargenomen eigenwaarden vergelijkt met die verkregen uit niet-gecorreleerde normale variabelen. Een factor of component wordt behouden als de bijbehorende eigenwaarde groter is dan het 95e percentiel van de verdeling van eigenwaarden afgeleid van de willekeurige gegevens. PA is een van de meest aanbevolen regels voor het bepalen van het aantal componenten om te behouden,[7][9] Maar veel programma's bevatten deze optie niet (een opmerkelijke uitzondering is R).[10] Echter, Formann op voorwaarde dat zowel theoretisch als empirisch bewijs dat de toepassing ervan in veel gevallen mogelijk niet geschikt is, omdat de prestaties ervan aanzienlijk worden beïnvloed door steekproefgrootte, Itemdiscriminatieen type van correlatiecoëfficiënt.[11]
Velicer's (1976) kaarttest[12] Zoals beschreven door Courtney (2013)[13] “Betrokken is een complete principale componentenanalyse gevolgd door het onderzoek van een reeks matrices van gedeeltelijke correlaties” (p. 397 (hoewel dit citaat niet plaatsvindt in Velicer (1976) en het geciteerde paginanummer buiten de pagina's van het citaat ligt ). De vierkante correlatie voor stap "0" (zie figuur 4) is de gemiddelde kwadratische off-diagonale correlatie voor de niet-gepartialiseerde correlatiematrix. Op stap 1 worden de eerste hoofdcomponent en de bijbehorende items gescheiden. Daarna worden het gemiddelde kwadraat gescheiden Off-diagonale correlatie voor de daaropvolgende correlatiematrix wordt vervolgens berekend voor stap 1. In stap 2 worden de eerste twee hoofdcomponenten gedeeltelijk uitgeschakeld en de resulterende gemiddelde kwadratische off-diagonale correlatie wordt opnieuw berekend. De berekeningen worden uitgevoerd voor k min. stap (k die het totale aantal variabelen in de matrix weergeeft). Daarna zijn alle gemiddelde vierkante correlaties voor elke stap opgesteld en het stapnummer in de analyses die resulteerden op i n De laagste gemiddelde vierkante gedeeltelijke correlatie bepaalt het aantal componenten of factoren om te behouden.[12] Volgens deze methode worden componenten gehandhaafd zolang de variantie in de correlatiematrix systematische variantie vertegenwoordigt, in tegenstelling tot resterende of foutvariantie. Hoewel het is aangetoond dat de MAP -techniek methodologisch lijkt op de belangrijkste componentenanalyse, is aangetoond dat de MAP -techniek vrij goed presteert bij het bepalen van het aantal factoren dat moet worden behouden in meerdere simulatiestudies.[7][14][15][16] Deze procedure wordt beschikbaar gesteld via de gebruikersinterface van SPSS,[13] net als de psych pakket voor de R programmeertaal.[17][18]
Oudere methoden
Kaiser Criterion: De Kaiser -regel is om alle componenten met eigenwaarden onder 1,0 te laten vallen - dit is de eigenwaarde die gelijk is aan de informatie die wordt verantwoord door een gemiddeld enkel item.[19] Het Kaiser -criterium is de standaardinstelling SPSS en het meest Statistische software maar wordt niet aanbevolen wanneer het wordt gebruikt als het enige grenscriterium voor het schatten van het aantal factoren omdat het de neiging heeft om overbelastingsfactoren te overtroffen.[20] Er is een variatie van deze methode gemaakt wanneer een onderzoeker berekent betrouwbaarheidsintervallen voor elke eigenwaarde en behoudt alleen factoren die het gehele betrouwbaarheidsinterval groter hebben dan 1,0.[14][21]
Klasplot:[22] De Cattell Scree-test plot de componenten als de x-as en de overeenkomstige eigenwaarden als de Y-as. Terwijl men naar rechts gaat, naar latere componenten, dalen de eigenwaarden. Wanneer de druppel ophoudt en de curve een elleboog maakt in de richting van minder steile achteruitgang, zegt Cattell's Scree -test om alle verdere componenten te laten vallen na degene die bij de elleboog begint. Deze regel wordt soms bekritiseerd omdat hij vatbaar is voor door onderzoeker gecontroleerde "fudging". Dat wil zeggen, omdat het plukken van de "elleboog" subjectief kan zijn omdat de curve meerdere ellebogen heeft of een soepele curve is, kan de onderzoeker in de verleiding komen om de grens af te leggen op het aantal factoren dat wordt gewenst door hun onderzoeksagenda.
Variantie verklaarde criteria: sommige onderzoekers gebruiken eenvoudig de regel om voldoende factoren te behouden om goed te zijn voor 90% (soms 80%) van de variatie. Waar het doel van de onderzoeker benadrukt spaarzaamheid (Variantie van zo min mogelijk factoren uitleggen), kan het criterium zo laag zijn als 50%.
Bayesiaanse methode
Een Bayesiaanse aanpak gebaseerd op de Indisch buffetproces retourneert een waarschijnlijkheidsverdeling over het plausibele aantal latente factoren.[23]
Rotatiemethoden
De niet -geroteerde output maximaliseert variantie die wordt verklaard door de eerste en volgende factoren, en dwingt de factoren die moeten zijn orthogonaal. Deze gegevenscompressie gaat ten koste van de meeste items die de vroege factoren laden, en meestal van het hebben van veel items die aanzienlijk op meer dan één factor worden geladen. Rotatie dient om de output begrijpelijker te maken, door het zoeken naar zogenaamde "eenvoudige structuur": een patroon van ladingen waarbij elk item sterk op slechts één van de factoren wordt geladen, en veel zwaker op de andere factoren. Rotaties kunnen orthogonaal of schuin zijn (waardoor de factoren kunnen correleren).
Varimax -rotatie is een orthogonale rotatie van de factorassen om de variantie van de kwadraatbelastingen van een factor (kolom) op alle variabelen (rijen) in een factormatrix te maximaliseren, die het effect heeft om de oorspronkelijke variabelen te differentiëren met geëxtraheerde factor. Elke factor heeft de neiging om grote of kleine belastingen van een bepaalde variabele te hebben. Een Varimax -oplossing levert resultaten op die het zo eenvoudig mogelijk maken om elke variabele met een enkele factor te identificeren. Dit is de meest voorkomende rotatieoptie. De orthogonaliteit van factoren is echter vaak een onrealistische veronderstelling. Schuine rotaties zijn inclusief orthogonale rotatie en om die reden zijn schuine rotaties een voorkeursmethode. Het toestaan van factoren die met elkaar zijn gecorreleerd, is vooral van toepassing in psychometrisch onderzoek, omdat attitudes, meningen en intellectuele vaardigheden meestal gecorreleerd zijn, en omdat het in veel situaties onrealistisch zou zijn om anders aan te nemen.[24]
Quartimax -rotatie is een orthogonaal alternatief dat het aantal factoren minimaliseert dat nodig is om elke variabele te verklaren. Dit type rotatie genereert vaak een algemene factor waarop de meeste variabelen tot een hoge of middelgrote graad worden geladen. Een dergelijke factorstructuur is meestal niet nuttig voor het onderzoeksdoeleinden.
Equimax -rotatie is een compromis tussen criteria van Varimax en Quartimax.
Directe obliminrotatie is de standaardmethode wanneer men een niet-orthogonale (schuine) oplossing wenst-dat wil zeggen een waarin de factoren mogen worden gecorreleerd. Dit zal resulteren in hogere eigenwaarden maar verminderd interpreteerbaarheid van de factoren. Zie onder.[verduidelijking nodig]
Promax-rotatie is een alternatieve niet-orthogonale (schuine) rotatiemethode die computationeel sneller is dan de directe obliminemethode en daarom soms voor zeer groot wordt gebruikt datasets.
Factor -analyse van de hogere orde
Factoranalyse van hogere orde is een statistische methode die bestaat uit herhalende stappen Factoranalyse - schuine rotatie - factoranalyse van geroteerde factoren. De verdienste is om de onderzoeker in staat te stellen de hiërarchische structuur van bestudeerde fenomenen te zien. Om de resultaten te interpreteren, verloopt men ofwel door post-multiply De primaire factor patroonmatrix door de hogere-orde factiepatroonmatrices (Gorsuch, 1983) en misschien een toepassen van een Varimax -rotatie tot het resultaat (Thompson, 1990) of met behulp van een Schmid-Leiman-oplossing (SLS, Schmid & Leiman, 1957, ook bekend als Schmid-Leiman-transformatie) die de toeschrijft variatie Van de primaire factoren tot de tweede-orde factoren.
In psychometrie
Geschiedenis
Charles Spearman was de eerste psycholoog die de gemeenschappelijke factoranalyse besprak[25] en deed dit in zijn papier uit 1904.[26] Het gaf weinig details over zijn methoden en hield zich bezig met modellen met één factor.[27] Hij ontdekte dat schoolkinderen scores op een breed scala van schijnbaar niet -gerelateerde onderwerpen positief gecorreleerd waren, wat hem ertoe bracht dat een enkele algemene mentale vaardigheid, of g, ligt ten grondslag aan en vormt menselijke cognitieve prestaties.
De initiële ontwikkeling van gemeenschappelijke factoranalyse met meerdere factoren werd gegeven door Louis Thurstone In twee artikelen in de vroege jaren dertig,[28][29] samengevat in zijn boek uit 1935, De vector van de geest.[30] Thurstone introduceerde verschillende belangrijke factoranalyseconcepten, waaronder gemeenschap, uniekheid en rotatie.[31] Hij pleitte voor "eenvoudige structuur" en ontwikkelde rotatiemethoden die konden worden gebruikt als een manier om een dergelijke structuur te bereiken.[25]
In Q -methodologie, Stephenson, een student van Spearman, onderscheid tussen R factoranalyse, gericht op de studie van inter-individuele verschillen, en Q Factoranalyse gericht op subjectieve intra-individuele verschillen.[32][33]
Raymond Cattell was een sterk voorstander van factoranalyse en psychometrie en gebruikte de multi-factor theorie van Thurstone om intelligentie uit te leggen. Cattell ontwikkelde ook de "Scree" -test en gelijkeniscoëfficiënten.
Toepassingen in de psychologie
Factoranalyse wordt gebruikt om "factoren" te identificeren die verschillende resultaten op verschillende tests verklaren. Inlichtingenonderzoek bleek bijvoorbeeld dat mensen die een hoge score krijgen op een test van verbale vaardigheden, ook goed zijn op andere tests die verbale vaardigheden vereisen. Onderzoekers hebben dit uitgelegd door factoranalyse te gebruiken om één factor, vaak verbale intelligentie genoemd te worden genoemd, die de mate vertegenwoordigt waarin iemand problemen kan oplossen met verbale vaardigheden.
Factoranalyse in psychologie wordt meestal geassocieerd met intelligentieonderzoek. Het is echter ook gebruikt om factoren te vinden in een breed scala van domeinen zoals persoonlijkheid, attitudes, overtuigingen, enz. psychometrie, omdat het de geldigheid van een instrument kan beoordelen door te vinden of het instrument inderdaad de gepostuleerde factoren meet.
Factoranalyse is een vaak gebruikte techniek in intercultureel onderzoek. Het dient het doel van het extraheren culturele dimensies. De bekendste culturele dimensies -modellen zijn die uitgewerkt door Gert Hofstede, Ronald Inglehart, Christian Welzel, Shalom Schwartz en Michael Minkov.
Voordelen
- Vermindering van het aantal variabelen, door twee of meer variabelen in een enkele factor te combineren. Bijvoorbeeld, prestaties bij hardlopen, bal gooien, batten, springen en gewichtheffen kunnen worden gecombineerd in een enkele factor zoals algemeen atletisch vermogen. Gewoonlijk worden in een item van People Matrix factoren geselecteerd door gerelateerde items te groeperen. In de Q -factoranalysetechniek wordt de matrix getransponeerd en worden factoren gecreëerd door gerelateerde mensen te groeperen. Liberalen, libertariërs, conservatieven en socialisten kunnen zich bijvoorbeeld in afzonderlijke groepen vormen.
- Identificatie van groepen onderling gerelateerde variabelen om te zien hoe ze aan elkaar gerelateerd zijn. Carroll gebruikte bijvoorbeeld factoranalyse om de zijne te bouwen Drie stratum -theorie. Hij ontdekte dat een factor die "brede visuele perceptie" wordt genoemd, betrekking heeft op hoe goed een individu is bij visuele taken. Hij vond ook een "brede auditieve perceptie" -factor, met betrekking tot auditieve taakcapaciteit. Verder vond hij een wereldwijde factor, genaamd "G" of algemene intelligentie, die betrekking heeft op zowel "brede visuele perceptie" als "brede auditieve perceptie". Dit betekent dat iemand met een hoge "G" waarschijnlijk zowel een hoge "visuele perceptie" -capaciteit als een hoge "auditieve perceptie" -capaciteit heeft, en dat "G" daarom een groot deel uitlegt waarom iemand goed of slecht is in beide Die domeinen.
Nadelen
- "... elke oriëntatie is even acceptabel wiskundig. Maar verschillende factoriële theorieën bleken evenveel te verschillen in termen van de oriëntaties van factor assen voor een bepaalde oplossing als in termen van iets anders onderscheid maken tussen theorieën. " (Sternberg, 1977[34]). Dit betekent dat alle rotaties verschillende onderliggende processen vertegenwoordigen, maar alle rotaties zijn even geldige resultaten van standaardfactoranalyse -optimalisatie. Daarom is het onmogelijk om alleen de juiste rotatie te kiezen met behulp van factoranalyse.
- Factoranalyse kan slechts zo goed zijn als de gegevens toestaan. In de psychologie, waar onderzoekers vaak moeten vertrouwen op minder geldige en betrouwbare maatregelen zoals zelfrapporten, kan dit problematisch zijn.
- Interpreterende factoranalyse is gebaseerd op het gebruik van een "heuristiek", wat een oplossing is die "handig is, zelfs als het niet absoluut waar is".[35] Meer dan één interpretatie kan worden gemaakt van dezelfde gegevens die op dezelfde manier worden verwerkt en factoranalyse kan causaliteit niet identificeren.
Exploratory Factor Analysis (EFA) versus Principal Components Analysis (PCA)
Factoranalyse is gerelateerd aan Hoofdcomponentanalyse (PCA), maar de twee zijn niet identiek.[36] Er is significante controverse in het veld geweest over verschillen tussen de twee technieken. PCA kan worden beschouwd als een meer basisversie van verkennende factoranalyse (EFA) die werd ontwikkeld in de vroege dagen voorafgaand aan de komst van high-speed computers. Zowel PCA als factoranalyse zijn bedoeld om de dimensionaliteit van een reeks gegevens te verminderen, maar de daarvoor gebruikte benaderingen zijn verschillend voor de twee technieken. Factoranalyse is duidelijk ontworpen met als doel bepaalde niet -waarneembare factoren te identificeren uit de waargenomen variabelen, terwijl PCA deze doelstelling niet direct aanpakt; In het beste geval biedt PCA een benadering van de vereiste factoren.[37] Vanuit het oogpunt van verkennende analyse, de eigenwaarden van PCA zijn opgeblazen componentbelastingen, d.w.z. vervuild met foutvariantie.[38][39][40][41][42][43]
Terwijl EFA en PCA worden behandeld als synonieme technieken op sommige gebieden van statistieken, dit is bekritiseerd.[44][45] Factoranalyse "gaat over de veronderstelling van een onderliggende causale structuur: [Het] veronderstelt dat de covariatie in de waargenomen variabelen te wijten is aan de aanwezigheid van een of meer latente variabelen (factoren) die causale invloed hebben op deze waargenomen variabelen ".[46] PCA neemt daarentegen noch van een dergelijke onderliggende causale relatie af. Onderzoekers hebben betoogd dat het onderscheid tussen de twee technieken kan betekenen dat er objectieve voordelen zijn voor het verkiezen boven de andere op basis van het analytische doel. Als het factormodel ten onrechte is geformuleerd of niet aan de veronderstellingen wordt voldaan, zal factoranalyse onjuiste resultaten opleveren. Factoranalyse is met succes gebruikt waar voldoende begrip van het systeem goede initiële modelformuleringen mogelijk maakt. PCA maakt gebruik van een wiskundige transformatie naar de oorspronkelijke gegevens zonder veronderstellingen over de vorm van de covariantiematrix. Het doel van PCA is om lineaire combinaties van de oorspronkelijke variabelen te bepalen en er een paar te selecteren die kunnen worden gebruikt om de gegevensset samen te vatten zonder veel informatie te verliezen.[47]
Argumenten contrasteren PCA en EFA
Fabrigar et al. (1999)[44] Pak een aantal redenen aan die worden gebruikt om te suggereren dat PCA niet gelijk is aan factoranalyse:
- Soms wordt gesuggereerd dat PCA sneller computationeel is en minder bronnen vereist dan factoranalyse. Fabrigar et al. Stel voor dat direct beschikbare computerbronnen deze praktische zorg irrelevant hebben gemaakt.
- PCA en factoranalyse kunnen vergelijkbare resultaten opleveren. Dit punt wordt ook aangepakt door Fabrigar et al.; In bepaalde gevallen, waarbij de gemeenschappen laag zijn (bijvoorbeeld 0,4), produceren de twee technieken uiteenlopende resultaten. Fabrigar et al. Beweren dat in gevallen waarin de gegevens overeenkomen met veronderstellingen van het gemeenschappelijke factormodel, de resultaten van PCA onnauwkeurige resultaten zijn.
- Er zijn bepaalde gevallen waarin factoranalyse leidt tot 'Heywood -gevallen'. Deze omvatten situaties waarbij 100% of meer van de variantie In een gemeten variabele wordt geschat door het model te worden verklaard. Fabrigar et al. suggereren dat deze gevallen daadwerkelijk informatief zijn voor de onderzoeker, wat een onjuist gespecificeerd model of een schending van het gemeenschappelijke factormodel aangeeft. Het ontbreken van Heywood -gevallen in de PCA -aanpak kan betekenen dat dergelijke problemen onopgemerkt doorgaan.
- Onderzoekers krijgen extra informatie uit een PCA -aanpak, zoals de score van een individu op een bepaald onderdeel; Dergelijke informatie wordt niet opgeleverd uit factoranalyse. Zoals Fabrigar et al. Controleer of het typische doel van factoranalyse - d.w.z. om de factoren te bepalen die rekening houden met de structuur van de correlaties Tussen gemeten variabelen - vereist geen kennis van factorscores en dus wordt dit voordeel tenietgedaan. Het is ook mogelijk om factorscores uit een factoranalyse te berekenen.
Variantie versus covariantie
Factoranalyse houdt rekening met de willekeurige fout Dat is inherent aan meting, terwijl PCA dit niet doet. Dit punt wordt geïllustreerd door Brown (2009),[48] die aangaf dat, met betrekking tot de correlatiematrices die bij de berekeningen betrokken zijn:
"In PCA worden 1,00's in de diagonale betekenis geplaatst dat alle variantie in de matrix moet worden verantwoord (inclusief variantie die uniek is voor elke variabele, variantie die gemeenschappelijk is tussen variabelen en foutvariantie). Dat zou daarom per definitie per definitie , neem alle variantie in de variabelen op. In EFA worden de gemeenschappen daarentegen in de diagonale betekenis geplaatst dat alleen de variantie die met andere variabelen wordt gedeeld, moet worden verklaard (exclusief variantie die uniek is voor elke variabele en foutvariantie). zou daarom per definitie alleen variantie omvatten die gebruikelijk is tussen de variabelen. "
-Brown (2009), Analyse van hoofdcomponenten en verkennende factoranalyse - Definities, verschillen en keuzes
Om deze reden beveelt Brown (2009) aan om factoranalyse te gebruiken wanneer theoretische ideeën over relaties tussen variabelen bestaan, terwijl PCA moet worden gebruikt als het doel van de onderzoeker is om patronen in hun gegevens te verkennen.
Verschillen in procedure en resultaten
De verschillen tussen PCA en factoranalyse (FA) worden verder geïllustreerd door Suhr (2009):[45]
- PCA resulteert in hoofdcomponenten die een maximale variantie voor waargenomen variabelen verklaren; FA -accounts voor gemeenschappelijk variantie in de gegevens.
- PCA voegt die op de diagonalen van de correlatiematrix; FA past de diagonalen van de correlatiematrix aan met de unieke factoren.
- PCA minimaliseert de som van vierkante loodrechte afstand tot de componentas; FA schat factoren die de reacties op waargenomen variabelen beïnvloeden.
- De componentscores in PCa vertegenwoordigen een lineaire combinatie van de waargenomen variabelen die zijn gewogen door eigenvectoren; De waargenomen variabelen in FA zijn lineaire combinaties van de onderliggende en unieke factoren.
- In PCA zijn de opgeleverde componenten niet interpreteerbaar, d.w.z. ze vertegenwoordigen geen onderliggende ‘constructen’; In FA kunnen de onderliggende constructen worden gelabeld en gemakkelijk worden geïnterpreteerd, gezien een nauwkeurige modelspecificatie.
In marketing
De basisstappen zijn:
- Identificeer de opvallende attributen die consumenten gebruiken om te evalueren producten In deze categorie.
- Gebruiken Kwantitatief marketingonderzoek technieken (zoals enquêtes) om gegevens te verzamelen uit een potentiële steekproef klanten Wat betreft hun beoordelingen van alle productkenmerken.
- Voer de gegevens in een statistisch programma in en voer de factoranalyseprocedure uit. De computer levert een reeks onderliggende attributen (of factoren) op.
- Gebruik deze factoren om te construeren perceptuele kaarten en andere product plaatsing apparaten.
Informatie verzameling
De fase van gegevensverzameling wordt meestal gedaan door marketingonderzoeksprofessionals. Vragen over enquêtes vragen de respondent om een productproef of beschrijvingen van productconcepten op een reeks attributen te beoordelen. Overal van vijf tot twintig attributen worden gekozen. Ze kunnen dingen omvatten als: gebruiksgemak, gewicht, nauwkeurigheid, duurzaamheid, kleur, prijs of grootte. De gekozen attributen zullen variëren, afhankelijk van het bestudeerde product. Dezelfde vraag wordt gesteld over alle producten in de studie. De gegevens voor meerdere producten zijn gecodeerd en worden ingevoerd in een statistisch programma zoals R, SPSS, SAS, Stata, Statistica, JMP en Systat.
Analyse
De analyse zal de onderliggende factoren isoleren die de gegevens verklaren met behulp van een matrix van associaties.[49] Factoranalyse is een onderlinge afhankelijkheidstechniek. De volledige set onderling afhankelijke relaties wordt onderzocht. Er is geen specificatie van afhankelijke variabelen, onafhankelijke variabelen of causaliteit. Factoranalyse veronderstelt dat alle beoordelingsgegevens op verschillende attributen kunnen worden verminderd tot enkele belangrijke dimensies. Deze reductie is mogelijk omdat sommige attributen aan elkaar kunnen worden gerelateerd. De beoordeling aan een kenmerk is gedeeltelijk het resultaat van de invloed van andere attributen. Het statistische algoritme deconstrueert de rating (een ruwe score genoemd) in zijn verschillende componenten en reconstrueert de gedeeltelijke scores in onderliggende factorscores. De mate van correlatie tussen de initiële RAW -score en de uiteindelijke factorscore wordt een genoemd Factor laden.
Voordelen
- Zowel objectieve als subjectieve attributen kunnen worden gebruikt, op voorwaarde dat de subjectieve attributen kunnen worden omgezet in scores.
- Factoranalyse kan latente dimensies of constructen identificeren die directe analyse mogelijk niet.
- Het is gemakkelijk en goedkoop.
Nadelen
- Nut hangt af van het vermogen van de onderzoekers om een voldoende reeks productkenmerken te verzamelen. Als belangrijke attributen worden uitgesloten of verwaarloosd, wordt de waarde van de procedure verlaagd.
- Als sets van waargenomen variabelen sterk op elkaar lijken en verschillen van andere items, zal factoranalyse een enkele factor aan hen toewijzen. Dit kan factoren verdoezelen die interessantere relaties vertegenwoordigen.[verduidelijking nodig]
- Nametactoren kunnen kennis van de theorie vereisen, omdat schijnbaar ongelijksoortige attributen om onbekende redenen sterk kunnen correleren.
In fysieke en biologische wetenschappen
Factoranalyse is ook veel gebruikt in fysieke wetenschappen zoals geochemie, hydrochemie,[50] astrofysica en kosmologie, evenals biologische wetenschappen, zoals ecologie, moleculaire biologie, neurowetenschap en biochemie.
Bij grondwaterkwaliteitsbeheer is het belangrijk om de ruimtelijke verdeling van verschillende chemische parameters te relateren aan verschillende mogelijke bronnen, die verschillende chemische handtekeningen hebben. Een sulfidemijn is bijvoorbeeld waarschijnlijk geassocieerd met hoge niveaus van zuurgraad, opgeloste sulfaten en overgangsmetalen. Deze handtekeningen kunnen worden geïdentificeerd als factoren door middel van R-Mode-factoranalyse en de locatie van mogelijke bronnen kan worden gesuggereerd door de factorscores te besteden.[51]
In geochemie, verschillende factoren kunnen overeenkomen met verschillende minerale associaties, en dus met mineralisatie.[52]
In microarray -analyse
Factoranalyse kan worden gebruikt voor het samenvatten van hoge dichtheid oligonucleotide DNA -microarrays Gegevens op sondeniveau voor Affymetrix Genechips. In dit geval komt de latente variabele overeen met de RNA concentratie in een monster.[53]
Implementatie
Factoranalyse is sinds de jaren tachtig in verschillende statistische analyseprogramma's geïmplementeerd:
- BMDP
- JMP (statistische software)
- Mplus (statistische software)]
- Python: module Scikit-Learn[54]
- R (met de basisfunctie feitelijk of fa Functie in pakket psych). Rotaties worden geïmplementeerd in de GParotation R -pakket.
- SAS (met behulp van procfactor of proc calis)
- SPSS[55]
- Stata
Op zichzelf staand
- Factor [1] - Gratis factoranalysesoftware ontwikkeld door de Rovira I Virgili University
Zie ook
Referenties
- ^ Jöreskog, Karl G. (1983). "Factoranalyse als een fouten-in-variabelen model". Principals van moderne psychologische meting. Hillsdale: Erlbaum. pp. 185–196. ISBN 0-89859-277-1.
- ^ Bandalos, Deborah L. (2017). Meetheorie en toepassingen voor de sociale wetenschappen. The Guilford Press.
- ^ a b c Harman, Harry H. (1976). Moderne factoranalyse. Universiteit van Chicago Press. pp. 175, 176. ISBN 978-0-226-31652-9.
- ^ a b c d e f g h i Polit DF Beck CT (2012). Verpleegkundig onderzoek: het genereren en beoordelen van bewijsmateriaal voor verpleegkundige praktijk, 9e ed. Philadelphia, VS: Wolters Klower Health, Lippincott Williams & Wilkins.
- ^ Meng, J. (2011). "Ontdek coöperatieve genvoorschriften door microRNA's en transcriptiefactoren in glioblastoom met behulp van een niet -negatief hybride factormodel". Internationale conferentie over akoestiek, spraak en signaalverwerking. Gearchiveerd van het origineel op 2011-11-23.
- ^ Liou, C.-y.; Musicus, B.R. (2008). "Kruistropiebenadering van gestructureerde Gaussiaanse covariantiematrices" (PDF). IEEE -transacties op signaalverwerking. 56 (7): 3362–3367. Bibcode:2008itSP ... 56.3362L. doen:10.1109/TSP.2008.917878. S2CID 15255630.
- ^ a b c Zwick, William R.; Velicer, Wayne F. (1986). "Vergelijking van vijf regels voor het bepalen van het aantal te behouden componenten". Psychologisch bulletin. 99 (3): 432–442. doen:10.1037 // 0033-2909.99.3.432.
- ^ Horn, John L. (juni 1965). "Een reden en test voor het aantal factoren in factoranalyse". Psychometrika. 30 (2): 179–185. doen:10.1007/BF02289447. Pmid 14306381. S2CID 19663974.
- ^ Dobriban, Edgar (2017-10-02). "Permutatiemethoden voor factoranalyse en PCA". arxiv:1710.00479v2 [Math.st].
- ^ * Ledesma, R.D.; Valero-Mora, P. (2007). "Bepaling van het aantal factoren dat moet worden behouden in EFA: een eenvoudig te gebruiken computerprogramma voor het uitvoeren van parallelle analyse". Praktisch beoordeling Onderzoek en evaluatie. 12 (2): 1–11.
- ^ Tran, U. S., & Formann, A. K. (2009). Prestaties van parallelle analyse bij het ophalen van unidimensionaliteit in aanwezigheid van binaire gegevens. Educatieve en psychologische meting, 69, 50-61.
- ^ a b Velicer, W.F. (1976). "Het aantal componenten bepalen uit de matrix van gedeeltelijke correlaties". Psychometrika. 41 (3): 321–327. doen:10.1007/BF02293557. S2CID 122907389.
- ^ a b Courtney, M. G. R. (2013). Bepaling van het aantal factoren dat moet worden behouden in EFA: het gebruik van de SPSS R-Menu v2.0 om meer oordeelkundige schattingen te maken. Praktische beoordeling, onderzoek en evaluatie, 18 (8). Beschikbaar online:http://pareonline.net/getvn.asp?v=18&n=8
- ^ a b Warne, R. T.; Larsen, R. (2014). "Het evalueren van een voorgestelde wijziging van de Guttman -regel voor het bepalen van het aantal factoren in een verkennende factoranalyse". Psychologische test- en beoordelingsmodellering. 56: 104–123.
- ^ Ruscio, John; Roche, B. (2012). "Bepaling van het aantal factoren dat moet worden behouden in een verkennende factoranalyse met behulp van vergelijkingsgegevens van bekende faculteitstructuur". Psychologische beoordeling. 24 (2): 282–292. doen:10.1037/a0025697. Pmid 21966933.
- ^ Garrido, L. E., & Abad, F. J., & Ponsoda, V. (2012). Een nieuwe kijk op de parallelle analyse van Horn met ordinale variabelen. Psychologische methoden. Vooruit online publicatie. doen:10.1037/A0030005
- ^ Revelle, William (2007). "Het aantal factoren bepalen: het voorbeeld van de Neo-Pi-R" (PDF).
{{}}
: Cite Journal vereist|journal=
(helpen) - ^ Revelle, William (8 januari 2020). "Psych: procedures voor psychologisch, psychometrisch en persoonlijkheidsresearch".
- ^ Kaiser, Henry F. (april 1960). "De toepassing van elektronische computers op factoranalyse". Educatieve en psychologische meting. 20 (1): 141–151. doen:10.1177/001316446002000116. S2CID 146138712.
- ^ Bandalos, D.L.; Boehm-Kaufman, M.R. (2008). "Vier gemeenschappelijke misvattingen in verkennende factoranalyse". In Lance, Charles E.; Vandenberg, Robert J. (Eds.). Statistische en methodologische mythen en stedelijke legendes: doctrine, verity en fable in de organisatorische en sociale wetenschappen. Taylor & Francis. pp. 61–87. ISBN 978-0-8058-6237-9.
- ^ Larsen, R.; Warne, R. T. (2010). "Het schatten van betrouwbaarheidsintervallen voor eigenwaarden bij verkennende factoranalyse". Gedragsonderzoeksmethoden. 42 (3): 871–876. doen:10.3758/BRM.42.3.871. Pmid 20805609.
- ^ Cattell, Raymond (1966). "De scree -test voor het aantal factoren". Multivariate gedragsonderzoek. 1 (2): 245–76. doen:10.1207/S15327906MBR0102_10. Pmid 26828106.
- ^ Alpaydin (2020). Inleiding tot machine learning (5e ed.). pp. 528–9.
- ^ Russell, D.W. (December 2002). "Op zoek naar onderliggende dimensies: het gebruik (en misbruik) van factoranalyse in persoonlijkheid en sociale psychologie bulletin". Persoonlijkheid en sociale psychologie Bulletin. 28 (12): 1629–46. doen:10.1177/014616702237645. S2CID 143687603.
- ^ a b Mulaik, Stanley A (2010). Foundations of Factor Analysis. Tweede druk. Boca Raton, Florida: CRC Press. p. 6. ISBN 978-1-4200-9961-4.
- ^ Spearman, Charles (1904). "Algemene intelligentie objectief bepaald en gemeten". American Journal of Psychology. 15 (2): 201–293. doen:10.2307/1412107. Jstor 1412107.
- ^ Bartholomew, D. J. (1995). "Spearman en de oorsprong en ontwikkeling van factoranalyse". British Journal of Mathematical and Statistical Psychology. 48 (2): 211–220. doen:10.1111/j.2044-8317.1995.tb01060.x.
- ^ Thurstone, Louis (1931). "Meerdere factoranalyse". Psychologische beoordeling. 38 (5): 406–427. doen:10.1037/h0069792.
- ^ Thurstone, Louis (1934). "The Vectors of Mind". De psychologische review. 41: 1–32. doen:10.1037/h0075959.
- ^ Thurstone, L. L. (1935). De vectoren van de geest. Multiple-factor analyse voor het isolement van primaire eigenschappen. Chicago, Illinois: University of Chicago Press.
- ^ Bock, Robert (2007). "Heroverweging van Thurstone". In Cudeck, Robert; MacCallum, Robert C. (Eds.). Factoranalyse op 100. Mahwah, New Jersey: Lawrence Erlbaum Associates. p. 37. ISBN 978-0-8058-6212-6.
- ^ McKeown, Bruce (2013-06-21). Q -methodologie. ISBN 9781452242194. Oclc 841672556.
- ^ Stephenson, W. (augustus 1935). "Techniek van factoranalyse". Natuur. 136 (3434): 297. Bibcode:1935natur.136..297S. doen:10.1038/136297B0. ISSN 0028-0836. S2CID 26952603.
- ^ Sternberg, R. J. (1977). Metaforen van geest: concepties van de aard van intelligentie. New York: Cambridge University Press. pp. 85–111.[Verificatie nodig]
- ^ "Factoren analyse". Gearchiveerd van het origineel op 18 augustus 2004. Opgehaald 22 juli, 2004.
- ^ Bartholomew, D.J.; Steele, F.; Galbraith, J.; Moustaki, I. (2008). Analyse van multivariate sociale wetenschappengegevens. Statistieken in de Social and Behavioral Sciences -serie (2e ed.). Taylor & Francis. ISBN 978-1584889601.
- ^ Jolliffe I.T. Hoofdcomponentanalyse, Serie: Springer Series in Statistics, 2nd ed., Springer, NY, 2002, xxix, 487 p. 28 illus. ISBN978-0-387-95442-4
- ^ Cattell, R. B. (1952). Factoren analyse. New York: Harper.
- ^ Fruchter, B. (1954). Inleiding tot factoranalyse. Van Nostrand.
- ^ Cattell, R. B. (1978). Gebruik van factoranalyse in gedrags- en levenswetenschappen. New York: Plenum.
- ^ Child, D. (2006). De essentie van factoranalyse, 3e editie. Bloomsbury Academic Press.
- ^ Gorsuch, R. L. (1983). Factor -analyse, 2e editie. Hillsdale, NJ: Erlbaum.
- ^ McDonald, R. P. (1985). Factoranalyse en gerelateerde methoden. Hillsdale, NJ: Erlbaum.
- ^ a b Fabrigar; et al. (1999). "Het gebruik van het gebruik van verkennende factoranalyse in psychologisch onderzoek" (PDF). Psychologische methoden.
- ^ a b Suhr, Diane (2009). "Principal Component -analyse versus verkennende factoranalyse" (PDF). Sugi 30 Proceedings. Opgehaald 5 april 2012.
- ^ SAS -statistieken. "Analyse van hoofdcomponenten" (PDF). SAS Support Textbook.
- ^ Meglen, R.R. (1991). "Het onderzoeken van grote databases: een chemometrische benadering met behulp van principale componentanalyse". Journal of Chemometrics. 5 (3): 163–179. doen:10.1002/cem.11800503055. S2CID 120886184.
- ^ Brown, J. D. (januari 2009). "Analyse van hoofdcomponenten en verkennende factoranalyse - definities, verschillen en keuzes" (PDF). Shiken: Jalt Testing & Evaluation Sig Nieuwsbrief. Opgehaald 16 april 2012.
- ^ Ritter, N. (2012). Een vergelijking van distributievrije en niet-distributievrije methoden in factoranalyse. Paper gepresenteerd op Southwestern Educational Research Association (SERA) Conference 2012, New Orleans, LA (ED529153).
- ^ Subbarao, C.; Subbarao, N.V.; Chandu, S.N. (December 1996). "Karakterisering van grondwaterverontreiniging met behulp van factoranalyse". Milieugeologie. 28 (4): 175–180. Bibcode:1996geo..28..175S. doen:10.1007/S002540050091. S2CID 129655232.
- ^ Love, D.; Hallbauer, D.K.; Amos, A.; Hranova, R.K. (2004). "Factoranalyse als hulpmiddel bij het beheer van grondwater: twee Zuid -Afrikaanse casestudy's". Natuurkunde en chemie van de aarde. 29 (15–18): 1135–43. Bibcode:2004PCE .... 29.1135L. doen:10.1016/j.pce.2004.09.027.
- ^ Barton, E.S.; Hallbauer, D.K. (1996). "Trace-element en U-PB-isotoopsamenstellingen van pyriettypen in het Proterozoïsche zwarte rif, Transvaalsequentie, Zuid-Afrika: implicaties voor Genesis en leeftijd". Chemische geologie. 133 (1–4): 173–199. doen:10.1016/s0009-2541 (96) 00075-7.
- ^ Hochreiter, Sepp; Clevert, Djork-Arné; Obermayer, Klaus (2006). "Een nieuwe summierisatiemethode voor gegevens van affymetrix -probe -niveau". Bio -informatica. 22 (8): 943–9. doen:10.1093/bioinformatica/BTL033. Pmid 16473874.
- ^ "Sklearn.Decomposition.Factoranalysis-Scikit-Learn 0.23.2 Documentatie". scikit-learn.org.
- ^ MacCallum, Robert (juni 1983). "Een vergelijking van factoranalyseprogramma's in SPSS, BMDP en SAS". Psychometrika. 48 (2): 223–231. doen:10.1007/BF02294017. S2CID 120770421.
Verder lezen
- Child, Dennis (2006), De essentie van factoranalyse (3e ed.), Continuum International, ISBN 978-0-8264-8000-2.
- Fabrigar, L.R.; Wegener, D.T.; MacCallum, R.C.; Strahan, E.J. (September 1999). "Evaluatie van het gebruik van verkennende factoranalyse in psychologisch onderzoek". Psychologische methoden. 4 (3): 272–299. doen:10.1037/1082-989x.4.3.272.
- B.T. Gray (1997) Factoranalyse van hogere orde (Conference paper)
- Jennrich, Robert I., "Rotatie tot eenvoudige ladingen met behulp van componentverliesfunctie: het schuine geval," Psychometrika, Vol. 71, nr. 1, pp. 173–191, maart 2006.
- Katz, Jeffrey Owen en Rohlf, F. James. Primair productfunctie: een schuine rotatie tot eenvoudige structuur. Multivariate gedragsonderzoek, April 1975, vol. 10, pp. 219–232.
- Katz, Jeffrey Owen en Rohlf, F. James. Functieplane: een nieuwe benadering van eenvoudige structuurrotatie. Psychometrika, Maart 1974, Vol. 39, nr. 1, pp. 37-51.
- Katz, Jeffrey Owen en Rohlf, F. James. Functie-punt clusteranalyse. Systematische zoölogie, September 1973, vol. 22, nr. 3, pp. 295–301.
- Mulaik, S. A. (2010), Foundations of Factor Analysis, Chapman & Hall.
- Preacher, K.J.; MacCallum, R.C. (2003). "Het repareren van de elektrische analysemachine van Tom Swift" (PDF). Statistieken begrijpen. 2 (1): 13–43. doen:10.1207/S15328031US0201_02. HDL:1808/1492.
- J.Schmid en J. M. Leiman (1957). De ontwikkeling van hiërarchische factoroplossingen. Psychometrika, 22 (1), 53–61.
- Thompson, B. (2004), Verkennende en bevestigende factoranalyse: concepten en toepassingen begrijpen, Washington DC: American Psychological Association, ISBN 978-1591470939.
- Hans-Georg Wolff, Katja Preising (2005)Het verkennen van item- en hogere orde factor structuur met de Schmid-Leiman-oplossing: syntaxiscodes voor SPSS en SASGedragsonderzoeksmethoden, instrumenten en computers, 37 (1), 48-58
Externe links
- Een beginnersgids voor factoranalyse
- Verkennende factoranalyse. Een boek Manuscript van Tucker, L. & MacCallum R. (1993). Ontvangen op 8 juni 2006, van: [2]
- Garson, G. David, "Factor Analysis" van Statnotes: onderwerpen in multivariate analyse. Ontvangen op 13 april 2009 van Statnotes: onderwerpen in multivariate analyse, van G. David Garson aan de North Carolina State University, Public Administration Program
- Factoranalyse op 100 - Conferentiemateriaal
- Farms - Factor -analyse voor robuuste samenvatting van de microarray, een R -pakket