Hoofdcomponentanalyse
Principal Component Analysis (PCA) is een populaire techniek voor het analyseren van grote datasets die een groot aantal dimensies/kenmerken per observatie bevatten, het vergroten van de interpreteerbaarheid van gegevens met behoud van de maximale hoeveelheid informatie en het mogelijk maken van de visualisatie van multidimensionale gegevens. Formeel is PCA een statistische techniek voor het verminderen van de dimensionaliteit van een gegevensset. Dit wordt bereikt door de gegevens lineair te transformeren in een nieuwe coördinatie systeem waar (het meeste) de variatie in de gegevens kan worden beschreven met minder dimensies dan de initiële gegevens. Veel studies gebruiken de eerste twee hoofdcomponenten om de gegevens in twee dimensies te plotten en om clusters van nauw verwante gegevenspunten visueel te identificeren. Principale componentanalyse heeft toepassingen op veel gebieden zoals populatiegenetica, microbioomstudies, atmosferische wetenschap etc. [1]

De hoofdcomponenten van een verzameling punten in een Echte coördinaatruimte zijn een volgorde van eenheidsvectoren, waar de -th vector is de richting van een lijn die het beste bij de gegevens past terwijl ze zijn orthogonaal tot de eerste vectoren. Hier wordt een best passende lijn gedefinieerd als een die het gemiddelde kwadraat minimaliseert loodrecht Afstand van de punten naar de lijn. Deze aanwijzingen vormen een orthonormale basis waarin verschillende individuele dimensies van de gegevens zijn lineair niet gecorreleerd. Hoofdcomponentanalyse (PCA) is het proces van het berekenen van de belangrijkste componenten en het gebruik ervan om een uit te voeren Verandering van basis Over de gegevens, soms met behulp van alleen de eerste paar hoofdcomponenten en het negeren van de rest.
In gegevensanalyse, de eerste hoofdcomponent van een set van Variabelen, verondersteld gezamenlijk normaal verdeeld te zijn, is de afgeleide variabele gevormd als een lineaire combinatie van de oorspronkelijke variabelen die de meeste variantie verklaart. De tweede hoofdcomponent verklaart de meeste variantie in wat er overblijft zodra het effect van de eerste component is verwijderd, en we kunnen doorgaan iteraties totdat alle variantie wordt uitgelegd. PCA wordt meestal gebruikt wanneer veel van de variabelen sterk met elkaar zijn gecorreleerd en het is wenselijk om hun aantal te verminderen tot een onafhankelijke set.
PCA wordt gebruikt in verkennende gegevensanalyse en voor het maken voorspellende modellen. Het wordt vaak gebruikt voor dimensionaliteitsvermindering Door elk gegevenspunt op alleen de eerste paar hoofdcomponenten te projecteren om lager-dimensionale gegevens te verkrijgen, terwijl zoveel mogelijk van de variatie van de gegevens kan worden bewaard. De eerste hoofdcomponent kan gelijkwaardig worden gedefinieerd als een richting die de variantie van de geprojecteerde gegevens maximaliseert. De -TH -hoofdcomponent kan worden opgevat als een richting die orthogonaal is voor de eerste Belangrijkste componenten die de variantie van de geprojecteerde gegevens maximaliseren.
Voor beide doelstellingen kan worden aangetoond dat de belangrijkste componenten zijn eigenvectoren van de gegevens covariantiematrix. Aldus worden de belangrijkste componenten vaak berekend door eigendecompositie van de datacovariantiematrix of singuliere waarden ontbinding van de gegevensmatrix. PCA is de eenvoudigste van de echte op Eigenvector gebaseerde multivariate analyses en is nauw verwant factoren analyse. Factoranalyse bevat typisch meer domeinspecifieke veronderstellingen over de onderliggende structuur en lost eigenvectoren van een iets andere matrix op. PCA is ook gerelateerd aan Canonieke correlatieanalyse (CCA). CCA definieert coördinatensystemen die de cross-covariantie tussen twee datasets terwijl PCA een nieuwe definieert orthogonaal coördinatensysteem Dat beschrijft optimaal variantie in een enkele gegevensset.[2][3][4][5] Robuust en L1-norm-gebaseerde varianten van standaard PCA zijn ook voorgesteld.[6][7][8][5]
Geschiedenis
PCA werd in 1901 uitgevonden door Karl Pearson,[9] als een analoog van de hoofdas stelling in mechanica; het werd later onafhankelijk ontwikkeld en genoemd door Harold Hotelling in de jaren dertig.[10] Afhankelijk van het toepassingsveld, wordt het ook de discrete genoemd Karhunen - Loève transformeren (Klt) in signaalverwerking, de Hotelling transformeren in multivariate kwaliteitscontrole, Juiste orthogonale ontleding (Pod) in werktuigbouwkunde, singuliere waarden ontbinding (Svd) van X (uitgevonden in het laatste kwart van de 19e eeuw[11]), eigenwaarde ontleding (Evd) van XTX in lineaire algebra, factoren analyse (Zie hoofdstuk 7 van Jolliffe's voor een bespreking van de verschillen tussen PCA en factoranalyse Hoofdcomponentanalyse),[12] Eckart - Young Stelling (Harman, 1960), of empirische orthogonale functies (EOF) In Meteorological Science, Empirical Eigenfunction Decomposition (Sirovich, 1987), Empirische componentanalyse (Lorenz, 1956), Quasiharmonic Modi (Brooks et al., 1988), spectrale ontleding in ruis en trillingen, en Empirische modale analyse in structurele dynamiek.
Intuïtie
PCA kan worden beschouwd als het passen van een p-dimensionaal ellipsoïde naar de gegevens, waarbij elke as van de ellipsoïde een hoofdcomponent vertegenwoordigt. Als een as van de ellipsoïde klein is, is de variantie langs die as ook klein.
Om de assen van de ellipsoïde te vinden, moeten we eerst de waarden van elke variabele in de gegevensset op 0 centreren door het gemiddelde van de waargenomen waarden van de variabele van elk van die waarden af te trekken. Deze getransformeerde waarden worden gebruikt in plaats van de oorspronkelijke waargenomen waarden voor elk van de variabelen. Vervolgens berekenen we de covariantiematrix van de gegevens en bereken de eigenwaarden en overeenkomstige eigenvectoren van deze covariantiematrix. Dan moeten we normaliseren Elk van de orthogonale eigenvectoren om ze in eenheidsvectoren te veranderen. Zodra dit is gedaan, kan elk van de weder-orthogonale eenheidsevectoren worden geïnterpreteerd als een as van de ellipsoïde die op de gegevens is aangepast. Deze basiskeuze zal de covariantiematrix transformeren in een diagonaliseerde vorm, waarin de diagonale elementen de variantie van elke as vertegenwoordigen. Het aandeel van de variantie die elke eigenvector vertegenwoordigt, kan worden berekend door de eigenwaarde te delen die overeenkomt met die eigenvector door de som van alle eigenwaarden.
Tweedekker en klasplots (Mate van uitgelegd variantie) worden gebruikt om bevindingen van de PCA uit te leggen.

Details
PCA is gedefinieerd als een orthogonaal lineaire transformatie Dat transformeert de gegevens naar een nieuwe coördinatie systeem zodanig dat de grootste variantie door een scalaire projectie van de gegevens op de eerste coördinaat (de eerste hoofdcomponent wordt genoemd), de tweede grootste variantie op de tweede coördinaat, enzovoort, enzovoort, ligt.[12]
Overweeg een gegevens Matrix, X, met kolomgewijze nul empirisch gemiddelde (het monstergemiddelde van elke kolom is naar nul verschoven), waarbij elk van de n Rijen vertegenwoordigt een andere herhaling van het experiment, en elk van de p Kolommen geven een bepaald soort functie (bijvoorbeeld de resultaten van een bepaalde sensor).
Wiskundig wordt de transformatie gedefinieerd door een set van grootte van p-Dimensionale vectoren van gewichten of coëfficiënten die elke rij vector in kaart brengen van X naar een nieuwe vector van hoofdcomponent scores , gegeven door
op zo'n manier dat de individuele variabelen van t overwogen over de gegevensset erven achtereenvolgens de maximaal mogelijke variantie erven van X, met elke coëfficiëntvector w beperkt om een eenheid Vector (waar wordt meestal geselecteerd om strikt minder te zijn dan om dimensionaliteit te verminderen).
Eerste component
Om de variantie te maximaliseren, de eerste gewichtsvector w(1) Zo moet voldoen
Gelijkwaardig, het schrijven van dit in matrixvorm geeft
Sinds w(1) is gedefinieerd als een eenheidsvector, het voldoet ook aan
De te maximale hoeveelheid kan worden herkend als een Rayleigh quotiënt. Een standaardresultaat voor een Positieve semidefinietmatrix zoals XTX is dat de maximaal mogelijke waarde van het quotiënt de grootste is eigenwaarde van de matrix, die optreedt wanneer w is de overeenkomstige eigenvector.
Met w(1) gevonden, de eerste hoofdcomponent van een gegevensvector x(i) kan dan worden gegeven als een score t1 (i) = x(i) ⋅ w(1) In de getransformeerde coördinaten, of als de overeenkomstige vector in de oorspronkelijke variabelen, {x(i) ⋅ w(1)} w(1).
Verdere componenten
De k-th component is te vinden door de eerste af te trekken k- 1 hoofdcomponenten van X:
en vervolgens het vinden van de gewichtsvector die de maximale variantie uit deze nieuwe gegevensmatrix haalt
Het blijkt dat dit de resterende eigenvectoren van XTX, met de maximale waarden voor de hoeveelheid tussen haakjes gegeven door hun overeenkomstige eigenwaarden. Dus de gewichtsvectoren zijn eigenvectoren van XTX.
De k-TH -hoofdcomponent van een gegevensvector x(i) kan daarom als score worden gegeven tk(i) = x(i) ⋅ w(k) in de getransformeerde coördinaten, of als de overeenkomstige vector in de ruimte van de oorspronkelijke variabelen, {x(i) ⋅ w(k)} w(k), waar w(k) is de kde eigenvector van XTX.
De volledige hoofdcomponenten ontleding van X kan daarom worden gegeven als
waar W is een p-door-p matrix van gewichten waarvan de kolommen de eigenvectoren van zijn XTX. Het transponeren van W wordt soms de Whitening of Sfering -transformatie. Kolommen van W vermenigvuldigd met de vierkantswortel van overeenkomstige eigenwaarden, dat wil zeggen eigenvectoren opgeschaald door de varianties, worden genoemd, worden genoemd lading in PCA of in factoranalyse.
Covarianties
XTX zelf kan worden herkend als evenredig met het empirische monster covariantiematrix van de gegevensset XT.[12]: 30–31
De steekproefcovariantie Q Tussen twee van de verschillende hoofdcomponenten over de dataset wordt gegeven door:
waar het eigenwaarde -eigendom van w(k) is gebruikt om van lijn 2 naar lijn te gaan 3. Eigenvectoren w(j) en w(k) overeenkomend met eigenwaarden van een symmetrische matrix zijn orthogonaal (als de eigenwaarden verschillend zijn), of kunnen worden orthogonaliseerd (als de vectoren toevallig een gelijke herhaalde waarde delen). Het product in de uiteindelijke lijn is daarom nul; Er is geen steekproefcovariantie tussen verschillende hoofdcomponenten over de gegevensset.
Een andere manier om de belangrijkste componententransformatie te karakteriseren is daarom als de transformatie naar coördineert welke de empirische steekproefcovariantiematrix diagonaliseren.
In matrixvorm kan de empirische covariantiematrix voor de originele variabelen worden geschreven
De empirische covariantiematrix tussen de belangrijkste componenten wordt
waar Λ is de diagonale matrix van eigenwaarden λ(k) van XTX. λ(k) is gelijk aan de som van de vierkanten over de dataset die bij elke component is gekoppeld k, dat is, λ(k) = Σi tk2(i) = Σi (x(i) ⋅ w(k))2.
Dimensionaliteitsvermindering
De transformatie T = X W wijst een gegevensvector toe x(i) Van een originele ruimte van p variabelen naar een nieuwe ruimte van p variabelen die niet zijn gecorreleerd over de gegevensset. Niet alle hoofdcomponenten hoeven echter te worden bewaard. Alleen de eerste behouden L hoofdcomponenten, geproduceerd door alleen de eerste te gebruiken L eigenvectoren, geeft de afgeknotte transformatie
waar de matrix TL nu heeft n Rijen maar alleen L kolommen. Met andere woorden, PCA leert een lineaire transformatie waar de kolommen van p × L Matrix vormen een orthogonale basis voor de L kenmerken (de componenten van representatie t) die zijn decorrelateerd.[13] Door constructie, van alle getransformeerde gegevensmatrices met alleen L Kolommen, deze scorematrix maximaliseert de variantie in de oorspronkelijke gegevens die behouden zijn, terwijl de totale kwadraatreconstructiefout wordt geminimaliseerd of .

PCA heeft met succes lineaire combinaties gevonden van de markers die verschillende clusters scheiden die overeenkomen met verschillende lijnen van de y-chromosomale genetische afkomst van individuen.
Zo een dimensionaliteitsvermindering Kan een zeer nuttige stap zijn voor het visualiseren en verwerken van hoogdimensionale datasets, terwijl het nog steeds zoveel mogelijk variantie in de gegevensset behoudt. Bijvoorbeeld selecteren L= 2 en het behouden van alleen de eerste twee hoofdcomponenten vindt het tweedimensionale vlak door de hoogdimensionale gegevensset waarin de gegevens het meest worden verspreid, dus als de gegevens bevatten clusters Ook deze kunnen het meest verspreid zijn en daarom het meest zichtbaar om te worden uitgezet in een tweedimensionaal diagram; Terwijl als twee richtingen door de gegevens (of twee van de oorspronkelijke variabelen) willekeurig worden gekozen, de clusters veel minder uit elkaar kunnen worden verspreid, en in feite veel meer kans hebben om elkaar aanzienlijk te bedekken, waardoor ze niet te onderscheiden zijn.
Evenzo in regressie analyse, hoe groter het aantal verklarende variabelen toegestaan, hoe groter de kans op overfect Het model, dat conclusies produceert die niet generaliseren naar andere datasets. Eén benadering, vooral wanneer er sterke correlaties zijn tussen verschillende mogelijke verklarende variabelen, is om ze te verminderen tot enkele hoofdcomponenten en vervolgens de regressie tegen hen uit te voeren, een methode met de naam Regressie van de hoofdcomponent.
Dimensionaliteitsvermindering kan ook geschikt zijn wanneer de variabelen in een dataset luidruchtig zijn. Als elke kolom van de gegevensset onafhankelijke identiek gedistribueerde Gaussiaanse ruis bevat, dan zijn de kolommen van T zal ook op dezelfde manier identiek gedistribueerde Gaussiaanse ruis bevatten (een dergelijke verdeling is invariant onder de effecten van de matrix W, die kan worden beschouwd als een hoog-dimensionale rotatie van de coördinaatassen). Met meer van de totale variantie geconcentreerd in de eerste paar belangrijkste componenten in vergelijking met dezelfde ruisvariantie, is het evenredige effect van de ruis minder - de eerste paar componenten bereiken een hoger signaal - ruis verhouding. PCA kan dus het effect hebben van het concentreren van een groot deel van het signaal in de eerste paar belangrijkste componenten, die nuttig kunnen worden vastgelegd door dimensionaliteitsreductie; Terwijl de latere hoofdcomponenten kunnen worden gedomineerd door ruis en zo zonder groot verlies kunnen worden verwijderd. Als de gegevensset niet te groot is, kan de betekenis van de hoofdcomponenten worden getest met behulp van parametrische bootstrap, als hulpmiddel bij het bepalen hoeveel hoofdcomponenten te behouden zijn.[14]
Singuliere waarden ontbinding
De belangrijkste componententransformatie kan ook worden geassocieerd met een andere matrixfactorisatie, de singuliere waarden ontbinding (Svd) van X,,
Hier Σ is een n-door-p rechthoekige diagonale matrix van positieve cijfers σ(k), de enkelvoudige waarden genoemd van X; U is een n-door-n matrix, waarvan de kolommen orthogonale eenheidsvectoren van lengte zijn n genaamd de linkse enkelvoudige vectoren van X; en W is een p-door-p waarvan de kolommen orthogonale eenheid vectoren van lengte zijn p en noemde de juiste enkelvoudige vectoren van X.
In termen van deze factorisatie, de matrix XTX kan worden geschreven
waar is de vierkante diagonale matrix met de enkelvoudige waarden van X en de overtollige nullen die zijn afgehakt die voldoet . Vergelijking met de eigenvectorfactorisatie van XTX stelt vast dat de juiste enkelvoudige vectoren W van X zijn gelijk aan de eigenvectoren van XTX, terwijl de enkelvoudige waarden σ(k) van zijn gelijk aan de vierkante wortel van de eigenwaarden λ(k) van XTX.
Met behulp van de singular -waarde -ontleding de scorematrix T kan worden geschreven
Dus elke kolom van T wordt gegeven door een van de linkse enkelvoudige vectoren van X vermenigvuldigd met de overeenkomstige enkelvoudige waarde. Deze vorm is ook de polaire ontleding van T.
Er zijn efficiënte algoritmen om de SVD van te berekenen X zonder de matrix te hoeven vormen XTX, Het is nu de standaard manier om de SVD te berekenen om een principale componentenanalyse te berekenen uit een gegevensmatrix, tenzij slechts een handvol componenten vereist zijn.
Net als bij de Eigen-decompositie, een afgekapt n × L scorematrix TL kan worden verkregen door alleen de eerste L grootste enkelvoudige waarden en hun enkelvoudige vectoren te overwegen:
De afkorting van een matrix M of T Het gebruik van een afgeknotte ontleding van de enkelvoudige waarde produceert op deze manier een afgeknotte matrix die de dichtst mogelijke matrix is van rang L tot de oorspronkelijke matrix, in de zin van het verschil tussen de twee die de kleinst mogelijke hebben Frobenius Norm, een resultaat dat bekend staat als de Eckart - Young Stelling [1936].
Verdere overwegingen
De enkelvoudige waarden (in Σ) zijn de vierkante wortels van de eigenwaarden van de matrix XTX. Elke eigenwaarde is evenredig met het deel van de "variantie" (correcter van de som van de vierkante afstanden van de punten van hun multidimensionale gemiddelde) die wordt geassocieerd met elke eigenvector. De som van alle eigenwaarden is gelijk aan de som van de vierkante afstanden van de punten van hun multidimensionale gemiddelde. PCA roteert in wezen de reeks punten rond hun gemiddelde om aan te passen aan de belangrijkste componenten. Dit verplaatst zoveel mogelijk variantie (met behulp van een orthogonale transformatie) naar de eerste paar dimensies. De waarden in de resterende dimensies zijn daarom meestal klein en kunnen worden gedropt met minimaal verlies van informatie (zie onderstaand). PCA wordt vaak op deze manier gebruikt voor dimensionaliteitsvermindering. PCA onderscheidt zich om de optimale orthogonale transformatie te zijn voor het behouden van de subruimte die de grootste "variantie" heeft (zoals hierboven gedefinieerd). Dit voordeel komt echter ten koste Discrete Cosine Transformen in het bijzonder aan de DCT-II die gewoon bekend staat als de "DCT". Niet -lineaire dimensionaliteitsvermindering Technieken zijn meestal meer computationeel veeleisend dan PCA.
PCA is gevoelig voor het schalen van de variabelen. Als we slechts twee variabelen hebben en ze hebben hetzelfde steekproefvariantie en zijn volledig gecorreleerd, dan zal de PCA een rotatie met 45 ° met zich meebrengen en de "gewichten" (zij zijn de cosinus van rotatie) voor de twee variabelen ten opzichte van de hoofdcomponent zullen gelijk zijn. Maar als we alle waarden van de eerste variabele met 100 vermenigvuldigen, zal de eerste hoofdcomponent bijna hetzelfde zijn als die variabele, met een kleine bijdrage van de andere variabele, terwijl de tweede component bijna wordt afgestemd op de tweede oorspronkelijke variabele. Dit betekent dat wanneer de verschillende variabelen verschillende eenheden hebben (zoals temperatuur en massa), PCA een ietwat willekeurige analysemethode is. (Verschillende resultaten zouden worden verkregen als iemand bijvoorbeeld Fahrenheit zou gebruiken in plaats van Celsius bijvoorbeeld.) Pearson's originele papier had getiteld "On Lines en Vliegtuigen van het dichtst bij systemen van punten in de ruimte" - "in de ruimte" impliceert fysieke Euclidische ruimte waar dergelijke zorgen dat doen niet ontstaan. Een manier om de PCA minder willekeurig te maken, is door variabelen geschaald te gebruiken om eenheidsvariantie te hebben, door de gegevens te standaardiseren en dus de autocorrelatiematrix te gebruiken in plaats van de autocovariantiematrix als basis voor PCA. Dit comprimeert (of breidt) de schommelingen in alle afmetingen van de signaalruimte tot eenheidsvariantie in.
Gemiddelde aftrekking (ook bekend als "gemiddelde centrering") is noodzakelijk voor het uitvoeren van klassieke PCA om ervoor te zorgen dat de eerste hoofdcomponent de richting van maximale variantie beschrijft. Als de gemiddelde aftrekking niet wordt uitgevoerd, kan de eerste hoofdcomponent in plaats daarvan min of meer overeenkomen met het gemiddelde van de gegevens. Een gemiddelde van nul is nodig voor het vinden van een basis die de Gemiddelde vierkante fout van de benadering van de gegevens.[15]
Gemiddeld centraal is niet nodig als het uitvoeren van een principale componentenanalyse op een correlatiematrix, omdat de gegevens al zijn gecentreerd na het berekenen van correlaties. Correlaties zijn afgeleid van het kruisproduct van twee standaardscores (Z-scores) of statistische momenten (vandaar de naam: Pearson product-moment correlatie). Zie ook het artikel van Kromrey & Foster-Johnson (1998) op "Gemiddelde centreren in gemodereerde regressie: veel ophef over niets". Sinds Covarianties zijn correlaties van genormaliseerde variabelen (Z- of standaard-scores) een PCA op basis van de correlatiematrix van X is Gelijk naar een PCA op basis van de covariantiematrix van Z, de gestandaardiseerde versie van X.
PCA is een populaire primaire techniek in patroonherkenning. Het is echter niet geoptimaliseerd voor de scheidbaarheid van de klassen.[16] Het is echter gebruikt om de afstand tussen twee of meer klassen te kwantificeren door het massacentrum voor elke klasse te berekenen in de hoofdcomponentruimte en het rapporteren van Euclidische afstand tussen het midden van de massa van twee of meer klassen.[17] De Lineaire discriminerende analyse is een alternatief dat is geoptimaliseerd voor de scheidbaarheid van de klassen.
Tabel met symbolen en afkortingen
Symbool | Betekenis | Dimensies | Indices |
---|---|---|---|
Gegevensmatrix, bestaande uit de set van alle gegevensvectoren, één vector per rij | | ||
Het aantal rijvectoren in de gegevensset | scalair- | ||
Het aantal elementen in elke rijvector (dimensie) | scalair- | ||
Het aantal dimensies in de dimensionaal verminderde subruimte, | scalair- | ||
vector van empirisch middelen, een gemiddelde voor elke kolom j van de gegevensmatrix | |||
vector van empirisch standaard afwijkingen, één standaardafwijking voor elke kolom j van de gegevensmatrix | |||
vector van alle 1's | |||
afwijkingen Van het gemiddelde van elke kolom j van de gegevensmatrix | | ||
Z-scores, berekend met behulp van de gemiddelde en standaardafwijking voor elke rij m van de gegevensmatrix | | ||
covariantiematrix | | ||
correlatiematrix | | ||
matrix bestaande uit de set van allemaal eigenvectoren van C, één eigenvector per kolom | | ||
diagonale matrix bestaande uit de set van allemaal eigenwaarden van C langs zijn Hoofddiagonaalen 0 voor alle andere elementen (opmerking hierboven gebruikt) | | ||
matrix van basisvectoren, één vector per kolom, waarbij elke basisvector een van de eigenvectoren is van C, en waar de vectoren binnen W zijn een subset van die in V | | ||
matrix bestaande uit n rijvectoren, waarbij elke vector de projectie is van de overeenkomstige gegevensvector uit matrix X op de basisvectoren in de kolommen van de matrix W. | |
Eigenschappen en beperkingen van PCA
Eigendommen
Sommige eigenschappen van PCA zijn:[12][pagina nodig]
- Eigendom 1: Voor elk geheel getal q, 1 ≤ q ≤ p, overweeg de orthogonale lineaire transformatie
- waar is een Q-element vector en is een (q × p) matrix, en laat wees de variantie-covariantie matrix voor . Dan het spoor van , aangeduid wordt gemaximaliseerd door te nemen , waar bestaat uit de eerste q kolommen van is het transponeren van .
- Eigenschap 2: Overweeg opnieuw de orthonormale transformatie
- met en gedefinieerd als voorheen. Dan wordt geminimaliseerd door te nemen waar bestaat uit de laatste q kolommen van .
De statistische implicatie van deze eigenschap is dat de laatste paar pc's niet eenvoudigweg ongestructureerde links zijn na het verwijderen van de belangrijke pc's. Omdat deze laatste pc's varianties zo klein mogelijk hebben, zijn ze op zichzelf nuttig. Ze kunnen helpen om onverwachte bijna-constante lineaire relaties tussen de elementen van te detecteren x, en ze kunnen ook nuttig zijn in regressie, bij het selecteren van een subset van variabelen uit xen in uitbijterdetectie.
- Eigendom 3: (Spectrale ontleding van Σ))
Voordat we naar het gebruik ervan kijken, kijken we eerst naar diagonaal elementen,
Misschien is de belangrijkste statistische implicatie van het resultaat misschien dat we niet alleen de gecombineerde varianties van alle elementen van kunnen ontleden x in afnemende bijdragen als gevolg van elke pc, maar we kunnen ook het geheel ontleden covariantiematrix in bijdragen van elke pc. Hoewel niet strikt afnemen, de elementen van zal de neiging zijn om kleiner te worden als neemt toe, zoals is niet -verbetering voor het verhogen , terwijl de elementen van hebben de neiging om ongeveer even groot te blijven vanwege de normalisatiebeperkingen: .
Beperkingen
Zoals hierboven opgemerkt, zijn de resultaten van PCA afhankelijk van het schalen van de variabelen. Dit kan worden genezen door elke functie te schalen door zijn standaardafwijking, zodat men eindigt met dimensieloze functies met unitale variantie.[18]
De toepasbaarheid van PCA zoals hierboven beschreven, wordt beperkt door bepaalde (stilzwijgende) veronderstellingen[19] gemaakt in zijn afleiding. In het bijzonder kan PCA lineaire correlaties tussen de kenmerken vastleggen, maar faalt wanneer deze veronderstelling wordt geschonden (zie figuur 6A in de referentie). In sommige gevallen kunnen coördinatentransformaties de veronderstelling van de lineariteit herstellen en kan PCA vervolgens worden toegepast (zie kernel pca).
Een andere beperking is het gemiddelde verwijderingsproces voordat de covariantiematrix voor PCA wordt geconstrueerd. In velden zoals astronomie zijn alle signalen niet-negatief en het gemiddelde verwijderingsproces zal het gemiddelde van sommige astrofysische blootstellingen nul dwingen, wat bijgevolg onfysische negatieve fluxen creëert,[20] en voorwaartse modellering moet worden uitgevoerd om de ware omvang van de signalen te herstellen.[21] Als een alternatieve methode, niet-negatieve matrixfactorisatie Richt zich alleen op de niet-negatieve elementen in de matrices, die zeer geschikt zijn voor astrofysische waarnemingen.[22][23][24] Zie meer op Relatie tussen PCA en niet-negatieve matrixfactorisatie.
PCA is in het nadeel als de gegevens niet zijn gestandaardiseerd voordat het algoritme wordt toegepast. PCA transformeert originele gegevens in gegevens die relevant zijn voor de belangrijkste componenten van die gegevens, wat betekent dat de nieuwe gegevensvariabelen niet op dezelfde manieren kunnen worden geïnterpreteerd als de originelen. Het zijn lineaire interpretaties van de oorspronkelijke variabelen. Als PCA ook niet goed wordt uitgevoerd, is er een grote kans op informatieverlies.[25]
PCA vertrouwt op een lineair model. Als een dataset er een patroon in heeft dat niet lineair is, kan PCA de analyse in de volledige tegenovergestelde richting van de voortgang sturen.[26][pagina nodig] Onderzoekers van de Kansas State University ontdekten dat de steekproeffout in hun experimenten de vooringenomenheid van PCA -resultaten beïnvloedde. "Als het aantal onderwerpen of blokken kleiner is dan 30 en/of de onderzoeker geïnteresseerd is in pc's buiten de eerste, is het misschien beter om eerst te corrigeren voor de seriële correlatie, voordat PCA wordt uitgevoerd".[27] De onderzoekers van de staat Kansas ontdekten ook dat PCA "ernstig bevooroordeeld zou kunnen zijn als de autocorrelatiestructuur van de gegevens niet correct wordt behandeld".[27]
PCA en informatietheorie
Dimensionaliteitsvermindering resulteert in een verlies van informatie, in het algemeen. PCA-gebaseerde dimensionaliteitsvermindering heeft de neiging dat informatieverlies te minimaliseren, onder bepaalde signaal- en ruismodellen.
In de veronderstelling dat
dat wil zeggen dat de gegevensvector is de som van het gewenste informatiedragende signaal en een ruissignaal Men kan aantonen dat PCA optimaal kan zijn voor dimensionaliteitsvermindering, van een informatietheoretisch gezichtspunt.
In het bijzonder toonde Linsk dat als is Gaussiaans en is Gaussiaanse ruis met een covariantiematrix evenredig met de identiteitsmatrix, de PCA maximaliseert de wederzijdse informatie tussen de gewenste informatie en de dimensionaliteit-gereduceerde output .[28]
Als het geluid nog steeds Gaussiaans is en een covariantiematrix heeft die evenredig is aan de identiteitsmatrix (dat wil zeggen de componenten van de vector zijn iid), maar het informatiedragende signaal is niet-Gaussiaans (wat een veel voorkomend scenario is), PCA minimaliseert tenminste een bovengrens op de Informatieverlies, die wordt gedefinieerd als[29][30]
De optimaliteit van PCA wordt ook bewaard als de ruis Is IID en op zijn minst Gaussiaans (in termen van de Kullback - leibler divergentie) dan het informatiedragende signaal .[31] Over het algemeen, zelfs als het bovenstaande signaalmodel geldt, verliest PCA zijn informatietheoretische optimaliteit zodra de ruis wordt afhankelijk.
PCA berekenen met behulp van de covariantiemethode
Het volgende is een gedetailleerde beschrijving van PCA met behulp van de covariantiemethode (zie ook hier) in tegenstelling tot de correlatiemethode.[32]
Het doel is om een bepaalde gegevensset te transformeren X dimensie p naar een alternatieve gegevensset Y van kleinere dimensie L. Gelijkwaardig, we proberen de matrix te vinden Y, waar Y is de Karhunen - Loève Transform (klt) van matrix X:
- Organiseer de gegevensset
Stel dat u gegevens heeft die een reeks observaties van p variabelen, en u wilt de gegevens verminderen zodat elke observatie alleen kan worden beschreven L variabelen, L < p. Veronderstel verder dat de gegevens zijn gerangschikt als een set van n Gegevensvectoren met elke die een enkele gegroepeerde observatie van de p variabelen.
- Schrijven als rijvectoren, elk met p elementen.
- Plaats de rijvectoren in een enkele matrix X van afmetingen n × p.
- Bereken het empirische gemiddelde
- Zoek het empirische gemiddelde langs elke kolom j = 1, ...,p.
- Plaats de berekende gemiddelde waarden in een empirische gemiddelde vector u van afmetingen p × 1.
- Bereken de afwijkingen van het gemiddelde
Gemiddelde aftrekking is een integraal onderdeel van de oplossing om een hoofdcomponentbasis te vinden die de gemiddelde vierkante fout van het benaderen van de gegevens minimaliseert.[33] Daarom gaan we door met het centreren van de gegevens als volgt:
- Trek de empirische gemiddelde vector af van elke rij van de gegevensmatrix X.
- Bewaar gemiddelde getracteerde gegevens in de n × p Matrix B.
- waar h is een n × 1 kolomvector van alle 1s:
In sommige toepassingen, elke variabele (kolom van B) kan ook worden geschaald om een variantie te hebben die gelijk is aan 1 (zie Z-score).[34] Deze stap beïnvloedt de berekende hoofdcomponenten, maar maakt ze onafhankelijk van de eenheden die worden gebruikt om de verschillende variabelen te meten.
- Vind de covariantiematrix
- Vind de p × p empirisch covariantiematrix C van matrix B:
- De redenering achter het gebruik n - 1 in plaats van n om de covariantie te berekenen is Bessel's correctie.
- Vind de eigenvectoren en eigenwaarden van de covariantiematrix
- Bereken de matrix V van eigenvectoren welke diagonaliseert de covariantiematrix C:
- Matrix D zal de vorm aannemen van een p × p diagonale matrix, waar
- Matrix V, ook van dimensie p × p, bevat p kolomvectoren, elk van lengte p, die het vertegenwoordigen p eigenvectoren van de covariantiematrix C.
- De eigenwaarden en eigenvectoren worden geordend en gekoppeld. De jDe eigenwaarde komt overeen met de jth eigenvector.
- Matrix V geeft de matrix aan van Rechtsaf eigenvectoren (in tegenstelling tot links eigenvectoren). Over het algemeen hebben de matrix van juiste eigenvectoren nodig niet Wees de (geconjugeerde) transponeer van de matrix van linkse eigenvectoren.
- Herschik de eigenvectoren en eigenwaarden
- Sorteer de kolommen van de eigenvectormatrix V en eigenwaarde matrix D in volgorde van afnemend eigenwaarde.
- Zorg ervoor dat u de juiste paren tussen de kolommen in elke matrix onderhoudt.
- Bereken het cumulatieve energie -inhoud voor elke eigenvector
- De eigenwaarden vertegenwoordigen de verdeling van de energie van de brongegevens[verduidelijking nodig] Onder elk van de eigenvectoren, waar de eigenvectoren een basis voor de gegevens. Het cumulatieve energie -inhoud g voor de jDe eigenvector is de som van het energie -inhoud over alle eigenwaarden van 1 tot en met j:
- Selecteer een subset van de eigenvectoren als basisvectoren
- Bewaar de eerste L kolommen van V als de p × L Matrix W:
- Gebruik de vector g Als gids bij het kiezen van een geschikte waarde voor L. Het doel is om een waarde van te kiezen L zo klein mogelijk, terwijl een redelijk hoge waarde van een redelijk hoge waarde wordt bereikt g op percentagebasis. U wilt bijvoorbeeld kiezen L zodat de cumulatieve energie g staat boven een bepaalde drempel, zoals 90 procent. Kies in dit geval de kleinste waarde van L zoals dat
- Projecteer de gegevens op de nieuwe basis
- De geprojecteerde gegevenspunten zijn de rijen van de matrix
Dat wil zeggen de eerste kolom van is de projectie van de gegevenspunten op de eerste hoofdcomponent, de tweede kolom is de projectie op de tweede hoofdcomponent, enz.
Afleiding van PCA met behulp van de covariantiemethode
Laten X wees een d-Dimensionale willekeurige vector uitgedrukt als kolomvector. Neem zonder verlies van algemeenheid aan X heeft nul gemiddeld.
We willen vinden a d × d orthonormale transformatiematrix P zodat Px heeft een diagonale covariantiematrix (dat wil zeggen, Px is een willekeurige vector met al zijn verschillende componenten paarsgewijze niet gecorreleerd).
Een snelle berekening verondersteld waren eenheidsopbrengsten:
Vandaar geldt als en alleen als waren diagonaliseerbaar door .
Dit is erg constructief, zoals cov (X) is gegarandeerd een niet-negatieve definitieve matrix en is dus gegarandeerd diagonaliseerbaar door een unitaire matrix.
Covariantievrije berekening
In praktische implementaties, vooral met Hoge dimensionale gegevens (groot p), de naïeve covariantiemethode wordt zelden gebruikt omdat deze niet efficiënt is vanwege hoge reken- en geheugenkosten van het expliciet bepalen van de covariantiematrix. De covariantie-vrije aanpak vermijdt de NP2 Bewerkingen van het expliciet berekenen en opslaan van de covariantiematrix XTX, in plaats daarvan gebruiken matrixvrije methodenbijvoorbeeld op basis van de functie die het product evalueert XT(X r) gaat ten koste van 2NP activiteiten.
Iteratieve berekening
Een manier om de eerste hoofdcomponent efficiënt te berekenen[39] wordt weergegeven in de volgende pseudo-code, voor een gegevensmatrix X Met nul betekent, zonder ooit zijn covariantiematrix te berekenen.
r = een willekeurige vector van lengte p r = r / Norm (r) doen c keer: s = 0 (een vector van lengte p)) Voor elke rij x in X s = s + (x ⋅ r) x λ = rTs // λ is de eigenwaarde Error = | λ ⋅ r − s| r = s / Norm (s) Verlaat als fout <tolerantie opbrengst λ, r
Deze Power iteratie Algoritme berekent eenvoudig de vector XT(X r), normaliseert en plaatst het resultaat terug in r. De eigenwaarde wordt benaderd door rT (XTX) r, welke is de Rayleigh quotiënt op de eenheidsvector r voor de covariantiematrix XTX . Als de grootste enkelvoudige waarde goed is gescheiden van de volgende grootste, de vector r komt dicht bij de eerste hoofdcomponent van X Binnen het aantal iteraties c, die klein is ten opzichte van p, tegen de totale kosten 2CNP. De Power iteratie Convergentie kan worden versneld zonder de kleine kosten per iteratie merkbaar op te offeren met meer geavanceerde matrixvrije methoden, zoals de Lanczos -algoritme of de lokaal optimale blokkeergradiënt voor het blok (Lobpcg) Methode.
Daaropvolgende hoofdcomponenten kunnen één voor één worden berekend via deflatie of tegelijkertijd als een blok. In de vorige aanpak beïnvloeden deneuze in de reeds berekende hoofdcomponenten de nauwkeurigheid van de daaropvolgende berekende hoofdcomponenten bij benadering, waardoor de fout bij elke nieuwe berekening wordt verhoogd. De laatste benadering in de Block Power-methode vervangt enkele vectoren r en s met blokvectoren, matrices R en S. Elke kolom van R Benadert een van de toonaangevende hoofdcomponenten, terwijl alle kolommen tegelijkertijd worden herhaald. De belangrijkste berekening is evaluatie van het product XT(X r). Bijvoorbeeld geïmplementeerd in Lobpcg, efficiënte blokkering elimineert de accumulatie van de fouten, maakt het gebruik van hoog niveau mogelijk Blas Matrix-matrix-productfuncties en leidt meestal tot snellere convergentie, vergeleken met de één-voor-één techniek met één vector.
De NIPALS -methode
Niet-lineaire iteratieve gedeeltelijke kleinste kwadraten (NIPALS) is een variant de klassiek Power iteratie met matrixaflatie door aftrekking geïmplementeerd voor het berekenen van de eerste paar componenten in een hoofdcomponent of Gedeeltelijke kleinste vierkanten analyse. Voor zeer hoge dimensionale datasets, zoals die gegenereerd in de *Omics Sciences (bijvoorbeeld, bijvoorbeeld genomica, metabolomica) Het is meestal alleen nodig om de eerste paar pc's te berekenen. De niet-lineaire iteratieve gedeeltelijke kleinste vierkanten (NIPALS) Algoritme werkt iteratieve benaderingen bij naar de toonaangevende scores en ladingen t1 en r1T Door de Power iteratie vermenigvuldigen met elke iteratie door X Links en rechts, dat wil zeggen, de berekening van de covariantiematrix wordt vermeden, net als bij de matrixvrije implementatie van de stroom iteraties XTX, op basis van de functie die het product evalueert XT(X r) = ((X r)TX)T.
De matrixdeflatie door aftrekking wordt uitgevoerd door het buitenste product af te trekken, t1r1T van X waardoor de leeggelopen restmatrix wordt gebruikt om de daaropvolgende toonaangevende pc's te berekenen.[40] Voor grote datamatrices, of matrices met een hoge mate van kolomcollineariteit, lijdt NIPAL's aan verlies van orthogonaliteit van pc's als gevolg van machineprecisie Afrotfouten verzameld in elke iteratie- en matrixdeflatie door aftrekking.[41] A Gram - Schmidt Reorthogonalisatie-algoritme wordt toegepast op zowel de scores als de ladingen bij elke iteratiestap om dit verlies van orthogonaliteit te elimineren.[42] NIPALS Reliance van vermenigvuldigingen met één vector kan niet profiteren van hoog niveau Blas en resultaten in langzame convergentie voor geclusterde toonaangevende enkelvoudige waarden-zowel deze tekortkomingen worden opgelost in meer geavanceerde matrixvrije blokoplossers, zoals de lokaal optimale blokkeer vooraf geconditioneerde conjugaatgradiënt (Lobpcg) Methode.
Online/opeenvolgende schatting
In een "online" of "streaming" situatie met gegevens die stuk voor stuk aankomen in plaats van te worden opgeslagen in een enkele batch, is het handig om een schatting te maken van de PCA -projectie die opeenvolgend kan worden bijgewerkt. Dit kan efficiënt worden gedaan, maar vereist verschillende algoritmen.[43]
PCA en kwalitatieve variabelen
In PCA is het gebruikelijk dat we kwalitatieve variabelen willen introduceren als aanvullende elementen. Veel kwantitatieve variabelen zijn bijvoorbeeld gemeten op planten. Voor deze planten zijn sommige kwalitatieve variabelen beschikbaar, zoals bijvoorbeeld de soort waartoe de plant behoort. Deze gegevens werden onderworpen aan PCA voor kwantitatieve variabelen. Bij het analyseren van de resultaten is het vanzelfsprekend om de belangrijkste componenten te verbinden met de kwalitatieve variabele soorten. Hiervoor worden de volgende resultaten geproduceerd.
- Identificatie, op de facultale vlakken, van de verschillende soorten, bijvoorbeeld met behulp van verschillende kleuren.
- Vertegenwoordiging, op de faculteit gebranjes, van de zwaartepunt van planten die tot dezelfde soort behoren.
- Voor elk zwaartepunt en elke as, p-waarde om de betekenis van het verschil tussen het zwaartepunt en de oorsprong te beoordelen.
Deze resultaten zijn wat er wordt genoemd Introductie van een kwalitatieve variabele als aanvullend element. Deze procedure is gedetailleerd in en Husson, Lê & Pagès 2009 en Pagès 2013. Weinig software bieden deze optie op een "automatische" manier. Dit is het geval van Spad dat historisch gezien, na het werk van Ludovic Lebart, was de eerste die deze optie voorstelde, en het R -pakket Feitominer.
Toepassingen
Intelligentie
De vroegste toepassing van factoranalyse was het vinden en meten van componenten van menselijke intelligentie. Men geloofde dat intelligentie verschillende niet -gecorreleerde componenten had zoals ruimtelijke intelligentie, verbale intelligentie, inductie, deductie enz. En dat scores hierop konden worden toegevoegd door factoranalyse uit resultaten op verschillende tests, om een enkele index te geven die bekend staat als de bekend Intelligentie Quotient (IQ). De baanbrekende statistische psycholoog Spearman Eigenlijk ontwikkelde factoranalyse in 1904 voor hem tweefactortheorie van intelligentie, het toevoegen van een formele techniek aan de wetenschap van psychometrie. In 1924 Thurstone Zekte naar 56 intelligentiefactoren, het ontwikkelen van het begrip mentale leeftijd. Standaard IQ -tests vandaag zijn gebaseerd op dit vroege werk.[44]
Residentiële differentiatie
In 1949 introduceerden Shevky en Williams de theorie van Factoriële ecologie, die studies van residentiële differentiatie van de jaren 1950 tot de jaren 1970 domineerden.[45] Buurten in een stad waren herkenbaar of konden van elkaar worden onderscheiden door verschillende kenmerken die konden worden teruggebracht tot drie door factoranalyse. Deze stonden bekend als 'sociale rang' (een index van beroepsstatus), 'familisme' of gezinsgrootte, en 'etniciteit'; Clusteranalyse kan vervolgens worden toegepast om de stad te verdelen in clusters of districten volgens waarden van de drie sleutelfactorvariabelen. Een uitgebreide literatuur ontwikkelde zich rond de factorale ecologie in stedelijke geografie, maar de aanpak raakte na 1980 uit de mode als methodologisch primitief en had weinig plaats in postmoderne geografische paradigma's.
Een van de problemen met factoranalyse heeft altijd overtuigende namen gevonden voor de verschillende kunstmatige factoren. In 2000 nieuw leven ingeblazen de factorale ecologiebenadering om aan te tonen dat de analyse van de belangrijkste componenten daadwerkelijk rechtstreeks zinvolle antwoorden gaf, zonder toevlucht te nemen tot factorrotatie. De belangrijkste componenten waren eigenlijk dubbele variabelen of schaduwprijzen van 'krachten' die mensen samen of uit elkaar duwen in steden. Het eerste onderdeel was 'toegankelijkheid', de klassieke afweging tussen de vraag naar reizen en de vraag naar ruimte, waarrond klassieke stedelijke economie is gebaseerd. De volgende twee componenten waren 'nadeel', die mensen van vergelijkbare status in afzonderlijke buurten (gemedieerd door planning) en etniciteit houden, waar mensen met vergelijkbare etnische achtergronden proberen te coacen.[46]
Rond dezelfde tijd definieerde het Australian Bureau of Statistics verschillende indexen van voordeel en nadeel die de eerste hoofdcomponent van sets van belangrijke variabelen namen die als belangrijk werden beschouwd. Deze SEIFA -indexen worden regelmatig gepubliceerd voor verschillende rechtsgebieden en worden vaak gebruikt in ruimtelijke analyse.[47]
Ontwikkelingsindexen
PCA is de enige formele methode die beschikbaar is voor de ontwikkeling van indexen, die anders een hit-or-miss zijn AD hoc onderneming.
De City Development Index werd ontwikkeld door PCA uit ongeveer 200 indicatoren van stadsresultaten in een onderzoek uit 1996 onder 254 wereldwijde steden. De eerste hoofdcomponent was onderhevig aan iteratieve regressie, waardoor de oorspronkelijke variabelen afzonderlijk werden toegevoegd totdat ongeveer 90% van zijn variatie werd verklaard. De index gebruikte uiteindelijk ongeveer 15 indicatoren, maar was een goede voorspeller van veel meer variabelen. De vergelijkende waarde was zeer goed overeengekomen met een subjectieve beoordeling van de toestand van elke stad. De infrastructuurcoëfficiënten waren ongeveer evenredig met de gemiddelde kosten voor het leveren van de onderliggende diensten, wat suggereert dat de index eigenlijk een maat was voor effectieve fysieke en sociale investeringen in de stad.
Het landniveau Human Development Index (Hdi) van UNDP, die sinds 1990 is gepubliceerd en zeer uitgebreid wordt gebruikt in ontwikkelingsstudies,[48] heeft zeer vergelijkbare coëfficiënten op vergelijkbare indicatoren, wat sterk suggereert dat het oorspronkelijk werd geconstrueerd met behulp van PCA.
Bevolkingsgenetica
In 1978 Cavalli-Sforza en anderen pionierden het gebruik van principale componentenanalyse (PCA) om gegevens over variatie in menselijke genfrequenties in verschillende regio's samen te vatten. De componenten vertoonden onderscheidende patronen, waaronder gradiënten en sinusvormige golven. Ze interpreteerden deze patronen als gevolg van specifieke oude migratiegebeurtenissen.
Sindsdien is PCA alomtegenwoordig in populatiegenetica, met duizenden artikelen die PCA gebruiken als display -mechanisme. Genetica varieert grotendeels volgens de nabijheid, dus de eerste twee hoofdcomponenten vertonen daadwerkelijk ruimtelijke verdeling en kunnen worden gebruikt om de relatieve geografische locatie van verschillende bevolkingsgroepen in kaart te brengen, waardoor personen die zijn afgedwaald van hun oorspronkelijke locaties.[49]
PCA in genetica is technisch controversieel geweest, omdat de techniek is uitgevoerd op discrete niet-normale variabelen en vaak op binaire allel markers. Het ontbreken van eventuele standaardfout in PCA is ook een belemmering voor consistent gebruiker. In augustus 2022, de moleculaire bioloog Eran Elhaik publiceerde een theoretisch artikel in Wetenschappelijke rapporten Analyse van 12 PCA -toepassingen. Hij concludeerde dat het gemakkelijk was om de methode te manipuleren, die volgens hem resultaten genereerde die 'onjuist, tegenstrijdig en absurd waren'. In het bijzonder, betoogde hij, werden de resultaten die in populatiegenetica werden bereikt gekenmerkt door kersenplukken en cirkelredenering.[50]
Marktonderzoek en indexen van houding
Marktonderzoek is een uitgebreide gebruiker van PCA. Het wordt gebruikt om klanttevredenheid of klantloyaliteitsscores voor producten te ontwikkelen, en met clustering, om marktsegmenten te ontwikkelen die mogelijk zijn gericht op advertentiecampagnes, op vrijwel dezelfde manier als faculteit ecologie geografische gebieden zal vinden met vergelijkbare kenmerken.[51]
PCA transformeert snel grote hoeveelheden gegevens in kleinere, gemakkelijker te verteren variabelen die sneller en gemakkelijk kunnen worden geanalyseerd. In elke consumentenvragenlijst zijn er een reeks vragen die zijn ontworpen om de attitudes van consumenten op te wekken, en de belangrijkste componenten zoeken latent variabelen die aan deze attitudes ten grondslag liggen. De Oxford Internet Survey in 2013 vroeg bijvoorbeeld 2000 mensen naar hun attitudes en overtuigingen, en van deze analisten hebben vier hoofdcomponentdimensies geëxtraheerd, die zij identificeerden als 'ontsnapping', 'sociaal netwerken', 'efficiëntie' en 'probleem creëren' .[52]
Een ander voorbeeld van Joe Flood In 2008 haalde hij een attitudinale index voor huisvesting uit 28 attitudevragen in een nationaal onderzoek onder 2697 huishoudens in Australië. De eerste hoofdcomponent vertegenwoordigde een algemene houding ten opzichte van eigendom en woningbezit. De index, of de houding -vragen die het belichaamt, kan worden ingevoerd in een algemeen lineair model van ambtstermijnkeuze. De sterkste bepalende factor voor veruit particuliere huur was de Attitude Index, in plaats van inkomen, burgerlijke staat of huishoudstype.[53]
Kwantitatieve financiering
In kwantitatieve financiering, hoofdcomponentanalyse kan direct worden toegepast op de risicomanagement van Rentevoet afgeleide portefeuilles.[54] Meerdere verhandelen ruil instrumenten die meestal een functie zijn van 30-500 andere marktverbod in de markt, wordt getracht te worden gereduceerd tot meestal 3 of 4 hoofdcomponenten, die het pad van rentetarieven op macro -basis vertegenwoordigen. Het converteren van risico's die moeten worden weergegeven als die om laden (of vermenigvuldigingen) te factureren, biedt beoordelingen en begrip die verder gaat dan beschikbaar om eenvoudigweg risico's voor individuele 30-500 emmers te bekijken.
PCA is ook toegepast op aandelenportefeuilles op een vergelijkbare manier,[55] beide tot Portfolio -risico en naar Risico -rendement. Een aanvraag is om het portefeuillerisico te verminderen, waar toewijzingsstrategieën worden toegepast op de "hoofdportefeuilles" in plaats van de onderliggende aandelen.[56] Een tweede is het verbeteren van de portefeuilletoeding, met behulp van de belangrijkste componenten om Selecteer aandelen met opwaarts potentieel.
Neurowetenschap
Een variant van principale componentenanalyse wordt gebruikt in neurowetenschap om de specifieke eigenschappen van een stimulus te identificeren die een neuronde kans actiepotentiaal.[57] Deze techniek staat bekend als Spike-geactiveerde covariantieanalyse. In een typische toepassing presenteert een experimentator een witte ruis proces als een stimulus (meestal als een zintuiglijke input voor een proefpersoon, of als een huidig direct geïnjecteerd in het neuron) en registreert een trein van actiepotentialen, of spikes, geproduceerd door het neuron als gevolg daarvan. Vermoedelijk maken bepaalde kenmerken van de stimulus het neuron waarschijnlijker om te spijken. Om deze functies te extraheren, berekent de experimentator de covariantiematrix van de met spike veroorzaakt ensemble, de set van alle stimuli (gedefinieerd en gediscretiseerd over een eindig tijdvenster, meestal in de volgorde van 100 ms) die onmiddellijk voorafging aan een piek. De eigenvectoren van het verschil tussen de spike-geactiveerde covariantiematrix en de covariantiematrix van de eerdere stimulussemble (de set van alle stimuli, gedefinieerd over dezelfde lengte -tijdvenster) geven vervolgens de aanwijzingen aan in de ruimte van stimuli waarlangs de variantie van het spike-geactiveerde ensemble het meest verschilde van die van het eerdere stimulussemble. In het bijzonder komen de eigenvectoren met de grootste positieve eigenwaarden overeen met de richtingen waarlangs de variantie van het spike-geactiveerde ensemble de grootste positieve verandering vertoonde in vergelijking met de varinie van de prior. Omdat dit de richtingen waren waarin variërende stimulus tot een piek leidde, zijn het vaak goede benaderingen van de gewilde relevante stimuluskenmerken.
In neurowetenschappen wordt PCA ook gebruikt om de identiteit van een neuron uit de vorm van zijn actiepotentiaal te onderscheiden. Spike sorteren is een belangrijke procedure omdat extracellulair Opnametechnieken pakken vaak signalen op van meer dan één neuron. Bij het sorteren van spike gebruikt men eerst PCA om de dimensionaliteit van de ruimte van actiepotentiaalgolfvormen te verminderen en vervolgens presteert clusteringanalyse om specifieke actiepotentialen te associëren met individuele neuronen.
PCA als dimensieverreductietechniek is met name geschikt om gecoördineerde activiteiten van grote neuronale ensembles te detecteren. Het is gebruikt bij het bepalen van collectieve variabelen, dat wil zeggen, bestelparameters, gedurende Faseovergangen in de hersenen.[58]
Relatie met andere methoden
Correspondentieanalyse
Correspondentieanalyse (CA) is ontwikkeld door Jean-Paul Benzécri[59] en is conceptueel vergelijkbaar met PCA, maar schaalt de gegevens (die niet-negatief moeten zijn) zodat rijen en kolommen gelijkwaardig worden behandeld. Het wordt traditioneel toegepast op Rontingentafels. CA ontbindt de Chi-kwadraat statistiek geassocieerd met deze tabel in orthogonale factoren.[60] Omdat CA een beschrijvende techniek is, kan deze worden toegepast op tabellen waarvoor de chi-kwadraat statistiek geschikt is of niet. Er zijn verschillende varianten van CA beschikbaar, waaronder Degelde correspondentieanalyse en Canonieke correspondentieanalyse. Een speciale uitbreiding is Meerdere correspondentieanalyse, die kan worden gezien als de tegenhanger van hoofdcomponentanalyse voor categorische gegevens.[61]
Factoren analyse

Principale componentanalyse creëert variabelen die lineaire combinaties van de oorspronkelijke variabelen zijn. De nieuwe variabelen hebben de eigenschap dat de variabelen allemaal orthogonaal zijn. De PCA-transformatie kan nuttig zijn als een voorverwerkingsstap voor het clusteren. PCA is een variantie-gerichte benadering die de totale variabele variantie wil reproduceren, waarin componenten zowel gemeenschappelijke als unieke variantie van de variabele weerspiegelen. PCA heeft over het algemeen de voorkeur voor gegevensreductie (dat wil zeggen, variabele ruimte vertalen in een optimale factorruimte) maar niet wanneer het doel is om het latente construct of factoren te detecteren.
Factoren analyse is vergelijkbaar met de belangrijkste componentanalyse, in die factoranalyse omvat ook lineaire combinaties van variabelen. Anders dan PCA, is factoranalyse een correlatiegerichte benadering die de intercorrelaties tussen variabelen wil reproduceren, waarin de factoren "de gemeenschappelijke variantie van variabelen vertegenwoordigen, exclusief unieke variantie".[62] In termen van de correlatiematrix komt dit overeen met de focus op het verklaren van de off-diagonale termen (dat wil zeggen gedeelde co-variantie), terwijl PCA zich richt op het verklaren van de termen die op de diagonaal zitten. Als een bijwerkingsresultaat echter, bij het proberen de on-diagonale termen te reproduceren, heeft PCA ook de neiging om relatief goed de off-diagonale correlaties te passen.[12]: 158 Resultaten gegeven door PCA en factoranalyse zijn in de meeste situaties erg vergelijkbaar, maar dit is niet altijd het geval en er zijn enkele problemen waarbij de resultaten aanzienlijk verschillen. Factoranalyse wordt in het algemeen gebruikt wanneer het onderzoeksdoel is dat de gegevensstructuur is (dat wil zeggen latente constructen of factoren) of causale modellering. Als het factormodel ten onrechte is geformuleerd of niet aan de veronderstellingen wordt voldaan, zal factoranalyse onjuiste resultaten opleveren.[63]
K-Man -clustering
Er is beweerd dat de ontspannen oplossing van k-Man -clustering, gespecificeerd door de clusterindicatoren, wordt gegeven door de hoofdcomponenten en de PCA -subruimte overspan door de hoofdrichtingen is identiek aan de clustercentroid subruimte.[64][65] Dat PCA echter een nuttige ontspanning is van k-Medenclustering was geen nieuw resultaat,[66] en het is eenvoudig om tegenvoorbeelden te ontdekken in de verklaring dat de cluster -centroïde subruimte wordt overspannen door de belangrijkste richtingen.[67]
Niet-negatieve matrixfactorisatie

Niet-negatieve matrixfactorisatie (NMF) is een dimensieverminderingsmethode waarbij alleen niet-negatieve elementen in de matrices worden gebruikt, wat daarom een veelbelovende methode is in de astronomie,[22][23][24] In de zin dat astrofysische signalen niet-negatief zijn. De PCA-componenten zijn orthogonaal voor elkaar, terwijl de NMF-componenten allemaal niet-negatief zijn en daarom een niet-orthogonale basis construeert.
In PCA wordt de bijdrage van elke component gerangschikt op basis van de grootte van de overeenkomstige eigenwaarde, die equivalent is aan de fractionele restvariantie (FRV) bij het analyseren van empirische gegevens.[20] Voor NMF worden de componenten alleen gerangschikt op basis van de empirische FRV -curven.[24] De resterende fractionele eigenwaardeplots, dat wil zeggen, Als functie van het componentnummer gegeven in totaal Componenten, voor PCA, heeft een plat plateau, waar geen gegevens worden vastgelegd om de quasi-statische ruis te verwijderen, waarna de krommen snel daalden als een indicatie van het overpassen en willekeurige ruis vastleggen.[20] De FRV -curven voor NMF neemt continu af[24] Wanneer de NMF -componenten worden geconstrueerd opeenvolgend,[23] wat wijst op het continu vastleggen van quasi-statische ruis; Convergeer dan naar hogere niveaus dan PCa,[24] aangeeft de minder overpassende eigenschap van NMF.
Iconografie van correlaties
Het is vaak moeilijk om de belangrijkste componenten te interpreteren wanneer de gegevens veel variabelen van verschillende oorsprong bevatten, of wanneer sommige variabelen kwalitatief zijn. Dit leidt de PCA -gebruiker tot een delicate eliminatie van verschillende variabelen. Als observaties of variabelen een buitensporige impact hebben op de richting van de assen, moeten ze worden verwijderd en vervolgens worden geprojecteerd als aanvullende elementen. Bovendien is het noodzakelijk om te voorkomen dat de nabijheid tussen de punten in de buurt van het midden van het faculteit vlak wordt geïnterpreteerd.

De Iconografie van correlaties, integendeel, dat geen projectie is op een systeem van assen, heeft deze nadelen niet. We kunnen daarom alle variabelen behouden.
Het principe van het diagram is om de "opmerkelijke" correlaties van de correlatiematrix te onderstrepen door een ononderbroken lijn (positieve correlatie) of stippellijn (negatieve correlatie).
Een sterke correlatie is niet "opmerkelijk" als deze niet direct is, maar veroorzaakt door het effect van een derde variabele. Omgekeerd kunnen zwakke correlaties "opmerkelijk" zijn. Als een variabele y bijvoorbeeld afhankelijk is van verschillende onafhankelijke variabelen, zijn de correlaties van Y met elk van hen zwak en toch "opmerkelijk".
Generalisaties
Schaarse PCA
Een bijzonder nadeel van PCA is dat de belangrijkste componenten meestal lineaire combinaties zijn van alle invoervariabelen. Schaarse PCA overwint dit nadeel door lineaire combinaties te vinden die slechts enkele invoervariabelen bevatten. Het breidt de klassieke methode van principale componentanalyse (PCA) uit voor de vermindering van de dimensionaliteit van gegevens door de beperking van de sparsity toe te voegen aan de invoervariabelen. Er zijn verschillende benaderingen voorgesteld, waaronder
- een regressiekader,[68]
- Een convexe ontspanning/semidefiniet programmeerkader,[69]
- Een gegeneraliseerd kader voor de krachtmethode[70]
- een afwisselend maximalisatiekader[71]
- Voorwaarts-achterwaartse hebzuchtige zoekopdracht en exacte methoden met behulp van branch-and-bound-technieken,[72]
- Bayesiaans formuleringskader.[73]
De methodologische en theoretische ontwikkelingen van schaarse PCA en de toepassingen ervan in wetenschappelijke studies zijn onlangs beoordeeld in een onderzoekspaper.[74]
Niet -lineaire PCA

De meeste moderne methoden voor niet -lineaire dimensionaliteitsvermindering Vind hun theoretische en algoritmische wortels in PCA of K-middelen. Het oorspronkelijke idee van Pearson was om een rechte lijn (of vliegtuig) te nemen die "de beste pasvorm" is voor een set gegevenspunten. Trevor Hastie uitgebreid met dit concept door voor te stellen Voornaam krommen[78] Als de natuurlijke uitbreiding voor de geometrische interpretatie van PCA, die expliciet een verdeelstuk voor gegevens construeert benadering gevolgd door uitstekend de punten erop, zoals wordt geïllustreerd door Fig. Zie ook de elastische kaart algoritme en Principal geodetische analyse.[79] Een andere populaire generalisatie is kernel pca, die overeenkomt met PCA uitgevoerd in een reproducerende kernel Hilbert -ruimte geassocieerd met een positieve definitieve kernel.
In Multilinear Subspace Learning,[80] PCA is gegeneraliseerd Multilinear PCA (MPCA) die kenmerken rechtstreeks uit tensorrepresentaties haalt. MPCA wordt opgelost door PCA in elke modus van de tensor iteratief uit te voeren. MPCA is toegepast op gezichtsherkenning, loopherkenning, enz. MPCA wordt verder uitgebreid tot niet-gecorreleerde MPCA, niet-negatieve MPCA en robuuste MPCA.
N-Way -principale componentanalyse kan worden uitgevoerd met modellen zoals Tucker -ontleding, Parafac, Meerdere factoranalyse, co-inertie-analyse, statis en distatis.
Robuuste PCA
Hoewel PCA de wiskundig optimale methode vindt (zoals bij het minimaliseren van de vierkante fout), is deze nog steeds gevoelig voor uitbijters In de gegevens die grote fouten produceren, is iets dat de methode probeert te vermijden in de eerste plaats. Het is daarom gebruikelijk om uitbijters te verwijderen voordat PCA wordt berekend. In sommige contexten kunnen uitbijters echter moeilijk te identificeren zijn. Bijvoorbeeld in datamining Algoritmen zoals correlatieclustering, de toewijzing van punten aan clusters en uitbijters is niet vooraf bekend. Een recent voorgestelde generalisatie van PCA[81] Op basis van een gewogen PCA verhoogt de robuustheid door verschillende gewichten toe te wijzen aan gegevensobjecten op basis van hun geschatte relevantie.
Outlier-resistente varianten van PCA zijn ook voorgesteld, gebaseerd op L1-Norm-formuleringen (L1-PCA).[6][4]
Robuuste principale componentanalyse (RPCA) via ontleding in lage en schaarse matrices is een aanpassing van PCA die goed werkt met betrekking tot grof beschadigde waarnemingen.[82][83][84]
Vergelijkbare technieken
Onafhankelijke componentanalyse
Onafhankelijke componentanalyse (ICA) is gericht op vergelijkbare problemen als hoofdcomponentanalyse, maar vindt additief scheidbare componenten in plaats van opeenvolgende benaderingen.
Netwerkcomponentanalyse
Gegeven een matrix , het probeert het in twee matrices te ontbinden, zodat dat . Een belangrijk verschil met technieken zoals PCA en ICA is dat sommige van de vermeldingen van zijn beperkt tot 0. hier wordt de regelgevende laag genoemd. Hoewel een dergelijke ontleding in het algemeen meerdere oplossingen kan hebben, bewijzen ze dat als aan de volgende voorwaarden is voldaan:
- heeft de volledige kolom rang
- Elke kolom van moet tenminste hebben nullen waar is het aantal kolommen van (of alternatief het aantal rijen van ). De rechtvaardiging voor dit criterium is dat als een knooppunt uit de regelgevende laag wordt verwijderd, samen met alle daaraan verbonden uitgangsknooppunten, het resultaat nog steeds moet worden gekenmerkt door een connectiviteitsmatrix met volledige kolomrang.
- Moet een volledige rij rang hebben.
Dan is de ontleding uniek tot vermenigvuldiging door een scalair.[85]
Discriminerende analyse van hoofdcomponenten
Discriminerende analyse van hoofdcomponenten (DAPC) is een multivariate methode die wordt gebruikt om clusters van genetisch gerelateerde individuen te identificeren en te beschrijven. Genetische variatie wordt verdeeld in twee componenten: variatie tussen groepen en binnen groepen, en het maximaliseert de eerste. Lineaire discriminanten zijn lineaire combinaties van allelen die de clusters het beste scheiden. Allelen die het meest bijdragen aan deze discriminatie, zijn daarom die welke het meest duidelijk verschillen in groepen. De bijdragen van allelen aan de door DAPC geïdentificeerde groepen kunnen het mogelijk maken om regio's van het genoom te identificeren die de genetische divergentie tussen groepen drijven[86] In DAPC worden gegevens eerst getransformeerd met behulp van een principale componentenanalyse (PCA) en worden vervolgens clusters geïdentificeerd met behulp van Discriminant Analysis (DA).
Een DAPC kan worden gerealiseerd op R met behulp van het pakket adegenet. (meer informatie: adegenet op internet))
Software/broncode
- Alglib - Een C ++ en C# bibliotheek die PCA en afgeknotte PCA implementeert
- Analytica -De ingebouwde EigendeComp-functie berekent hoofdcomponenten.
- Elki -Inclusief PCA voor projectie, inclusief robuuste varianten van PCA, evenals PCA-gebaseerde clusteringalgoritmen.
- Gretl - De hoofdcomponentanalyse kan worden uitgevoerd via de
PCA
commando of via dePrincomp ()
functie. - Julia - Ondersteunt PCA met de
PCA
Functie in het multivariatestats -pakket - Kneuzer - Een op Java gebaseerde nodal -rangschiksoftware voor analyse, hierin de knooppunten genaamd PCA, PCA Compute, PCA Toepassen, PCA Inverse maken het gemakkelijk.
- Wisica - Implementeert de belangrijkste componentanalyse met het opdracht PrincipalComponents met behulp van zowel covariantie- als correlatiemethoden.
- MATHPHP - PHP Wiskundebibliotheek met ondersteuning voor PCA.
- Matlab - De SVD -functie maakt deel uit van het basissysteem. In de toolbox van de statistieken zijn de functies
principe
enPCA
(R2012B) Geef de belangrijkste componenten, terwijl de functiepcares
Geeft de residuen en gereconstrueerde matrix voor een lage PCA-benadering. - Matplotlib – Python Bibliotheek heeft een PCA -pakket in de .mlab -module.
- mlpack - Biedt een implementatie van principale componentanalyse in C ++.
- Zeurbibliotheek - Analyse van hoofdcomponenten wordt geïmplementeerd via de
G03AA
Routine (beschikbaar in beide Fortran -versies van de bibliotheek). - Nmath - Proprietaire numerieke bibliotheek met PCA voor de .NET -framework.
- GNU -octaaf - Gratis software computationele omgeving die meestal compatibel is met MATLAB, de functie
principe
geeft de hoofdcomponent. - OpenCV
- Oracle Database 12c - geïmplementeerd via
Dbms_data_mining.svds_scoring_mode
door de instellingswaarde op te gevenSvds_scoring_pca
- Oranje (software) - Integreert PCA in zijn visuele programmeeromgeving. PCA toont een scree -plot (mate van uitgelegde variantie) waarbij de gebruiker het aantal hoofdcomponenten interactief kan selecteren.
- Oorsprong - Bevat PCA in zijn Pro -versie.
- Qlucore - Commerciële software voor het analyseren van multivariate gegevens met onmiddellijke respons met behulp van PCA.
- R – Vrij Statistisch pakket, de functies
principe
enprom
kan worden gebruikt voor principale componentanalyse;prom
toepassingen singuliere waarden ontbinding wat over het algemeen een betere numerieke nauwkeurigheid geeft. Sommige pakketten die PCA in R implementeren, omvatten, maar zijn niet beperkt tot:ADE4
,veganistisch
,Expositie
,gedimd
, enFeitominer
. - SAS - gepatenteerde software; Zie bijvoorbeeld[87]
- Scikit-Learn - Python -bibliotheek voor machine learning die PCA, probabilistische PCA, kernel PCA, schaarse PCA en andere technieken in de ontledingsmodule bevat.
- SPSS - Proprietaire software die het meest wordt gebruikt door sociale wetenschappers voor PCA, factoranalyse en bijbehorende clusteranalyse.
- Weka - Java -bibliotheek voor machine learning die modules bevat voor het berekenen van hoofdcomponenten.
Zie ook
- Correspondentieanalyse (voor onvoorziene tabellen)
- Meerdere correspondentieanalyse (voor kwalitatieve variabelen)
- Factoranalyse van gemengde gegevens (voor kwantitatief en kwalitatieve variabelen)
- Canonieke correlatie
- CUR Matrix -benadering (kan vervangen van SVD-benadering met lage rang)
- Degelde correspondentieanalyse
- Dynamische modusontleding
- Opzicht
- Verwachting -maximalisatie -algoritme
- Verkennende factoranalyse (Wikiversity)
- Factoriële code
- Functionele principale componentanalyse
- Geometrische gegevensanalyse
- Onafhankelijke componentanalyse
- Kernel pca
- L1-Norm Principal Component Analysis
- Lage rang benadering
- Matrixontleding
- Niet-negatieve matrixfactorisatie
- Niet -lineaire dimensionaliteitsvermindering
- Oja's regel
- Puntverdelingsmodel (PCA toegepast op morfometrie en computer vision)
- Principal Component Analysis (Wikibooks)
- Regressie van de hoofdcomponent
- Enkelvoud spectrumanalyse
- Singuliere waarden ontbinding
- Schaarse PCA
- Transformeercodering transformeren
- Gewogen de kleinste vierkanten
Referenties
- ^ Jolliffe, Ian T.; Cadima, Jorge (2016-04-13). "Analyse van hoofdcomponenten: een overzicht en recente ontwikkelingen". Filosofische transacties van de Royal Society A: wiskundige, fysieke en technische wetenschappen. 374 (2065): 20150202. doen:10.1098/rsta.2015.0202. PMC 4792409. Pmid 26953178.
- ^ Barnett, T. P. & R. Preisendorfer. (1987). "Oorsprong en niveaus van maandelijkse en seizoensgebonden voorspellingsvaardigheden voor Amerikaanse oppervlakte -luchttemperaturen bepaald door canonieke correlatieanalyse". Maandelijkse weerreview. 115 (9): 1825. Bibcode:1987MWRV..115.1825B. doen:10.1175/1520-0493 (1987) 115 <1825: oaloma> 2.0.co; 2.
- ^ Hsu, Daniel; Kakade, Sham M.; Zhang, Tong (2008). Een spectraal algoritme voor het leren van verborgen Markov -modellen. arxiv:0811.4413. Bibcode:2008arxiv0811.4413H.
- ^ a b Markopoulos, Panos P.; Kundu, Sandipan; Chamadia, Shubham; Pados, Dimitris A. (15 augustus 2017). "Efficiënte L1-Norm Principal-componentanalyse via bit flipping". IEEE -transacties op signaalverwerking. 65 (16): 4252–4264. arxiv:1610.01959. Bibcode:2017itsp ... 65.4252m. doen:10.1109/TSP.2017.2708023. S2CID 7931130.
- ^ a b Chachlakis, Dimitris G.; Prater-Bennette, Ashley; Markopoulos, Panos P. (22 november 2019). "L1-Norm Tucker Tensor-ontleding". IEEE -toegang. 7: 178454–178465. arxiv:1904.06455. doen:10.1109/Access.2019.2955134.
- ^ a b Markopoulos, Panos P.; Karystinos, George N.; Pados, Dimitris A. (oktober 2014). "Optimale algoritmen voor L1-SubSpace-signaalverwerking". IEEE -transacties op signaalverwerking. 62 (19): 5046–5058. arxiv:1405.6785. Bibcode:2014itsp ... 62.5046m. doen:10.1109/TSP.2014.2338077. S2CID 1494171.
- ^ Zhan, J.; Vaswani, N. (2015). "Robuuste PCA met gedeeltelijke subruimte kennis". IEEE -transacties op signaalverwerking. 63 (13): 3332–3347. arxiv:1403.1591. Bibcode:2015itsp ... 63.3332Z. doen:10.1109/TSP.2015.2421485. S2CID 1516440.
- ^ Kanade, T.; KE, Qifa (juni 2005). Robuuste L1 -normfactorisatie in aanwezigheid van uitbijters en ontbrekende gegevens door alternatieve convexe programmering. 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). Vol. 1. IEEE. p. 739. Citeseerx 10.1.1.63.4605. doen:10.1109/cvpr.2005.309. ISBN 978-0-7695-2372-9. S2CID 17144854.
- ^ Pearson, K. (1901). "Op lijnen en vliegtuigen van dichtstbijzijnde passen bij systemen van punten in de ruimte". Filosofisch tijdschrift. 2 (11): 559–572. doen:10.1080/14786440109462720.
- ^ Hotelling, H. (1933). Analyse van een complex van statistische variabelen in hoofdcomponenten. Journal of Educational Psychology, 24, 417–441 en 498-520.
Hotelling, H (1936). "Relaties tussen twee sets variaties". Biometrika. 28 (3/4): 321–377. doen:10.2307/2333955. Jstor 2333955. - ^ Stewart, G. W. (1993). "Over de vroege geschiedenis van de ontleding van de enkelvoudige waarde". Siam Review. 35 (4): 551–566. doen:10.1137/1035134.
- ^ a b c d e Jolliffe, I. T. (2002). Hoofdcomponentanalyse. Springer -serie in statistieken. New York: Springer-Verlag. doen:10.1007/B98835. ISBN 978-0-387-95442-4.
- ^ Bengio, Y.; et al. (2013). "Vertegenwoordiging leren: een overzicht en nieuwe perspectieven". IEEE -transacties op patroonanalyse en machine -intelligentie. 35 (8): 1798–1828. arxiv:1206.5538. doen:10.1109/tpami.2013.50. Pmid 23787338. S2CID 393948.
- ^ Forkman J., Josse, J., Piepho, H. P. (2019). "Hypothesetests voor principale componentanalyse wanneer variabelen gestandaardiseerd zijn". Journal of Agricultural, Biological and Environmental Statistics. 24 (2): 289–308. doen:10.1007/S13253-019-00355-5.
{{}}
: CS1 Onderhoud: Meerdere namen: Lijst met auteurs (link) - ^ A. A. Miranda, Y. A. Le Borgne en G. Bontempi. Nieuwe routes van minimale benaderingsfout tot hoofdcomponenten, Volume 27, nummer 3 / juni 2008, neurale verwerkingsbrieven, Springer
- ^ Fukunaga, Keinosuke (1990). Inleiding tot statistische patroonherkenning. Elsevier. ISBN 978-0-12-269851-4.
- ^ Alizadeh, Elaheh; Lyons, Samanthe M; Castle, Jordan M; Prasad, Ashok (2016). "Het meten van systematische veranderingen in de vorm van invasieve kankercellen met behulp van Zernike -momenten". Integratieve biologie. 8 (11): 1183–1193. doen:10.1039/c6ib00100a. Pmid 27735002.
- ^ Leznik, M; Tofallis, C. 2005 Schatting van invariante hoofdcomponenten met behulp van diagonale regressie.
- ^ Jonathon Shlens, Een tutorial over principale componentanalyse.
- ^ a b c Soummer, Rémi; Pueyo, Laurent; Larkin, James (2012). "Detectie en karakterisering van exoplaneten en schijven met behulp van projecties op Karhunen-Loève-veligen". The Astrophysical Journal Letters. 755 (2): L28. arxiv:1207.4197. Bibcode:2012apj ... 755L..28S. doen:10.1088/2041-8205/755/2/L28. S2CID 51088743.
- ^ Pueyo, Laurent (2016). "Detectie en karakterisering van exoplaneten met behulp van projecties op Karhunen Loeve -eigenschappen: voorwaartse modellering". The Astrophysical Journal. 824 (2): 117. arxiv:1604.06097. Bibcode:2016apj ... 824..117p. doen:10.3847/0004-637x/824/2/117. S2CID 118349503.
- ^ a b Blanton, Michael R.; Roweis, Sam (2007). "K-correcties en filtertransformaties in de ultraviolette, optische en bijna infrarood". The Astronomical Journal. 133 (2): 734–754. arxiv:Astro-PH/0606170. Bibcode:2007aJ .... 133..734b. doen:10.1086/510127. S2CID 18561804.
- ^ a b c Zhu, Guangtun B. (2016-12-19). "Niet -negatieve matrixfactorisatie (NMF) met heteroscedastische onzekerheden en ontbrekende gegevens". arxiv:1612.06037 [astro-ph.im].
- ^ a b c d e f Ren, bin; Pueyo, Laurent; Zhu, Guangtun B.; Duchêne, Gaspard (2018). "Niet-negatieve matrixfactorisatie: robuuste extractie van uitgebreide structuren". The Astrophysical Journal. 852 (2): 104. arxiv:1712.10317. Bibcode:2018apj ... 852..104R. doen:10.3847/1538-4357/AAA1F2. S2CID 3966513.
- ^ "Wat zijn de voor- en nadelen van de PCA?". i2Tutorials. 1 september 2019. Opgehaald 4 juni, 2021.
- ^ Abbott, Dean (mei 2014). Toegepaste voorspellende analyse. Wiley. ISBN 9781118727966.
- ^ a b Jiang, Hong; Eskridge, Kent M. (2000). "Bias in principale componentenanalyse als gevolg van gecorreleerde waarnemingen". Conferentie over toegepaste statistieken in de landbouw. doen:10.4148/2475-7772.1247. ISSN 2475-7772.
- ^ Linsker, Ralph (maart 1988). "Zelforganisatie in een perceptueel netwerk". IEEE -computer. 21 (3): 105–117. doen:10.1109/2.36. S2CID 1527671.
- ^ Deco & Obradovic (1996). Een informatietheoretische benadering van neurale computing. New York, NY: Springer. ISBN 9781461240167.
- ^ Plumbley, Mark (1991). Informatietheorie en neurale netwerken zonder toezicht.Tech Note
- ^ Geiger, Bernhard; Kubin, Gernot (januari 2013). "Signaalverbetering als minimalisatie van relevant informatieverlies". Proc. Itg conf. Over systemen, communicatie en codering. arxiv:1205.6935. Bibcode:2012arxiv1205.6935G.
- ^ "Engineering Statistics Handbook Sectie 6.5.5.2". Opgehaald 19 januari 2015.
- ^ A.A. Miranda, Y.-A. Le Borgne en G. Bontempi. Nieuwe routes van minimale benaderingsfout tot hoofdcomponenten, Volume 27, nummer 3 / juni 2008, neurale verwerkingsbrieven, Springer
- ^ Abdi. H. & Williams, L.J. (2010). "Principal Component Analysis". Wiley interdisciplinaire beoordelingen: computationele statistieken. 2 (4): 433–459. arxiv:1108.4372. doen:10.1002/WICS.101. S2CID 122379222.
- ^ "SAS/STAT (R) 9.3 Gebruikershandleiding".
- ^ EIG -functie Matlab -documentatie
- ^ "Gezicht herkenningssysteem-PCA gebaseerd". www.mathworks.com.
- ^ Eigenwaarden functie Mathematica -documentatie
- ^ Roweis, Sam. "EM -algoritmen voor PCA en SPCA." Vooruitgang in neurale informatieverwerkingssystemen. Ed. Michael I. Jordan, Michael J. Kearns, en Sara A. Solla The MIT Press, 1998.
- ^ Geladi, Paul; Kowalski, Bruce (1986). "Gedeeltelijke kleinste vierkantenregressie: een tutorial". Analytica Chimica Acta. 185: 1–17. doen:10.1016/0003-2670 (86) 80028-9.
- ^ Kramer, R. (1998). Chemometrische technieken voor kwantitatieve analyse. New York: CRC Press. ISBN 9780203909805.
- ^ Andrecut, M. (2009). "Parallelle GPU -implementatie van iteratieve PCA -algoritmen". Journal of Computational Biology. 16 (11): 1593–1599. arxiv:0811.1081. doen:10.1089/cmb.2008.0221. Pmid 19772385. S2CID 1362603.
- ^ Warmuth, M. K.; Kuzmin, D. (2008). "Gerandomiseerde online PCA -algoritmen met spijt -grenzen die logaritmisch zijn in de dimensie" (PDF). Journal of Machine Learning Research. 9: 2287–2320.
- ^ Kaplan, R.M., & Saccuzzo, D.P. (2010). Psychologische testen: principes, toepassingen en problemen. (8e ed.). Belmont, CA: Wadsworth, Cengage Learning.
- ^ Shevky, Eshref; Williams, Marilyn (1949). De sociale gebieden van Los Angeles: analyse en typologie. University of California Press.
- ^ Flood, J (2000). Sydney Divided: Factorial Ecology Revisited. Paper van de APA Conference 2000, Melbourne, november en tot de 24e ANZRSAI -conferentie, Hobart, december 2000.[1]
- ^ "Socio-economische indexen voor gebieden". Australian Bureau of Statistics. 2011. Opgehaald 2022-05-05.
- ^ Menselijke ontwikkelingsrapporten. "Index van de menselijke ontwikkeling". Verenigde Naties Ontwikkelings Programma. Opgehaald 2022-05-06.
- ^ Novembre, John; Stephens, Matthew (2008). "Interpretatie van hoofdcomponentanalyses van genetische variatie van ruimtelijke populatie". Nat Genet. 40 (5): 646–49. doen:10.1038/ng.139. PMC 3989108. Pmid 18425127.
- ^ Elhaik, Eran (2022). "Principal Component Analyses (PCA) -gebaseerde bevindingen in populatiegenetische studies zijn zeer bevooroordeeld en moeten opnieuw worden geëvalueerd". Wetenschappelijke rapporten. 12. 14683. doen:10.1038/S41598-022-14395-4. Pmid 36038559. S2CID 251932226.
- ^ Desarbo, Wayne; Hausmann, Robert; Kukitz, Jeffrey (2007). "Beperkte principale componentenanalyse voor marketingonderzoek". Journal of Marketing in Management. 2: 305–328 - via ResearchGate.
- ^ Dutton, William H; Blanco, Grant (2013). Culturen van internet: het internet in Groot -Brittannië (PDF). Oxford Internet Institute. p. 6.
- ^ Flood, Joe (2008). "Multinomiale analyse voor het enquête van de woningcarrière". Paper van het European Network for Housing Research Conference, Dublin. Opgehaald 6 mei 2022.
- ^ De prijzen en hedging van renterivaten: een praktische gids voor swaps, J H M Darbyshire, 2016, ISBN978-0995455511
- ^ Giorgia Pasini (2017); Hoofdcomponentanalyse voor aandelenportefeuillebeheer. International Journal of Pure and Applied Mathematics. Volume 115 Nr. 1 2017, 153–167
- ^ Libin Yang. Een toepassing van principale componentanalyse op aandelenportefeuillebeheer. Department of Economics and Finance, Universiteit van Canterbury, Januari 2015.
- ^ Brenner, N., Bialek, W., & de Ruyter van Steveninck, R.R. (2000).
- ^ Jirsa, Victor; Friedrich, r; HAken, Herman; Kelso, Scott (1994). "Een theoretisch model van fase -overgangen in het menselijk brein". Biologische cybernetica. 71 (1): 27–35. doen:10.1007/BF00198909. Pmid 8054384. S2CID 5155075.
- ^ Benzécri, J.-P. (1973). L'analyseer des Données. Deel II. L'analyseer des correspondenten. Parijs, Frankrijk: Dunod.
- ^ Greenacre, Michael (1983). Theorie en toepassingen van correspondentieanalyse. Londen: Academische pers. ISBN 978-0-12-299050-2.
- ^ Le roux; Brigitte en Henry Rouanet (2004). Geometrische gegevensanalyse, van correspondentieanalyse tot gestructureerde gegevensanalyse. Dordrecht: Kluwer. ISBN 9781402022357.
- ^ Timothy A. Brown. Bevestigende factoranalyse voor toegepaste onderzoeksmethodologie in de sociale wetenschappen. Guilford Press, 2006
- ^ Meglen, R.R. (1991). "Het onderzoeken van grote databases: een chemometrische benadering met behulp van principale componentanalyse". Journal of Chemometrics. 5 (3): 163–179. doen:10.1002/cem.11800503055. S2CID 120886184.
- ^ H. Zha; C. Ding; M. Gu; X. hij; H.D. Simon (december 2001). "Spectrale ontspanning voor K-middelen clustering" (PDF). Neurale informatieverwerkingssystemen Vol.14 (NIPS 2001): 1057-1064.
- ^ Chris Ding; Xiaofeng hij (juli 2004). "K-middelen clustering via hoofdcomponentanalyse" (PDF). Proc. Van int'l conf. Machine Learning (ICML 2004): 225–232.
- ^ Drineas, P.; A. Frieze; R. Kannan; S. Vempala; V. Vinay (2004). "Grote grafieken clusteren via de ontleding van de enkelvoudige waarde" (PDF). Machine Learning. 56 (1–3): 9–33. doen:10.1023/b: mach.0000033113.59016.96. S2CID 5892850. Opgehaald 2012-08-02.
- ^ Cohen, M.; S. Ouderling; C. Musco; C. Musco; M. Persu (2014). Dimensionaliteitsvermindering voor K-middelenclustering en lage rang benadering (Bijlage B). arxiv:1410.6801. Bibcode:2014arxiv1410.6801c.
- ^ Hui Zou; Trevor Hastie; Robert Tibshirani (2006). "Sparse Principal Component Analysis" (PDF). Journal of Computational and Graphical Statistics. 15 (2): 262–286. Citeseerx 10.1.1.62.580. doen:10.1198/106186006X113430. S2CID 5730904.
- ^ Alexandre d'Aspremont; Laurent El Ghaoui; Michael I. Jordan; Gert R. G. Lanckriet (2007). "Een directe formulering voor schaarse PCA met behulp van semidefinietprogrammering" (PDF). Siam Review. 49 (3): 434–448. arxiv:CS/0406021. doen:10.1137/050645506. S2CID 5490061.
- ^ Michel Journee; Yurii Nesterov; Peter Richtarik; Rodolphe Sepulcher (2010). "Gegeneraliseerde vermogensmethode voor schaarse principale componentanalyse" (PDF). Journal of Machine Learning Research. 11: 517–553. arxiv:0811.4724. Bibcode:2008arxiv0811.4724J. Core Discussion Paper 2008/70.
- ^ Peter Richtarik; Martin Takac; S. Damla Ahipasaoglu (2012). "Afwisselende maximalisatie: verenigend raamwerk voor 8 schaarse PCA -formuleringen en efficiënte parallelle codes". arxiv:1212.4137 [Stat.ml].
- ^ Baback Moghaddam; Yair Weiss; Shai Avidan (2005). "Spectrale grenzen voor schaarse PCA: exacte en hebzuchtige algoritmen" (PDF). Vooruitgang in neurale informatieverwerkingssystemen. Vol. 18. MIT Press.
- ^ Yue Guan; Jennifer Dy (2009). "Schaarse probabilistische principale componentanalyse" (PDF). Journal of Machine Learning Research Workshop en Conference Proceedings. 5: 185.
- ^ Hui Zou; Lingzhou Xue (2018). "Een selectief overzicht van schaarse principale componentanalyse". Proceedings van de IEEE. 106 (8): 1311–1320. doen:10.1109/jproc.2018.2846588.
- ^ A. N. Gorban, A. Y. Zinovyev, Hoofdgrafieken en spruitstukken, In: Handbook of Research on Machine Learning -toepassingen en trends: algoritmen, methoden en technieken, Olivas E.S. et al eds. Information Science Reference, IGI Global: Hershey, PA, VS, 2009. 28–59.
- ^ Wang, Y.; Klijn, J. G.; Zhang, Y.; Sieuwerten, A. M.; Look, M. P.; Yang, F.; Talantov, D.; Timmermans, M.; Meijer-Van Gelder, M. E.; Yu, J.; et al. (2005). "Genexpressieprofielen om metastase op afstand te voorspellen van lymfeklier-negatieve primaire borstkanker". Het Lancet. 365 (9460): 671–679. doen:10.1016/s0140-6736 (05) 17947-1. Pmid 15721472. S2CID 16358549. Gegevens online
- ^ Zinovyev, A. "VidaExpert - Multidimensionale tool voor gegevens visualisatie". Institut Curie. Parijs. (gratis voor niet-commercieel gebruik)
- ^ Hastie, T.; Stuetzle, W. (juni 1989). "Hoofdcurven" (PDF). Journal of the American Statistical Association. 84 (406): 502–506. doen:10.1080/01621459.1989.10478797.
- ^ EEN. Gorban, B. Kegl, D.C. Wunsch, A. Zinovyev (Eds.), Principale verdeelstukken voor datavisualisatie en dimensievermindering, Lncse 58, Springer, Berlijn - Heidelberg - New York, 2007. ISBN978-3-540-73749-0
- ^ Lu, Haiping; Plataniotis, K.N.; Venetsanopoulos, A.N. (2011). "Een overzicht van het leren van multilinear subruimte voor tensorgegevens" (PDF). Patroonherkenning. 44 (7): 1540–1551. Bibcode:2011Patre..44.1540L. doen:10.1016/j.patcog.2011.01.004.
- ^ Kriegel, H. P.; Kröger, P.; Schubert, E.; Zimek, A. (2008). Een algemeen raamwerk voor het vergroten van de robuustheid van PCA-gebaseerde correlatiebeclusteringalgoritmen. Wetenschappelijk en statistisch databasebeheer. Lecture Notes in Computer Science. Vol. 5069. pp. 418–435. Citeseerx 10.1.1.144.4864. doen:10.1007/978-3-540-69497-7_27. ISBN 978-3-540-69476-2.
- ^ Emmanuel J. Candes; Xiaodong Li; Yi ma; John Wright (2011). "Robuuste principale componentanalyse?". Journal of the ACM. 58 (3): 11. arxiv:0912.3599. doen:10.1145/1970392.1970395. S2CID 7128002.
- ^ T. Bouwmans; E. Zahzah (2014). "Robuuste PCA via hoofdcomponenten nastreven: een recensie voor een vergelijkende evaluatie in videobewaking". Computervisie en beeld begrip. 122: 22–34. doen:10.1016/j.cviu.2013.11.009.
- ^ T. Bouwmans; A. sobral; S. Javed; S. Jung; E. Zahzah (2015). "Ontleding in low-rank plus additieve matrices voor achtergrond/voorgrondscheiding: een overzicht voor een vergelijkende evaluatie met een grootschalige gegevensset". Computerwetenschappelijke beoordeling. 23: 1–71. arxiv:1511.01245. Bibcode:2015arxiv151101245b. doen:10.1016/j.cosrev.2016.11.001. S2CID 10420698.
- ^ Liao, J. C.; Boscolo, R.; Yang, Y.-L.; Tran, L. M.; Sabatti, C.; Roychowdhury, V. P. (2003). "Netwerkcomponentanalyse: reconstructie van regulerende signalen in biologische systemen". Proceedings of the National Academy of Sciences. 100 (26): 15522–15527. Bibcode:2003pnas..10015522L. doen:10.1073/pnas.2136632100. PMC 307600. Pmid 14673099.
- ^ Liao, T.; Jombart, S.; Devillard, F.; Balloux (2010). "Discriminerende analyse van hoofdcomponenten: een nieuwe methode voor de analyse van genetisch gestructureerde populaties". BMC -genetica. 11: 11:94. doen:10.1186/1471-2156-11-94. PMC 2973851. Pmid 20950446.
- ^ "Analyse van hoofdcomponenten". Instituut voor digitaal onderzoek en onderwijs. UCLA. Opgehaald 29 mei 2018.
Verder lezen
- Jackson, J.E. (1991). Een gebruikershandleiding voor hoofdcomponenten (Wiley).
- Jolliffe, I. T. (1986). Hoofdcomponentanalyse. Springer -serie in statistieken. Springer-Verlag. pp.487. Citeseerx 10.1.1.149.8828. doen:10.1007/B98835. ISBN 978-0-387-95442-4.
- Jolliffe, I. T. (2002). Hoofdcomponentanalyse. Springer -serie in statistieken. New York: Springer-Verlag. doen:10.1007/B98835. ISBN 978-0-387-95442-4.
- Husson François, Lê Sébastien & Pagès Jérôme (2009). Verkennende multivariate analyse per voorbeeld met behulp van R. Chapman & Hall/CRC de R -serie, Londen. 224P. ISBN978-2-7535-0938-2
- Pagès Jérôme (2014). Meerdere factoranalyse per voorbeeld met R. Chapman & Hall/CRC De R -serie Londen 272 P
Externe links
- Universiteit van Kopenhagen video door Rasmus Bro Aan YouTube
- Stanford University Video door Andrew Ng Aan YouTube
- Een tutorial over de principale componentanalyse
- De introductie van een leek tot de principale componentanalyse Aan YouTube (Een video van minder dan 100 seconden.)
- Statquest: Principal Component Analysis (PCA) duidelijk uitgelegd Aan YouTube
- Zie ook de lijst met Software -implementaties