Regressie van de hoofdcomponent
In statistieken, Regressie van de hoofdcomponent (PCR) is een regressie analyse Techniek die is gebaseerd op Hoofdcomponentanalyse (PCA).Meer specifiek wordt PCR gebruikt voor schatting het onbekende regressiecoëfficiënten in een Standaard lineair regressiemodel.
In PCR, in plaats van de afhankelijke variabele op de verklarende variabelen rechtstreeks terug te nemen, de hoofdcomponenten van de verklarende variabelen worden gebruikt als regressoren.Men gebruikt meestal alleen een subset van alle hoofdcomponenten voor regressie, waardoor PCR een soort van geregulariseerd procedure en ook een soort krimpschatter.
Vaak de belangrijkste componenten met hoger varianties (Degenen gebaseerd op eigenvectoren overeenkomend met de hogere eigenwaarden van de steekproef variantie-covariantiematrix van de verklarende variabelen) worden geselecteerd als regressors.Voor het doel van voorspelling De uitkomst, de belangrijkste componenten met lage varianties kunnen ook belangrijk zijn, in sommige gevallen nog belangrijker.[1]
Een groot gebruik van PCR ligt in het overwinnen van de multicollineariteit probleem dat zich voordoet wanneer twee of meer van de verklarende variabelen bijna zijn collineair.[2] PCR kan toepasselijk omgaan met dergelijke situaties door enkele van de hoofdcomponenten met lage variantie in de regressiestap uit te sluiten.Bovendien kan PCR door meestal alleen een subset van alle hoofdcomponenten terug te nemen, dimensievermindering Door het effectieve aantal parameters aanzienlijk te verlagen die het onderliggende model karakteriseren.Dit kan met name handig zijn in instellingen met hoog-dimensionale covariaten.Door de juiste selectie van de belangrijkste componenten die voor regressie moeten worden gebruikt, kan PCR ook leiden tot efficiënt voorspelling van de uitkomst op basis van het veronderstelde model.
Het principe
De PCR -methode kan breed worden onderverdeeld in drie belangrijke stappen:
- 1. Presteren PCA op de waargenomen Gegevensmatrix Voor de verklarende variabelen om de belangrijkste componenten te verkrijgen, en vervolgens (meestal) een subset, op basis van enkele geschikte criteria, selecteren van de belangrijkste componenten die aldus zijn verkregen voor verder gebruik.
- 2. Regresseer nu de waargenomen vector van resultaten op de geselecteerde hoofdcomponenten als covariaten, met behulp van gewone kleinste vierkanten regressie (lineaire regressie) om een vector van geschatte regressiecoëfficiënten te krijgen (met dimensie gelijk aan het aantal geselecteerde hoofdcomponenten).
- 3. nutsvoorzieningen transformeren deze vector terug naar de schaal van de werkelijke covariaten, met behulp van de geselecteerde PCA -laden (de eigenvectoren die overeenkomen met de geselecteerde hoofdcomponenten) om de Eind PCR -schatter (met dimensie gelijk aan het totale aantal covariaten) voor het schatten van de regressiecoëfficiënten die het oorspronkelijke model karakteriseren.
Details van de methode
Data weergave: Laten duiden de vector aan van waargenomen resultaten en Geef de overeenkomstige aan Gegevensmatrix van waargenomen covariaten waar, en duiden de grootte aan van de waargenomen steekproef en het aantal covariaten respectievelijk, met . Elk van de rijen van geeft een reeks observaties aan voor de dimensionaal covariate en de respectieve toetreding van geeft de overeenkomstige waargenomen uitkomst aan.
Gegevensvoorbewerking: Aannemen dat en elk van de kolommen van zijn al geweest gecentreerd zodat ze allemaal nul hebben Empirische middelen.Deze centreringstap is cruciaal (althans voor de kolommen van ) omdat PCR het gebruik van PCA ophoudt en PCA is gevoelig tot centreren van de gegevens.
Onderliggend model: Na centreren, de standaard Gauss - Markov lineaire regressie model voor Aan kan worden weergegeven als: waar geeft de onbekende parametervector van regressiecoëfficiënten aan en geeft de vector van willekeurige fouten aan met en Voor sommigen onbekend variantie parameter
Doelstelling: Het primaire doel is om een efficiënte te verkrijgen schatter voor de parameter , op basis van de gegevens.Een vaak gebruikte benadering hiervoor is gewone kleinste vierkanten regressie die, ervan uitgaande is Volledige kolom rang, geeft de onbevooroordeelde schatter: van .PCR is een andere techniek die kan worden gebruikt voor hetzelfde doel van het schatten .
PCA -stap: PCR begint met het uitvoeren van een PCA op de gecentreerde gegevensmatrix .Hiervoor, laat duiden op de singuliere waarden ontbinding van waar, met het niet-negatief aangeven enkelvoudige waarden van , Terwijl de kolommen van en zijn beide orthonormale sets van vectoren die de Links en rechter enkelvoudige vectoren van respectievelijk.
De belangrijkste componenten: geeft een spectrale ontleding van waar met het aangeven van de niet-negatieve eigenwaarden (ook bekend als de hoofdwaarden) van , terwijl de kolommen van Geef de overeenkomstige orthonormale set eigenvectoren aan.Dan, en duiden respectievelijk de hoofdcomponent en de Richting van de hoofdcomponent (of PCA Loading) overeenkomend met de het grootste hoofdwaarde Voor elk .
Afgeleide covariaten: Voor enige , laten duiden op de matrix met orthonormale kolommen bestaande uit de eerste kolommen van . Laten duiden op de matrix met de eerste Hoofdcomponenten als zijn kolommen. kan worden gezien als de gegevensmatrix die wordt verkregen met behulp van de getransformeerd covariaten In plaats van de originele covariaten te gebruiken .
De PCR -schatter: Laten duiden de vector aan van geschatte regressiecoëfficiënten verkregen door gewone kleinste vierkanten Regressie van de responsvector Op de gegevensmatrix . Dan voor iedereen , de uiteindelijke PCR -schatter van Gebaseerd op het gebruik van de eerste Hoofdcomponenten worden gegeven door: .
Fundamentele kenmerken en toepassingen van de PCR -schatter
Twee basiseigenschappen
Het pasproces voor het verkrijgen van de PCR -schatter omvat het regresseren van de responsvector op de afgeleide gegevensmatrix welke heeft orthogonaal kolommen voor elke Omdat de belangrijkste componenten dat zijn wederzijds orthogonaal naar elkaar.Dus in de regressiestap, het uitvoeren van een Meerdere lineaire regressie gezamenlijk op de Geselecteerde hoofdcomponenten als covariaten is gelijk aan uitvoering onafhankelijk Eenvoudige lineaire regressies (of univariate regressies) afzonderlijk op elk van de Geselecteerde hoofdcomponenten als covariate.
Wanneer alle hoofdcomponenten worden geselecteerd voor regressie zodat , dan is de PCR -schatter gelijk aan de gewone kleinste vierkanten schatter.Dus, .Dit is gemakkelijk te zien uit het feit dat en ook waarnemen is een orthogonale matrix.
Variantiereductie
Voor enige , de variantie van is gegeven door
Vooral:
Vandaar voor iedereen wij hebben:
Dus voor iedereen wij hebben:
waar geeft aan dat een vierkante symmetrische matrix is niet-negatief definitief.Bijgevolg is elk gegeven lineaire vorm van de PCR -schatter heeft een lagere variantie in vergelijking met die van hetzelfde lineaire vorm van de gewone kleinste kwadratenschatter.
Het aanpakken van multicollineariteit
Onder multicollineariteit, twee of meer van de covariaten zijn zeer gecorreleerd, zodat men lineair kan worden voorspeld van de anderen met een niet-triviale mate van nauwkeurigheid.Bijgevolg zijn de kolommen van de gegevensmatrix die overeenkomen met de waarnemingen voor deze covariaten, worden de neiging om te worden lineair afhankelijk en daarom, heeft de neiging om te worden rangschikken het verliezen van zijn volledige kolom rangstructuur.Meer kwantitatief, een of meer van de kleinere eigenwaarden van komen (s) heel dichtbij of worden (en) exact gelijk aan in dergelijke situaties.De bovenstaande variantie -uitdrukkingen geven aan dat deze kleine eigenwaarden het maximum hebben inflatie -effect over de variantie van de kleinste kwadratenschatter, daardoor destabiliseren de schatter aanzienlijk wanneer ze dichtbij zijn .Dit probleem kan effectief worden aangepakt door een PCR -schatter te gebruiken die is verkregen door de belangrijkste componenten uit te sluiten die overeenkomen met deze kleine eigenwaarden.
Dimensievermindering
PCR kan ook worden gebruikt voor het uitvoeren dimensievermindering. Om dit te zien, laat duiden op een matrix met orthonormale kolommen, voor elke Stel nu dat we dat willen benaderen elk van de covariate observaties door het rang lineaire transformatie Voor sommigen .
Dan kan dat worden aangetoond
wordt geminimaliseerd bij de matrix met de eerste hoofdcomponentrichtingen als kolommen, en de overeenkomstige Dimensionale afgeleide covariaten.Dus de Dimensionale hoofdcomponenten bieden het beste lineaire benadering van rang naar de waargenomen gegevensmatrix .
De overeenkomstige wederopbouwfout is gegeven door:
Dus elk potentieel dimensievermindering kan worden bereikt door te kiezen , het aantal hoofdcomponenten dat moet worden gebruikt, door de juiste drempel op de cumulatieve som van de eigenwaarden van .Aangezien de kleinere eigenwaarden niet significant bijdragen aan de cumulatieve som, kunnen de overeenkomstige hoofdcomponenten worden gebleven, zolang de gewenste drempellimiet niet wordt overschreden.Dezelfde criteria kunnen ook worden gebruikt voor het aanpakken van de multicollineariteit Probleem waarbij de belangrijkste componenten die overeenkomen met de kleinere eigenwaarden kunnen worden genegeerd zolang de drempellimiet wordt gehandhaafd.
Regularisatie -effect
Aangezien de PCR -schatter meestal alleen een subset van alle hoofdcomponenten voor regressie gebruikt, kan deze worden gezien als een soort van een geregulariseerd procedure.Meer specifiek, voor elke , de PCR -schatter geeft de geregulariseerde oplossing aan voor het volgende beperkte minimalisatie probleem:
De beperking kan gelijkwaardig worden geschreven als:
waar:
Dus wanneer alleen een juiste subset van alle hoofdcomponenten wordt geselecteerd voor regressie, is de aldus verkregen PCR -schatter gebaseerd op een harde vorm van regularisatie die de resulterende oplossing beperkt tot de kolomruimte van de geselecteerde hoofdcomponentrichtingen, en beperkt bijgevolg deze te zijn orthogonaal naar de uitgesloten richtingen.
Optimaliteit van PCR bij een klasse van geregulariseerde schatters
Gezien het beperkte minimalisatieprobleem zoals hierboven gedefinieerd, overweeg dan de volgende gegeneraliseerde versie ervan:
waar, geeft elke volledige kolom rang matrix van bestelling aan met .
Laten Geef de bijbehorende oplossing aan.Dus
Dan de optimale keuze van de restrictiematrix waarvoor de bijbehorende schatter bereikt de minimale voorspellingsfout wordt gegeven door:[3]
waar
Het is duidelijk dat de resulterende optimale schatter wordt dan eenvoudig gegeven door de PCR -schatter Gebaseerd op de eerste hoofdcomponenten.
Efficiëntie
Omdat de gewone kleinste vierkantenschatter is onbevooroordeeld voor , wij hebben
waar, MSE geeft de Gemiddelde vierkante fout.Nu, als voor sommigen , we hebben bovendien: , dan de overeenkomstige is ook onbevooroordeeld voor en daarom
Dat hebben we al gezien
die dan impliceert:
voor dat specifieke .Dus in dat geval de overeenkomstige zou een meer zijn efficiënte schatter van in vergelijking tot , op basis van het gebruik van de gemiddelde kwadratische fout als prestatiecriteria.Bovendien is elk gegeven lineaire vorm van de overeenkomstige zou ook een lager hebben Gemiddelde vierkante fout vergeleken met die van hetzelfde lineaire vorm van .
Stel dat nu voor een gegeven . Dan de overeenkomstige is bevooroordeeld voor .Sinds
het is nog steeds mogelijk , vooral als is zodanig dat de uitgesloten hoofdcomponenten overeenkomen met de kleinere eigenwaarden, wat resulteert in lager vooroordeel.
Om een efficiënte schatting en voorspellingsprestaties van PCR te garanderen als een schatter van , Park (1981) [3] stelt de volgende richtlijn voor voor het selecteren van de belangrijkste componenten die moeten worden gebruikt voor regressie: laat de hoofdcomponent als en alleen als Praktische implementatie van deze richtlijn vereist natuurlijk schattingen voor de onbekende modelparameters en .Over het algemeen kunnen ze worden geschat met behulp van de onbeperkte kleinste kwadratenschattingen verkregen uit het oorspronkelijke volledige model.Park (1981) biedt echter een enigszins gewijzigde set schattingen die voor dit doel beter geschikt zijn.[3]
In tegenstelling tot de criteria op basis van de cumulatieve som van de eigenwaarden van , wat waarschijnlijk meer geschikt is voor het aanpakken van het multicollineariteitsprobleem en voor het uitvoeren van dimensievermindering, de bovenstaande criteria proberen eigenlijk de voorspelling en schattingsefficiëntie van de PCR -schatter te verbeteren door zowel de uitkomst als de covariaten in het proces van het selecteren van de hoofdsom te gebruikencomponenten die moeten worden gebruikt in de regressiestap.Alternatieve benaderingen met vergelijkbare doelen omvatten de selectie van de belangrijkste componenten op basis van kruisvalidatie of de Mallow's Cp criteria.Vaak worden de belangrijkste componenten ook geselecteerd op basis van hun graad van vereniging met de uitkomst.
Krimpeffect van PCR
Over het algemeen is PCR in wezen een krimpschatter die meestal de hoofdcomponenten met hoge variantie behouden (overeenkomend met de hogere eigenwaarden van ) als covariaten in het model en de resterende componenten met lage variantie weggooien (overeenkomend met de lagere eigenwaarden van ).Het oefent dus een discreet uit krimpeffect Over de componenten met lage variantie die hun bijdrage volledig in het oorspronkelijke model teniet doen.De daarentegen, de Ridge -regressie schatter heeft een soepel krimpeffect door het regularisatieparameter (of de afstemmingsparameter) inherent betrokken bij de constructie ervan.Hoewel het geen van de componenten volledig weggooit, oefent het een krimpeffect uit op allemaal op een continue manier, zodat de mate van krimp hoger is voor de componenten met lage variantie en lager is voor de componenten met hoge variantie.Frank en Friedman (1993)[4] Concludeer dat voor het doel van voorspelling zelf de nokschatter, vanwege het soepele krimpeffect, misschien een betere keuze is in vergelijking met de PCR -schatter met een discreet krimpeffect.
Bovendien worden de hoofdcomponenten verkregen van de eigen-decoratie van Dat omvat alleen de waarnemingen voor de verklarende variabelen.Daarom hoeft de resulterende PCR -schatter verkregen uit het gebruik van deze hoofdcomponenten als covariaten niet noodzakelijkerwijs een bevredigende voorspellende prestaties voor de uitkomst te hebben.Een enigszins vergelijkbare schatter die dit probleem probeert aan te pakken via zijn constructie is de Gedeeltelijke kleinste vierkanten (PLS) schatter.Net als PCR gebruikt PLS ook afgeleide covariaten van lagere dimensies.In tegenstelling tot PCR worden de afgeleide covariaten voor PLS echter verkregen op basis van het gebruik van zowel de uitkomst als de covariaten.Hoewel PCR de richtingen van hoge variantie zoekt in de ruimte van de covariaten, zoekt PLS de richtingen in de covariate ruimte die het meest nuttig zijn voor de voorspelling van de uitkomst.
2006 Een variant van de klassieke PCR bekend als de begeleid PCR werd voorgesteld.[5] In een geest vergelijkbaar met die van PLS, probeert het om afgeleide covariaten van lagere dimensies te verkrijgen op basis van een criterium dat zowel de uitkomst als de covariaten inhoudt.De methode begint met het uitvoeren van een set van Eenvoudige lineaire regressies (of univariate regressies) waarbij de uitkomstvector afzonderlijk wordt teruggedrongen op elk van de covariaten genomen één voor één.Dan, voor sommigen , de eerste Covariaten die het meest gecorreleerd blijken te zijn met de uitkomst (gebaseerd op de mate van significantie van de overeenkomstige geschatte regressiecoëfficiënten) worden geselecteerd voor verder gebruik.Een conventionele PCR, zoals eerder beschreven, wordt vervolgens uitgevoerd, maar nu is het gebaseerd op alleen de Gegevensmatrix die overeenkomt met de waarnemingen voor de geselecteerde covariaten.Het aantal gebruikte covariaten: en het volgende aantal gebruikte hoofdcomponenten: worden meestal geselecteerd door kruisvalidatie.
Generalisatie naar kernelinstellingen
De klassieke PCR -methode zoals hierboven beschreven is gebaseerd op klassieke PCA en beschouwt een lineair regressiemodel voor het voorspellen van de uitkomst op basis van de covariaten.Het kan echter gemakkelijk worden gegeneraliseerd naar een kernelmachine instelling waarbij de regressiefunctie hoeft niet noodzakelijkerwijs te zijn lineair in de covariaten, maar in plaats daarvan kan het tot de Reproduceren van kernel Hilbert -ruimte geassocieerd met elk willekeurig (mogelijk niet-lineair), symmetrisch Positief-Definite kernel. De lineair regressiemodel blijkt een speciaal geval van deze instelling te zijn wanneer de kernelfunctie wordt gekozen om de lineaire kernel.
In het algemeen onder de kernelmachine instelling, de vector van covariaten is de eerste in kaart gebracht in een hoog-dimensionaal (mogelijk oneindig-dimensionaal) Kenmerkruimte gekenmerkt door de kernelfunctie gekozen. De in kaart brengen dus verkregen staat bekend als de functiekaart en elk van zijn coördineert, ook bekend als de Feature Elements, komt overeen met één functie (kan zijn lineair of niet-lineair) van de covariaten.De regressiefunctie wordt dan verondersteld een lineaire combinatie van deze Feature Elements. Dus de onderliggend regressiemodel in de kernelmachine instelling is in wezen een lineair regressiemodel Met het begrip dat in plaats van de oorspronkelijke set covariaten, de voorspellers nu door de vector worden gegeven (potentieel oneindig-dimensionaal) van Feature Elements verkregen door transformeren de werkelijke covariaten met behulp van de functiekaart.
echter, de kerneltruc stelt ons in staat om te werken in de Kenmerkruimte zonder ooit expliciet de functiekaart.Het blijkt dat het alleen voldoende is om het paarsgewijze te berekenen Innerlijke producten Onder de kenmerkkaarten voor de waargenomen covariate vectoren en deze Innerlijke producten worden eenvoudig gegeven door de waarden van de kernelfunctie geëvalueerd op de overeenkomstige paren van covariate vectoren.De aldus verkregen paarsgewijze binnenproducten kunnen daarom worden weergegeven in de vorm van een symmetrische niet-negatieve definitieve matrix ook bekend als de kernelmatrix.
PCR in de kernelmachine instelling kan nu worden geïmplementeerd door eerst Geschikt centreren deze kernelmatrix (K, zeg) met betrekking tot de Kenmerkruimte en dan een kernel pca op de gecentreerde kernelmatrix (K ', zeg) waarbij een eigendecompositie van K 'wordt verkregen.Kernel PCR verloopt vervolgens door (meestal) een subset te selecteren van alle eigenvectoren Zo verkregen en vervolgens een Standaard lineaire regressie van de uitkomstvector op deze geselecteerde eigenvectoren. De eigenvectoren worden gebruikt voor regressie worden meestal geselecteerd met behulp van kruisvalidatie.De geschatte regressiecoëfficiënten (met dezelfde dimensie als het aantal geselecteerde eigenvectoren) samen met de overeenkomstige geselecteerde eigenvectoren worden vervolgens gebruikt voor het voorspellen van de uitkomst voor een toekomstige observatie.In Machine Learning, deze techniek staat ook bekend als spectrale regressie.
Het is duidelijk dat kernel PCR een discreet krimpeffect heeft op de eigenvectoren van K ', vrij gelijkaardig aan het discrete krimpeffect van klassieke PCR op de belangrijkste componenten, zoals eerder besproken.De functiekaart geassocieerd met de gekozen kernel kan echter mogelijk oneindig-dimensionaal zijn, en daarom kunnen de overeenkomstige hoofdcomponenten en hoofdcomponentrichtingen ook oneindig-dimensionaal zijn.Daarom zijn deze hoeveelheden vaak praktisch hardnekkig onder de kernelmachine -instelling.Kernel PCR werkt in wezen dit probleem door door een equivalente dubbele formulering te overwegen op basis van het gebruik van de spectrale ontleding van de bijbehorende kernelmatrix.Onder het lineaire regressiemodel (dat overeenkomt met het kiezen van de kernelfunctie als de lineaire kernel), komt dit neer op het overwegen van een spectrale ontleding van de overeenkomst kernelmatrix en vervolgens de uitkomstvector regresseren op een geselecteerde subset van de eigenvectoren van dus verkregen.Het kan gemakkelijk worden aangetoond dat dit hetzelfde is als het regresseren van de uitkomstvector op de overeenkomstige hoofdcomponenten (die in dit geval eindig-dimensionaal zijn), zoals gedefinieerd in de context van de klassieke PCR.Dus voor de lineaire kernel is de kernel -PCR op basis van een dubbele formulering exact equivalent aan de klassieke PCR op basis van een primaire formulering.Voor willekeurige (en mogelijk niet-lineaire) korrels kan deze primaire formulering echter onhandelbaar worden vanwege de oneindige dimensionaliteit van de bijbehorende functiekaart.Aldus wordt klassieke PCR in dat geval praktisch onhaalbaar, maar kernel -PCR op basis van de dubbele formulering blijft nog steeds geldig en computationeel schaalbaar.
Zie ook
- Hoofdcomponentanalyse
- Gedeeltelijke kleinste vierkantenregressie
- Ridge -regressie
- Canonieke correlatie
- Deming -regressie
- Totale som van vierkanten
Referenties
- ^ Jolliffe, Ian T. (1982)."Een opmerking over het gebruik van hoofdcomponenten in regressie". Journal of the Royal Statistical Society, Series C. 31 (3): 300–303. doen:10.2307/2348005. Jstor 2348005.
- ^ Dodge, Y. (2003) The Oxford Dictionary of Statistical Feards, OUP. ISBN0-19-920613-9
- ^ a b c Sung H. Park (1981)."Collineariteit en optimale beperkingen op regressieparameters voor het schatten van reacties". Technometrie. 23 (3): 289–295. doen:10.2307/1267793.
- ^ Lldiko E. Frank & Jerome H. Friedman (1993)."Een statistisch beeld van enkele chemometrische regressietools". Technometrie. 35 (2): 109–135. doen:10.1080/00401706.1993.10485033.
- ^ Eric Bair;Trevor Hastie;Debashis Paul;Robert Tibshirani (2006)."Voorspelling door begeleide hoofdcomponenten". Journal of the American Statistical Association. 101 (473): 119–137. Citeseerx 10.1.1.516.2313. doen:10.1198/016214505000000628.
Verder lezen
- Amemiya, Takeshi (1985). Geavanceerde econometrie. Harvard University Press. pp.57–60. ISBN 978-0-674-00560-0.
- Theil, Henri (1971). Principes van econometrie. Wiley. pp.46–55. ISBN 978-0-471-85845-4.