Gedeeltelijke correlatie
In waarschijnlijkheids theorie en statistieken, Gedeeltelijke correlatie meet de mate van vereniging tussen twee willekeurige variabelen, met het effect van een set controlerende willekeurige variabelen verwijderd.Als we geïnteresseerd zijn om te vinden in hoeverre er een numerieke relatie is tussen twee interessante variabelen, met behulp van hun correlatiecoëfficiënt zal geven misleidende resultaten Als er nog een is, verwarrend, variabele die numeriek gerelateerd is aan beide interessante variabelen.Deze misleidende informatie kan worden vermeden door te controleren op de verwarrende variabele, die wordt gedaan door de gedeeltelijke correlatiecoëfficiënt te berekenen.Dit is precies de motivatie om andere rechterkantvariabelen in een meervoudige regressie;Maar terwijl meerdere regressie geeft onbevooroordeeld Resultaten voor de effectgrootte, het geeft geen numerieke waarde van een maat voor de sterkte van de relatie tussen de twee interessante variabelen.
Als we bijvoorbeeld hebben economisch Gegevens over de consumptie, inkomsten en rijkdom van verschillende personen en we willen zien of er een verband bestaat tussen consumptie en inkomsten, het niet beheersen van rijkdom bij het berekenen van een correlatiecoëfficiënt tussen consumptie en inkomsten zou een misleidend resultaat opleveren, omdat inkomsten zouden kunnennumeriek gerelateerd zijn aan rijkdom die op zijn beurt numeriek gerelateerd kunnen zijn aan consumptie;Een gemeten correlatie tussen consumptie en inkomsten kan daadwerkelijk worden besmet door deze andere correlaties.Het gebruik van een gedeeltelijke correlatie vermijdt dit probleem.
Net als de correlatiecoëfficiënt, neemt de gedeeltelijke correlatiecoëfficiënt een waarde aan in het bereik van –1 tot 1. De waarde –1 geeft een perfecte negatieve correlatie die controleert voor sommige variabelen (dat wil zeggen een exacte lineaire relatie waarin hogere waarden van één variabeleworden geassocieerd met lagere waarden van de andere);De waarde 1 brengt een perfecte positieve lineaire relatie over en de waarde 0 brengt over dat er geen lineaire relatie is.
De gedeeltelijke correlatie valt samen met de Voorwaardelijke correlatie Als de willekeurige variabelen zijn gezamenlijk gedistribueerd als de multivariate normaal, ander elliptisch, multivariate hypergeometrisch, multivariate negatieve hypergeometrische, multinomiaal of Dirichlet -verdeling, maar anders niet in het algemeen.[1]
Formele definitie
Formeel, de gedeeltelijke correlatie tussen X en Y gegeven een set van n controlerende variabelen Z = {Z1, Z2, ..., Zn}, geschreven ρXY·Z, is de correlatie tussen de residuen eX en eY als gevolg van de lineaire regressie van X met Z en van Y met Z, respectievelijk.De eerste-orde gedeeltelijke correlatie (d.w.z. wanneer n = 1) is het verschil tussen een correlatie en het product van de verwijderbare correlaties gedeeld door het product van de vervreemdingcoëfficiënten van de verwijderbare correlaties.De vervreemdingcoëfficiënt en de relatie ervan met gezamenlijke variantie door correlatie zijn beschikbaar in Guilford (1973, pp. 344–345).[2]
Berekening
Lineaire regressie gebruiken
Een eenvoudige manier om de gedeeltelijke correlatie van het monster voor sommige gegevens te berekenen, is door de twee bijbehorende op te lossen lineaire regressie Problemen, krijg de residuen en bereken de correlatie tussen de residuen.Laten X en Y Wees, zoals hierboven, willekeurige variabelen die echte waarden nemen, en laat Z wees de n-Dimensionale vector-gewaardeerde willekeurige variabele.We schrijven xi, yi en zi om de ivan van N I.I.D. Observaties van sommigen Joint waarschijnlijkheidsverdeling Over echte willekeurige variabelen X, Y en Z, met zi zijn uitgebreid met een 1 om een constante term in de regressie mogelijk te maken.Het oplossen van het lineaire regressieprobleem komt neer op het vinden van (n+1) -dimensionale regressiecoëfficiëntvectoren en zoals dat
met N Het aantal observaties en de scalair product Tussen de vectoren w en v.
De residuen zijn dan
en het monster gedeeltelijk correlatie wordt vervolgens gegeven door de gebruikelijke formule voor steekproefcorrelatie, maar tussen deze nieuwe afgeleid van waarden:
In de eerste uitdrukking tekent de drie termen na minus allemaal gelijk aan 0, omdat elk de som van residuen van een gewone kleinste vierkanten regressie.
Voorbeeld
Stel dat we de volgende gegevens hebben over drie variabelen, X, Y, en Z:
X | Y | Z |
---|---|---|
2 | 1 | 0 |
4 | 2 | 0 |
15 | 3 | 1 |
20 | 4 | 1 |
Als we het Pearson correlatiecoëfficiënt tussen variabelen X en Y, het resultaat is ongeveer 0,970, terwijl als we de gedeeltelijke correlatie tussen X en YMet behulp van de hierboven gegeven formule vinden we een gedeeltelijke correlatie van 0,919.De berekeningen werden gedaan met behulp van R met de volgende code.
> X <- c(2,4,15,20) > Y <- c(1,2,3,4) > Z <- c(0,0,1,1) > mm1 <- lm(X~Z) > RES1 <- mm1$residuen > mm2 <- lm(Y~Z) > RES2 <- mm2$residuen > cor(RES1,RES2) [1] 0.919145 > cor(X,Y) [1] 0.9695016 > Generalcorr::Parcormany(cbind(X,Y,Z)) nami namj partiJ PartJi rijmrji [1,] "x" "y" "0.8844" "1" "-0.1156" [2,] "x" "z" "0.1581" "1" "-0.8419"
Het onderste deel van de bovenstaande code rapporteert gegeneraliseerde niet -lineaire gedeeltelijke correlatiecoëfficiënt tussen X en Y na het verwijderen van het niet -lineaire effect van Z als 0,8844.Ook de gegeneraliseerde gedeeltelijke correlatiecoëfficiënt tussen X en Z na het verwijderen van het niet -lineaire effect van Y als 0,1581.Zie het R -pakket `GeneralCorr 'en zijn vignetten voor details.Simulatie en andere details zijn in Vinod (2017) "Gegeneraliseerde correlatie en kernel -causaliteit met toepassingen in ontwikkelingseconomie," Communicatie in statistieken - simulatie en berekening, Vol.46, [4513, 4534], online beschikbaar: 29 december 2015, URL https://doi.org/10.1080/03610918.2015.1122048.
Met behulp van recursieve formule
Het kan computationeel duur zijn om de lineaire regressieproblemen op te lossen.Eigenlijk de nTh-order gedeeltelijke correlatie (d.w.z. met |Z| = n) kan eenvoudig worden berekend uit drie (n - 1) Th-order gedeeltelijke correlaties.De nul-orde gedeeltelijke correlatie ρXY·O wordt gedefinieerd als gewone correlatiecoëfficiënt ρXY.
Het geldt voor iedereen Dat
Naïef implementeren van deze berekening als een recursief algoritme levert een exponentiële tijd op complexiteit.Deze berekening heeft echter de overlappende subproblemen eigenschap, zodat gebruik dynamisch programmeren of simpelweg de resultaten van de recursieve oproepen cachen .
OPMERKING In het geval waarin Z een enkele variabele is, vermindert dit tot:
Matrixinversie gebruiken
We kunnen ook de gedeeltelijke correlatie schrijven in termen van de gezamenlijke precisiematrix.Overweeg een reeks willekeurige variabelen, van kardinaliteit n.We willen de gedeeltelijke correlatie tussen twee variabelen Xi en Xj gegeven alle anderen, d.w.z. .Stel dat de (gewricht/vol) covariantiematrix is positief gedefineerd en daarom inverteerbaar.Als we de precisiematrix .dan hebben we:
Om dit te berekenen, moeten we de covariantiematrix omkeren die binnenkomt tijd (met behulp van de monster covariantiematrix om een monster gedeeltelijke correlatie te verkrijgen).Merk op dat slechts een enkele matrixinversie nodig is om te geven allemaal de gedeeltelijke correlaties tussen paren van variabelen in .
Laten we, om dit te bewijzen, terugkeren naar onze vorige notatie (d.w.z. ) en begin met de definitie: ρXY·Z, is de correlatie tussen de residuen eX en eY als gevolg van de lineaire regressie van X met Z en van Y met Z, respectievelijk.
Stel dus dat de coëfficiënten voor lineaire regressie passen , d.w.z.
Laten we de gezamenlijke covariantiematrix voor de vector schrijven net zo
waar
Dan geeft de standaardformule voor lineaire regressie:
Daarom kunnen we de residuen schrijven
Let daar op heeft verwachting nul omdat we een onderscheppingstermijn hebben opgenomen in .We kunnen nu berekenen:
Laten we vervolgens de precisiematrix schrijven in een vergelijkbaar blokvorm
Dan door Schur's formule voor block-matrix-inversie wij hebben
Het is gemakkelijk om te controleren of vermeldingen van de rechterkantmatrix precies de covarianties zijn die we hebben berekend, d.w.z.
Door de formule voor het omgekeerde van een 2x2 -matrix hebben we:
Dus inderdaad de gedeeltelijke correlatie
zoals beweerd.
Interpretatie

Geometrisch
Laat drie variabelen X, Y, Z (waar Z is de "controle" of "extra variabele") worden gekozen uit een gezamenlijke waarschijnlijkheidsverdeling over n variabelen V. Verder laten vi, 1 ≤ i ≤ N, zijn N n-dimensionaal I.I.D. waarnemingen genomen uit de gezamenlijke waarschijnlijkheidsverdeling over V.We beschouwen dan de N-Dimensionale vectoren x (gevormd door de opeenvolgende waarden van X over de waarnemingen), y (gevormd door de waarden van Y) en z (gevormd door de waarden van Z).
Er kan worden aangetoond dat de residuen eX, ik afkomstig van de lineaire regressie van X Aan Z, indien ook beschouwd als een N-dimensionale vector eX (aangeduid rX in de bijbehorende grafiek), heb een nul scalair product met de vector z gegenereerd door Z.Dit betekent dat de residuenvector ligt op een (N–1) -dimensionaal hyperplane Sz dat is loodrecht tot z.
Hetzelfde geldt ook voor de residuen eY, ik Een vector genereren eY.De gewenste gedeeltelijke correlatie is dan de cosinus van de hoek φ tussen de projecties eX en eY van x en y, respectievelijk, op de hyperplane loodrecht op z.[3]: Ch. 7
Als voorwaardelijke onafhankelijkheidstest
Met de veronderstelling dat alle betrokken variabelen zijn multivariate Gaussian, de gedeeltelijke correlatie ρXY·Z is nul als en alleen als X is voorwaardelijk onafhankelijk van Y gegeven Z.[1] Deze eigenschap geldt niet in het algemene geval.
Tot testen Als een monster gedeeltelijke correlatie impliceert dat de ware populatie gedeeltelijke correlatie verschilt van 0, Fisher's Z-transformatie van de gedeeltelijke correlatie kunnen worden gebruikt:
De nulhypothese is , om te worden getest op het alternatief met twee staart .We verwerpen H0 met mate van belangrijkheid α als:
waar φ (·) de cumulatieve distributiefunctie van een Gaussische verdeling met nul gemeen en eenheid standaardafwijking, en N is de steekproefgrootte. Deze z-Transform is bij benadering en dat de werkelijke verdeling van de monster (gedeeltelijke) correlatiecoëfficiënt niet eenvoudig is.Echter, een exacte test Op basis van een combinatie van de gedeeltelijke regressiecoëfficiënt is de gedeeltelijke correlatiecoëfficiënt en de gedeeltelijke varianties beschikbaar.[4]
De verdeling van de gedeeltelijke correlatie van het monster werd beschreven door Fisher.[5]
Semipartiale correlatie (deel correlatie)
De semipartiale (of gedeeltelijke) correlatiestatistiek is vergelijkbaar met de gedeeltelijke correlatiestatistiek.Beide vergelijken variaties van twee variabelen nadat bepaalde factoren zijn geregeld, maar om de semipartiale correlatie te berekenen, houdt men de derde variabele constante voor beide vast X of Y Maar niet beide, terwijl voor de gedeeltelijke correlatie men de derde variabele constante voor beide heeft.[6] De semipartiale correlatie vergelijkt de unieke variatie van één variabele (nadat de variatie is verwijderd geassocieerd met de Z Variabele (s)), met de ongefilterde variatie van de andere, terwijl de gedeeltelijke correlatie de unieke variatie van de ene variabele vergelijkt met de unieke variatie van de andere.
De semipartiale (of deel) correlatie kan worden gezien als praktisch relevanter "omdat deze wordt geschaald naar (d.w.z. ten opzichte van) de totale variabiliteit in de afhankelijke (respons) variabele."[7] Omgekeerd is het minder theoretisch nuttig omdat het minder nauwkeurig is over de rol van de unieke bijdrage van de onafhankelijke variabele.
De absolute waarde van de semipartiale correlatie van X met Y is altijd kleiner dan of gelijk aan die van de gedeeltelijke correlatie van X met Y.De reden is deze: stel dat de correlatie van X met Z is verwijderd X, het geven van de resterende vector ex .Bij het berekenen van de semipartiale correlatie, Y bevat nog steeds zowel unieke variantie als variantie vanwege de associatie met Z. Maar ex , niet gecorreleerd zijn met Z, kan slechts een deel van het unieke deel van de variantie van verklaren Y en niet het onderdeel met betrekking tot Z.Alleen, alleen met de gedeeltelijke correlatie ey (het deel van de variantie van Y dat staat geen verband Z) moet worden uitgelegd, dus er is minder variantie van het type dat ex kan niet uitleggen.
Gebruik in tijdreeksanalyse
In tijdreeksanalyse, de Gedeeltelijke autocorrelatiefunctie (Soms "gedeeltelijke correlatiefunctie") van een tijdreeks wordt gedefinieerd, voor vertraging h, net zo
Deze functie wordt gebruikt om de juiste lag -lengte te bepalen voor een autoregressie.
Zie ook
Referenties
- ^ a b Baba, Kunihiro;Ritei Shibata;Masaaki Sibuya (2004)."Gedeeltelijke correlatie en voorwaardelijke correlatie als maatregelen van voorwaardelijke onafhankelijkheid". Australian and New Zealand Journal of Statistics. 46 (4): 657–664. doen:10.1111/j.1467-842x.2004.00360.x. S2CID 123130024.
- ^ Guilford J. P., Fruchter B. (1973). Fundamentele statistieken in psychologie en onderwijs. Tokyo: McGraw-Hill Kogakusha, Ltd.
- ^ Rummel, R. J. (1976). "Inzicht in correlatie".
- ^ Kendall MG, Stuart A. (1973) De geavanceerde theorie van statistieken, Deel 2 (3e editie), ISBN0-85264-215-6, sectie 27.22
- ^ Fisher, R.A. (1924). "De verdeling van de gedeeltelijke correlatiecoëfficiënt". Metron. 3 (3–4): 329–332.
- ^ https://web.archive.org/web/20140206182503/http://luna.cas.usf.edu/~mbrannic/files/regression/partial.html. Gearchiveerd van het origineel op 2014-02-06.
{{}}
: Ontbreekt of leeg|title=
(helpen) - ^ Statsoft, Inc. (2010). "Semi-partij (of gedeeltelijk) correlatie", Elektronische statistieken leerboek.Tulsa, OK: StatSoft, bezocht op 15 januari 2011.
Externe links
- Prokhorov, A.V. (2001) [1994], "Gedeeltelijke correlatiecoëfficiënt", Encyclopedie van wiskunde, EMS Press
- Wiskundige formules in het gedeelte "Beschrijving" van de IMSL numerieke bibliotheek PCorr -routine
- A Drie-variabel voorbeeld