Correlatie

Verschillende sets van (x,,y) punten, met de Pearson correlatiecoëfficiënt van x en y Voor elke set. De correlatie weerspiegelt de luidruchtigheid en richting van een lineaire relatie (bovenste rij), maar niet de helling van die relatie (midden), noch vele aspecten van niet -lineaire relaties (onder). N.B.: De figuur in het midden heeft een helling van 0, maar in dat geval is de correlatiecoëfficiënt ongedefinieerd omdat de variantie van Y is nul.

In statistieken, correlatie of afhankelijkheid is elke statistische relatie, of oorzakelijk of niet, tussen twee willekeurige variabelen of bivariate gegevens. Hoewel in de breedste zin "correlatie" kan wijzen op elk type associatie, verwijst het in statistieken normaal gesproken naar de mate waarin een paar variabelen zijn lineair verwant. Bekende voorbeelden van afhankelijke fenomenen omvatten de correlatie tussen de hoogte van ouders en hun nakomelingen, en de correlatie tussen de prijs van een goed en de hoeveelheid die de consumenten bereid zijn te kopen, zoals het wordt afgebeeld in de zogenaamde vraagcurve.

Correlaties zijn nuttig omdat ze een voorspellende relatie kunnen aangeven die in de praktijk kan worden benut. Een elektrisch nut kan bijvoorbeeld op een milde dag minder vermogen produceren op basis van de correlatie tussen de vraag naar elektriciteit en het weer. In dit voorbeeld is er een oorzakelijk verband, omdat extreem weer zorgt ervoor dat mensen meer elektriciteit gebruiken voor verwarming of koeling. Over het algemeen is de aanwezigheid van een correlatie echter niet voldoende om de aanwezigheid van een causaal verband af te leiden (d.w.z. Correlatie betekent geen oorzakelijk verband).

Formeel zijn willekeurige variabelen afhankelijk Als ze niet voldoen aan een wiskundige eigenschap van Probabilistische onafhankelijkheid. In informele taal, correlatie is synoniem met afhankelijkheid. Bij gebruik in technische zin verwijst correlatie echter naar een van de verschillende specifieke soorten wiskundige bewerkingen tussen de geteste variabelen en hun respectieve verwachte waarden. In wezen is correlatie de maat voor hoe twee of meer variabelen aan elkaar gerelateerd zijn. Er zijn meerdere correlatie coëfficiënten, vaak aangeduid of , het meten van de mate van correlatie. De meest voorkomende hiervan is de Pearson correlatiecoëfficiënt, die alleen gevoelig is voor een lineair verband tussen twee variabelen (die mogelijk aanwezig zijn, zelfs wanneer de ene variabele een niet -lineaire functie van de andere is). Andere correlatiecoëfficiënten - zoals Spearman's rang correlatie - zijn ontwikkeld om meer te zijn robuust dan die van Pearson, dat is gevoeliger voor niet -lineaire relaties.[1][2][3] Wederzijdse informatie Kan ook worden toegepast om afhankelijkheid tussen twee variabelen te meten.

Pearson's productmomente coëfficiënt

Voorbeeld van spreidingsvermogen van verschillende datasets met verschillende correlatiecoëfficiënten.

De meest bekende maat van afhankelijkheid tussen twee hoeveelheden is de Pearson product-moment correlatiecoëfficiënt (PPMCC), of "Pearson's correlatiecoëfficiënt", gewoonlijk eenvoudig "de correlatiecoëfficiënt" genoemd. Het wordt verkregen door de verhouding tussen de covariantie van de twee variabelen in kwestie van onze numerieke dataset te nemen, genormaliseerd op de vierkantswortel van hun varianties. Wiskundig verdeelt men eenvoudig de covariantie van de twee variabelen door het product van hun standaard afwijkingen. Karl Pearson ontwikkelde de coëfficiënt van een soortgelijk maar enigszins ander idee door Francis Galton.[4]

Een Pearson-productmomente correlatiecoëfficiënt probeert een lijn van de beste pasvorm vast te stellen via een gegevensset van twee variabelen door in wezen de verwachte waarden uit te leggen en de resulterende Pearson's correlatiecoëfficiënt geeft aan hoe ver de werkelijke dataset is van de verwachte waarden. Afhankelijk van het teken van de correlatiecoëfficiënt van onze Pearson, kunnen we eindigen met een negatieve of positieve correlatie als er een verband is tussen de variabelen van onze gegevensset.

De bevolkingscorrelatiecoëfficiënt tussen twee willekeurige variabelen en met verwachte waarden en en standaard afwijkingen en is gedefinieerd als:

waar is de verwachte waarde operator, middelen covariantie, en is een veelgebruikte alternatieve notatie voor de correlatiecoëfficiënt. De Pearson -correlatie is alleen gedefinieerd als beide standaardafwijkingen eindig en positief zijn. Een alternatieve formule puur in termen van momenten is:

Correlatie en onafhankelijkheid

Het is een gevolg van de Cauchy - Schwarz ongelijkheid dat de absolute waarde van de Pearson -correlatiecoëfficiënt is niet groter dan 1. Daarom varieert de waarde van een correlatiecoëfficiënt tussen −1 en +1. De correlatiecoëfficiënt is +1 in het geval van een perfecte directe (toenemende) lineaire relatie (correlatie), −1 in het geval van een perfecte omgekeerde (afnemende) lineaire relatie (anti-correlatie),[5] en enige waarde in de open interval in alle andere gevallen, die de mate van aangeven lineaire afhankelijkheid tussen de variabelen. Naarmate het nul nadert, is er minder een relatie (dichter bij niet -gecorreleerde). Hoe dichter de coëfficiënt is bij −1 of 1, hoe sterker de correlatie tussen de variabelen.

Als de variabelen zijn onafhankelijk, Pearson's correlatiecoëfficiënt is 0, maar het omgekeerde is niet waar omdat de correlatiecoëfficiënt alleen lineaire afhankelijkheden tussen twee variabelen detecteert.

Stel bijvoorbeeld de willekeurige variabele is symmetrisch verdeeld over nul, en . Dan wordt volledig bepaald door , zodat en zijn perfect afhankelijk, maar hun correlatie is nul; zij zijn niet gecorrigeerd. In het speciale geval echter wanneer en zijn gezamenlijk normaal, niet -gecorreleerdeheid is gelijk aan de onafhankelijkheid.

Hoewel niet -gecorreleerde gegevens niet noodzakelijkerwijs onafhankelijkheid impliceren, kan men controleren of willekeurige variabelen onafhankelijk zijn als hun wederzijdse informatie is 0.

Monstercorrelatiecoëfficiënt

Gegeven een reeks van Metingen van het paar geïndexeerd door , de monstercorrelatiecoëfficiënt kan worden gebruikt om de populatie Pearson -correlatie te schatten tussen en . De monstercorrelatiecoëfficiënt wordt gedefinieerd als

waar en zijn het monster middelen van en , en en zijn de Gecorrigeerde standaardafwijkingen van het monster van en .

Gelijkwaardige uitdrukkingen voor zijn

waar en zijn de ongecorrigeerd Standaardafwijkingen van het monster van en .

Als en zijn resultaten van metingen die meetfout bevatten, de realistische limieten voor de correlatiecoëfficiënt zijn niet -1 tot +1 maar een kleiner bereik.[6] Voor het geval van een lineair model met een enkele onafhankelijke variabele, de Bepalingscoëfficiënt (R Squared) is het kwadraat van , Pearson's productmomente coëfficiënt.

Voorbeeld

Houd rekening met de Joint waarschijnlijkheidsverdeling van X en Y gegeven in de onderstaande tabel.

y
x
−1 0 1
0 0 1/3 0
1 1/3 0 1/3

Voor deze gezamenlijke verdeling, de marginale distributies zijn:

Dit levert de volgende verwachtingen en varianties op:

Daarom:

Rangcorrelatiecoëfficiënten

Rangcorrelatie coëfficiënten, zoals Spearman's rangcorrelatiecoëfficiënt en Kendall's rangcorrelatiecoëfficiënt (τ) Meet de mate waarin, naarmate de ene variabele toeneemt, de andere variabele de neiging heeft toe te nemen, zonder dat die toename wordt weergegeven door een lineair verband. Als, naarmate de ene variabele toeneemt, de andere afnemen, de rangcorrelatiecoëfficiënten zullen negatief zijn. Het is gebruikelijk om deze rangcorrelatiecoëfficiënten te beschouwen als alternatieven voor de coëfficiënt van Pearson, die wordt gebruikt om de hoeveelheid berekening te verminderen of om de coëfficiënt minder gevoelig te maken voor niet-normaliteit in distributies. Deze visie heeft echter weinig wiskundige basis, omdat rangcorrelatiecoëfficiënten een ander type relatie meten dan de Pearson product-moment correlatiecoëfficiënt, en kunnen het beste worden gezien als maatregelen van een ander type associatie, in plaats van als een alternatieve maat voor de populatiecorrelatiecoëfficiënt.[7][8]

Overweeg de volgende vier paar getallen om de aard van rang correlatie en het verschil met lineaire correlatie te illustreren :

(0, 1), (10, 100), (101, 500), (102, 2000).

Terwijl we van elk paar naar het volgende paar gaan neemt toe, net als ook . Deze relatie is perfect, in de zin dat een toename van is altijd vergezeld van een toename van . Dit betekent dat we een perfecte rangcorrelatie hebben, en zowel de correlatiecoëfficiënten van Spearman als Kendall zijn 1, terwijl in dit voorbeeld Pearson Product-momentcorrelatiecoëfficiënt 0,7544 is, wat aangeeft dat de punten verre van op een rechte lijn liggen. Op dezelfde manier als altijd afnemen wanneer verhoogt, de rangcorrelatiecoëfficiënten zijn -1, terwijl de Pearson-productmoment correlatiecoëfficiënt al dan niet dicht bij −1 kan zijn, afhankelijk van hoe dicht de punten zijn aan een rechte lijn. Hoewel in de extreme gevallen van perfecte rangcorrelatie de twee coëfficiënten beide gelijk zijn (zowel +1 of beide −1), is dit in het algemeen niet het geval, en dus kunnen waarden van de twee coëfficiënten niet zinvol worden vergeleken.[7] Voor de drie paren (1, 1) (2, 3) (3, 2) is de coëfficiënt van Spearman bijvoorbeeld 1/2, terwijl de coëfficiënt van Kendall 1/3 is.

Andere maatregelen van afhankelijkheid tussen willekeurige variabelen

De informatie gegeven door een correlatiecoëfficiënt is niet voldoende om de afhankelijkheidsstructuur tussen willekeurige variabelen te definiëren.[9] De correlatiecoëfficiënt definieert de afhankelijkheidsstructuur alleen alleen in zeer specifieke gevallen, bijvoorbeeld wanneer de verdeling een multivariate normale verdeling. (Zie diagram hierboven.) In het geval van elliptische distributies Het kenmerkt de (hyper-) ellipsen van gelijke dichtheid; Het karakteriseert echter niet volledig de afhankelijkheidsstructuur (bijvoorbeeld een multivariate t-distributie's vrijheidsgraden bepalen het niveau van staartafhankelijkheid).

Afstandscorrelatie[10][11] werd geïntroduceerd om het tekort aan Pearson's correlatie aan te pakken dat het nul kan zijn voor afhankelijke willekeurige variabelen; Nul -afstandscorrelatie impliceert onafhankelijkheid.

De gerandomiseerde afhankelijkheidscoëfficiënt[12] is een computationeel efficiënte, copula-gebaseerde maat van afhankelijkheid tussen multivariate willekeurige variabelen. RDC is invariant met betrekking tot niet-lineaire schalen van willekeurige variabelen, is in staat om een ​​breed scala aan functionele associatiepatronen te ontdekken en neemt waarde nul bij onafhankelijkheid.

Voor twee binaire variabelen, de odds ratio Meet hun afhankelijkheid en neemt bereik niet-negatieve getallen, mogelijk oneindig: . Gerelateerde statistieken zoals Yule's Y en Yule's Q normaliseer dit naar het correlatieachtige bereik . De odds ratio wordt gegeneraliseerd door de logistiek model Om gevallen te modelleren waarin de afhankelijke variabelen discreet zijn en er een of meer onafhankelijke variabelen zijn.

De correlatieratio, entropiegebaseerd wederzijdse informatie, Totale correlatie, dubbele totale correlatie en polychorische correlatie zijn allemaal ook in staat om meer algemene afhankelijkheden te detecteren, net als in overweging van de copula tussen hen, terwijl de bepalingscoëfficiënt generaliseert de correlatiecoëfficiënt naar meervoudige regressie.

Gevoeligheid voor de gegevensverdeling

De mate van afhankelijkheid tussen variabelen X en Y Hangt niet af van de schaal waarop de variabelen worden uitgedrukt. Dat wil zeggen, als we de relatie tussen X en Y, de meeste correlatiemaatregelen worden niet beïnvloed door te transformeren X tot a + bx en Y tot c + dy, waar a, b, c, en d zijn constanten (b en d positief zijn). Dit geldt voor enige correlatie statistieken evenals hun bevolking analogen. Sommige correlatiestatistieken, zoals de rangcorrelatiecoëfficiënt, zijn ook invariant monotone transformaties van de marginale distributies van X en/of Y.

Pearson/Spearman correlatiecoëfficiënten tussen X en Y worden getoond wanneer de reeksen van de twee variabelen onbeperkt zijn, en wanneer het bereik van X is beperkt tot het interval (0,1).

De meeste correlatiemaatregelen zijn gevoelig voor de manier waarop X en Y worden bemonsterd. Afhankelijkheden zijn meestal sterker als ze worden bekeken over een breder bereik van waarden. Dus als we de correlatiecoëfficiënt tussen de hoogten van vaders en hun zonen over alle volwassen mannen beschouwen en deze vergelijken met dezelfde correlatiecoëfficiënt berekend wanneer de vaders worden geselecteerd als tussen 165 cm en 170 cm in hoogte, zal de correlatie zijn, de correlatie is zwakker in het laatste geval. Verschillende technieken zijn ontwikkeld die proberen te corrigeren voor bereikbeperking in één of beide variabelen en worden vaak gebruikt in meta-analyse; De meest voorkomende zijn Thorndike's Case II en Case III -vergelijkingen.[13]

Verschillende correlatiemaatregelen die in gebruik zijn, kunnen niet worden gedefinieerd voor bepaalde gezamenlijke verdelingen van X en Y. De Pearson -correlatiecoëfficiënt wordt bijvoorbeeld gedefinieerd in termen van momentenen daarom zal niet worden gedefinieerd als de momenten ongedefinieerd zijn. Maatregelen van afhankelijkheid op basis van kwantielen zijn altijd gedefinieerd. Op steekproef gebaseerde statistieken die bedoeld zijn om populatiemaatstaven van afhankelijkheid te schatten, kunnen al dan niet wenselijke statistische eigenschappen hebben zoals zijn onbevooroordeeld, of asymptotisch consistent, op basis van de ruimtelijke structuur van de populatie waaruit de gegevens werden bemonsterd.

Gevoeligheid voor de gegevensverdeling kan in een voordeel worden gebruikt. Bijvoorbeeld, Geschaalde correlatie is ontworpen om de gevoeligheid voor het bereik te gebruiken om correlaties tussen snelle componenten van tijdreeksen te kiezen.[14] Door het bereik van waarden op een gecontroleerde manier te verminderen, worden de correlaties op lange tijdschaal uitgefilterd en worden alleen de correlaties op korte tijdschalen onthuld.

Correlatiematrices

De correlatiematrix van willekeurige variabelen is de Matrix van wie Invoer is

De diagonale vermeldingen zijn dus allemaal identiek een. Als de gebruikte correlatiematen productmomente coëfficiënten zijn, is de correlatiematrix hetzelfde als de covariantiematrix van de gestandaardiseerde willekeurige variabelen voor . Dit geldt zowel op de matrix van bevolkingscorrelaties (in welk geval is de populatie standaardafwijking), en tot de matrix van steekproefcorrelaties (in welk geval geeft de standaardafwijking van het monster aan). Bijgevolg is elk noodzakelijkerwijs een positief-semidefinietmatrix. Bovendien is de correlatiematrix strikt positief gedefineerd Als geen enkele variabele al zijn waarden exact kan hebben gegenereerd als een lineaire functie van de waarden van de andere.

De correlatiematrix is ​​symmetrisch omdat de correlatie tussen en is hetzelfde als de correlatie tussen en .

Een correlatiematrix verschijnt bijvoorbeeld in één formule voor de Coëfficiënt van meerdere bepaling, een maat voor goedheid van fit erin meervoudige regressie.

In Statistische modellering, Correlatiematrices die de relaties tussen variabelen vertegenwoordigen, zijn onderverdeeld in verschillende correlatiestructuren, die worden onderscheiden door factoren zoals het aantal parameters dat nodig is om ze te schatten. Bijvoorbeeld in een uitwisselbaar Correlatiematrix, alle paren variabelen worden gemodelleerd als dezelfde correlatie, dus alle niet-diagonale elementen van de matrix zijn gelijk aan elkaar. Aan de andere kant, een autoregressief Matrix wordt vaak gebruikt wanneer variabelen een tijdreeks vertegenwoordigen, omdat correlaties waarschijnlijk groter zijn wanneer metingen dichterbij zijn. Andere voorbeelden zijn onafhankelijke, ongestructureerde, M-afhankelijke en Toeplitz.

In verkennende gegevensanalyse, de Iconografie van correlaties Bestaat uit het vervangen van een correlatiematrix door een diagram waarbij de "opmerkelijke" correlaties worden weergegeven door een ononderbroken lijn (positieve correlatie) of een stippellijn (negatieve correlatie).

Dichtstbijzijnde geldige correlatiematrix

In sommige toepassingen (bijv. Bouwgegevensmodellen uit slechts gedeeltelijk waargenomen gegevens) wil men de "dichtstbijzijnde" correlatiematrix vinden tot een "geschatte" correlatiematrix (bijv. Een matrix die meestal semi-definitieve positiviteit mist vanwege de manier waarop het is berekend).

In 2002, Higham[15] het idee van nabijheid geformaliseerd met behulp van de Frobenius Norm en bood een methode voor het berekenen van de dichtstbijzijnde correlatiematrix met behulp van de Dykstra's projectie -algoritme, waarvan een implementatie beschikbaar is als een online web -API.[16]

Dit wekte interesse in het onderwerp, met nieuwe theoretische (bijvoorbeeld het berekenen van de dichtstbijzijnde correlatiematrix met factorstructuur[17]) en numeriek (bijv. Gebruik van de Newton's methode Voor het berekenen van de dichtstbijzijnde correlatiematrix[18]) resultaten verkregen in de daaropvolgende jaren.

Niet gecorreleerdheid en onafhankelijkheid van stochastische processen

Evenzo voor twee stochastische processen en : Als ze onafhankelijk zijn, zijn ze niet gecorreleerd.[19]: p. 151 Het tegenovergestelde van deze verklaring is misschien niet waar. Zelfs als twee variabelen niet gecorreleerd zijn, zijn ze mogelijk niet onafhankelijk van elkaar.

Veel voorkomende misvattingen

Correlatie en causaliteit

Het conventionele dictum dat "Correlatie betekent geen oorzakelijk verband"betekent dat correlatie niet op zichzelf kan worden gebruikt om een ​​oorzakelijk verband tussen de variabelen af ​​te leiden.[20] Dit dictum moet niet worden beschouwd als dat correlaties niet kunnen wijzen op het potentiële bestaan ​​van causale relaties. De oorzaken die ten grondslag liggen aan de correlatie, indien van toepassing, kunnen echter indirect en onbekend zijn, en hoge correlaties overlappen elkaar ook identiteit relaties (tautologie), waar geen causaal proces bestaat. Bijgevolg is een correlatie tussen twee variabelen geen voldoende voorwaarde om een ​​causaal verband tot stand te brengen (in beide richtingen).

Een verband tussen leeftijd en lengte bij kinderen is redelijk causaal transparant, maar een correlatie tussen stemming en gezondheid bij mensen is minder. Leidt een verbeterde stemming tot een verbeterde gezondheid, of leidt een goede gezondheid tot een goed humeur, of beide? Of ligt een andere factor ten grondslag aan beide? Met andere woorden, een correlatie kan worden opgevat als bewijs voor een mogelijk causaal verband, maar kan niet aangeven wat de causale relatie, indien van toepassing, zou kunnen zijn.

Eenvoudige lineaire correlaties

Anscombe's kwartet: vier sets gegevens met dezelfde correlatie van 0,816

De Pearson -correlatiecoëfficiënt geeft de sterkte aan van een lineair Relatie tussen twee variabelen, maar de waarde ervan karakteriseert in het algemeen hun relatie niet volledig.[21] In het bijzonder als de Voorwaardelijk gemiddelde van gegeven , aangeduid , is niet lineair in , de correlatiecoëfficiënt zal de vorm van niet volledig bepalen .

De aangrenzende afbeelding wordt weergegeven spread plots van Anscombe's kwartet, een set van vier verschillende paren variabelen gemaakt door Francis Anscombe.[22] De vier Variabelen hebben hetzelfde gemiddelde (7.5), variantie (4.12), correlatie (0,816) en regressielijn (y= 3+0,5x). Zoals te zien is op de plots, is de verdeling van de variabelen echter heel anders. De eerste (linksboven) lijkt normaal te worden verdeeld en komt overeen met wat men zou verwachten bij het overwegen van twee variabelen gecorreleerd en na de veronderstelling van normaliteit. De tweede (rechtsboven) is niet normaal verdeeld; Hoewel een voor de hand liggende relatie tussen de twee variabelen kan worden waargenomen, is het niet lineair. In dit geval geeft de Pearson -correlatiecoëfficiënt niet aan dat er een exacte functionele relatie is: alleen de mate waarin die relatie kan worden benaderd door een lineaire relatie. In het derde geval (linksonder) is de lineaire relatie perfect, behalve één uitbijter die voldoende invloed heeft om de correlatiecoëfficiënt te verlagen van 1 tot 0,816. Ten slotte toont het vierde voorbeeld (rechtsonder) een ander voorbeeld wanneer een uitbijter voldoende is om een ​​hoge correlatiecoëfficiënt te produceren, hoewel de relatie tussen de twee variabelen niet lineair is.

Deze voorbeelden geven aan dat de correlatiecoëfficiënt, als een Samenvatting Statistiek, kan het visuele onderzoek van de gegevens niet vervangen. De voorbeelden worden soms gezegd om aan te tonen dat de Pearson -correlatie ervan uitgaat dat de gegevens een normale verdeling, maar dit is slechts gedeeltelijk correct.[4] De Pearson -correlatie kan nauwkeurig worden berekend voor elke verdeling die een eindige heeft covariantiematrix, waaronder de meeste distributies die in de praktijk zijn aangetroffen. De Pearson -correlatiecoëfficiënt (samen met het monstergemiddelde en de variantie) is echter slechts een voldoende statistiek Als de gegevens worden getrokken uit een multivariate normale verdeling. Als gevolg hiervan karakteriseert de Pearson -correlatiecoëfficiënt de relatie tussen variabelen volledig als en alleen als de gegevens worden getrokken uit een multivariate normale verdeling.

Bivariate normale verdeling

Als een paar van willekeurige variabelen volgt een Bivariate normale verdeling, het voorwaardelijke gemiddelde is een lineaire functie van , en het voorwaardelijke gemiddelde is een lineaire functie van . De correlatiecoëfficiënt tussen en , samen met de marginaal Middelen en varianties van en , bepaalt deze lineaire relatie:

waar en zijn de verwachte waarden van en , respectievelijk, en en zijn de standaardafwijkingen van en , respectievelijk.


De empirische correlatie is een schatting van de correlatiecoëfficiënt . Een schatting van de verdeling voor is gegeven door

waar is de Gaussiaanse hypergeometrische functie en . Deze dichtheid is beide een Bayesiaan achterste dichtheid en een exacte optimale vertrouwensverdeling dikte.[23][24]

Zie ook

Referenties

  1. ^ Croxton, Frederick Emory; Cowden, Dudley Johnstone; Klein, Sidney (1968) Algemene statistieken toegepast, Pitman. ISBN9780273403159 (pagina 625)
  2. ^ Dietrich, Cornelius Frank (1991) Onzekerheid, kalibratie en waarschijnlijkheid: de statistieken van wetenschappelijke en industriële meting 2e editie, A. Higler. ISBN9780750300605 (pagina 331)
  3. ^ Aitken, Alexander Craig (1957) Statistische wiskunde 8e editie. Oliver & Boyd. ISBN9780050013007 (pagina 95)
  4. ^ a b Rodgers, J. L.; NICEWANDER, W. A. ​​(1988). "Dertien manieren om naar de correlatiecoëfficiënt te kijken". De Amerikaanse statisticus. 42 (1): 59–66. doen:10.1080/00031305.1988.10475524. Jstor 2685263.
  5. ^ Dowdy, S. en Wearden, S. (1983). "Statistieken voor onderzoek", Wiley. ISBN0-471-08602-9 pp 230
  6. ^ Francis, DP; Jassen aj; Gibson D (1999). "Hoe hoog kan een correlatiecoëfficiënt zijn?". Int j cardiol. 69 (2): 185–199. doen:10.1016/s0167-5273 (99) 00028-5. Pmid 10549842.
  7. ^ a b Yule, G.U en Kendall, M.G. (1950), "Een inleiding tot de theorie van de statistieken", 14e editie (5e indruk 1968). Charles Griffin & Co. pp 258–270
  8. ^ Kendall, M. G. (1955) "Rankcorrelatiemethoden", Charles Griffin & Co.
  9. ^ Mahdavi Damghani B. (2013). "De niet-ontelbare waarde van afgeleide correlatie: een inleiding tot het co-intelatiemodel". Wilmott magazine. 2013 (67): 50–61. doen:10.1002/Wilm.10252.
  10. ^ Székely, G. J. Rizzo; Bakirov, N. K. (2007). "Het meten en testen van onafhankelijkheid door correlatie van afstanden". Annals of Statistics. 35 (6): 2769–2794. arxiv:0803.4101. doen:10.1214/009053607000000505. S2CID 5661488.
  11. ^ Székely, G. J.; Rizzo, M. L. (2009). "Brownse afstand covariantie". Annals of Applied Statistics. 3 (4): 1233–1303. arxiv:1010.0297. doen:10.1214/09-AOAS312. PMC 2889501. Pmid 20574547.
  12. ^ Lopez-Paz D. en Hennig P. en Schölklopf B. (2013). "De gerandomiseerde afhankelijkheidscoëfficiënt", "Conferentie over neurale informatieverwerkingssystemen" Herdruk
  13. ^ Thorndike, Robert Ladd (1947). Onderzoeksproblemen en technieken (rapport nr. 3). Washington DC: US ​​Govt. afdrukken. uit.
  14. ^ Nikolić, D; Muresan, RC; Feng, W; Singer, W (2012). "Geschaalde correlatieanalyse: een betere manier om een ​​kruiscorrelogram te berekenen". European Journal of Neuroscience. 35 (5): 1–21. doen:10.1111/j.1460-9568.2011.07987.x. Pmid 22324876. S2CID 4694570.
  15. ^ Higham, Nicholas J. (2002). "De dichtstbijzijnde correlatiematrix berekenen - een probleem uit financiën". IMA Journal of Numerical Analysis. 22 (3): 329–343. Citeseerx 10.1.1.661.2180. doen:10.1093/imanum/22.3.329.
  16. ^ "Portfolio Optimizer". Portfoliooptimizer.io/. Opgehaald 2021-01-30.
  17. ^ Borsdorf, Rudiger; Higham, Nicholas J.; Raydan, Marcos (2010). "Een dichtstbijzijnde correlatiematrix berekenen met factorstructuur" (PDF). Siam J. Matrix Anal. Toepassing. 31 (5): 2603–2622. doen:10.1137/090776718.
  18. ^ Qi, Houduo; Sun, Defeng (2006). "Een kwadratisch convergente Newton -methode voor het berekenen van de dichtstbijzijnde correlatiematrix". Siam J. Matrix Anal. Toepassing. 28 (2): 360–385. doen:10.1137/050624509.
  19. ^ Park, Kun IL (2018). Fundamentals of waarschijnlijkheid en stochastische processen met toepassingen bij communicatie. Springer. ISBN 978-3-319-68074-3.
  20. ^ Aldrich, John (1995). "Correlaties oprecht en vals in Pearson en Yule". Statistische wetenschap. 10 (4): 364–376. doen:10.1214/ss/1177009870. Jstor 2246135.
  21. ^ Mahdavi Damghani, Babak (2012). "De misleidende waarde van gemeten correlatie". Wilmott magazine. 2012 (1): 64–73. doen:10.1002/Wilm.10167. S2CID 154550363.
  22. ^ Anscombe, Francis J. (1973). "Grafieken in statistische analyse". De Amerikaanse statisticus. 27 (1): 17–21. doen:10.2307/2682899. Jstor 2682899.
  23. ^ Taraldsen, Gunnar (2021). "De betrouwbaarheidsdichtheid voor correlatie". Sankhya a. doen:10.1007/S13171-021-00267-Y. ISSN 0976-8378. S2CID 244594067.
  24. ^ Taraldsen, Gunnar (2020). "Vertrouwen in correlatie". doen:10.13140/rg.2.2.23673.49769. {{}}: Cite Journal vereist |journal= (helpen)

Verder lezen

  • Cohen, J.; Cohen P.; West, S.G. & Aiken, L.S. (2002). Pas meerdere regressie/correlatieanalyse toe voor de gedragswetenschappen (3e ed.). Psychology Press. ISBN 978-0-8058-2223-6.
  • "Correlatie (in statistieken)", Encyclopedie van wiskunde, EMS Press, 2001 [1994]
  • Oestreicher, J. & D. R. (26 februari 2015). Pest van gelijken: een wetenschappelijke thriller van internationale ziekte, politiek en drugsontdekking.Californië: Omega Cat Press.p.408. ISBN 978-0963175540.

Externe links