Canonieke correlatie
In statistieken, Canoniek-correlatieanalyse (CCA), ook wel genoemd Canonieke variatieanalyse, is een manier om informatie uit te voeren uit Cross-covariantiematrices. Als we twee vectoren hebben X= (X1, ...,Xn) en Y= (Y1, ...,Ym) van willekeurige variabelen, en er zijn correlaties Onder de variabelen zal de canonieke correlatieanalyse lineaire combinaties vinden van X en Y die maximale correlatie met elkaar hebben.[1] T. R. Knapp merkt op dat "vrijwel alle algemeen aangetroffen parametrische tests van significantie kan worden behandeld als speciale gevallen van canoniek-correlatie-analyse, wat de algemene procedure is voor het onderzoeken van de relaties tussen twee sets variabelen. "[2] De methode werd voor het eerst geïntroduceerd door Harold Hotelling in 1936,[3] Hoewel in de context van hoeken tussen flats Het wiskundige concept werd gepubliceerd door Jordan in 1875.[4]
Definitie
Gegeven twee kolomvectoren en van willekeurige variabelen met eindig Tweede momenten, men kan de cross-covariantie om de ... te zijn Matrix van wie Inzending is de covariantie . In de praktijk zouden we de covariantiematrix schatten op basis van bemonsterde gegevens van en (d.w.z. uit een paar datamatrices).
Canoniek-correlatieanalyse zoekt vectoren (() en () zodanig dat de willekeurige variabelen en maximaliseer de correlatie . De (scalaire) willekeurige variabelen en zijn de Eerste paar canonieke variabelen. Vervolgens zoekt men vectoren die dezelfde correlatie maximaliseren, onder voorbehoud van de beperking dat ze niet gecorrigeerd moeten zijn met het eerste paar canonieke variabelen; Dit geeft de Tweede paar canonieke variabelen. Deze procedure kan worden voortgezet keer.
Berekening
Afleiding
Laten wees de Cross-covariantiematrix Voor een paar (vectorvormige) willekeurige variabelen en . De doelfunctie om te maximaliseren is
De eerste stap is om een Verandering van basis en definiëren
En dus hebben we dat
Door de Cauchy - Schwarz ongelijkheid, wij hebben
Er is gelijkheid als de vectoren en zijn collineair. Bovendien wordt het maximum van de correlatie bereikt als is de eigenvector met de maximale eigenwaarde voor de matrix (zien Rayleigh quotiënt). De volgende paren worden gevonden met behulp van eigenwaarden van afnemende magnitudes. Orthogonaliteit wordt gegarandeerd door de symmetrie van de correlatiematrices.
Een andere manier om deze berekening te bekijken is dat en zijn links en rechts enkelvoudige vectoren van de correlatiematrix van X en Y overeenkomend met de hoogste enkelvoudige waarde.
Oplossing
De oplossing is daarom:
- is een eigenvector van
- Is evenredig met
Wederzijds, er is ook:
- is een eigenvector van
- Is evenredig met
Dat omkeren de verandering van coördinaten, hebben we dat
- is een eigenvector van ,
- Is evenredig met
- is een eigenvector van
- Is evenredig met .
De canonieke variabelen worden gedefinieerd door:
Implementatie
CCA kan worden berekend met behulp van singuliere waarden ontbinding op een correlatiematrix.[5] Het is beschikbaar als functie in[6]
- Matlab net zo canoncorr (ook in Octaaf)
- R als de standaardfunctie annuleren en verschillende andere pakketten, waaronder CCA en veganistisch. CCP Voor statistische hypothese -testen in canonieke correlatieanalyse.
- SAS net zo Proc Cancorr
- Python in de bibliotheek Scikit-Learn, net zo Cross -ontleding en in statusmodellen, net zo Annuleren.
- SPSS als macro -annulering verzonden met de hoofdsoftware
- Julia (programmeertaal) in de Multivariatestats.jl pakket.
CCA -berekening met behulp van singuliere waarden ontbinding op een correlatiematrix is gerelateerd aan de cosinus van de hoeken tussen flats. De cosinus functie is slecht geconditioneerd Voor kleine invalshoeken, wat leidt tot een zeer onnauwkeurige berekening van sterk gecorreleerde hoofdvectoren in eindig nauwkeurigheid computer rekenkunde. Tot Los deze problemen op, alternatieve algoritmen[7] zijn beschikbaar in
Hypothesetesten
Elke rij kan worden getest op significantie met de volgende methode. Omdat de correlaties zijn gesorteerd, zeggend die rij is nul impliceert dat alle verdere correlaties ook nul zijn. Als we hebben onafhankelijke waarnemingen in een monster en is de geschatte correlatie voor . Voor de De rij, de teststatistiek is:
die asymptotisch wordt verdeeld als een chi-kwadraat met graden van vrijheid voor groot .[8] Sinds alle correlaties van tot zijn logisch nul (en op die manier ook geschat) Het product voor de voorwaarden na dit punt is niet relevant.
Merk op dat in de kleine limiet van de steekproef met dan zijn we gegarandeerd dat de top Correlaties zullen identiek 1 zijn en daarom is de test zinloos.[9]
Praktisch gebruik
Een typisch gebruik voor canonieke correlatie in de experimentele context is om twee sets variabelen te nemen en te zien wat gebruik is van de twee sets.[10] Bij psychologische testen zou je bijvoorbeeld twee goed gevestigde multidimensionaal kunnen nemen Persoonlijkheidstests zoals de Minnesota Multiphasic Personality Inventory (MMPI-2) en de Neo. Door te zien hoe de MMPI-2-factoren zich verhouden tot de NEO-factoren, zou men inzicht kunnen krijgen in welke dimensies gebruikelijk waren tussen de tests en hoeveel variantie werd gedeeld. Je zou bijvoorbeeld kunnen vinden dat een extraversie of neuroticisme Dimensie was goed voor een aanzienlijke hoeveelheid gedeelde variantie tussen de twee tests.
Men kan ook canonieke correlatie-analyse gebruiken om een modelvergelijking te produceren die twee sets variabelen relateert, bijvoorbeeld een reeks prestatiemaatstaven en een set verklarende variabelen, of een set uitgangen en set ingangen. Beperkingsbeperkingen kunnen aan een dergelijk model worden opgelegd om ervoor te zorgen dat het theoretische vereisten of intuïtief voor de hand liggende voorwaarden weerspiegelt. Dit type model staat bekend als een maximaal correlatiemodel.[11]
Visualisatie van de resultaten van canonieke correlatie is meestal door staafplots van de coëfficiënten van de twee sets variabelen voor de paren canonieke variaties die een significante correlatie vertonen. Sommige auteurs suggereren dat ze het best worden gevisualiseerd door ze te plotten als heliographs, een cirkelvormig formaat met straalachtige staven, waarbij elke helft de twee sets variabelen weergeeft.[12]
Voorbeelden
Laten met nul verwachte waarde, d.w.z. .
- Als , d.w.z. en zijn dan perfect gecorreleerd, b.v. en , zodat het eerste (en alleen in dit voorbeeld) paar canonieke variabelen is en .
- Als , d.w.z. en zijn dus perfect gecorrigeerd, b.v. en , zodat het eerste (en alleen in dit voorbeeld) paar canonieke variabelen is en .
Dat merken we in beide gevallen , die illustreert dat de canonieke correlatieanalyse op dezelfde manier gecorreleerde en anticorrelateerde variabelen behandelt.
Verbinding met hoofdhoeken
In de veronderstelling dat en hebben nul verwachte waarden, d.w.z. , hun covariantie matrices en kan worden gezien als Grammatrices in een innerlijk product voor de inzendingen van en , dienovereenkomstig. In deze interpretatie, de willekeurige variabelen, vermeldingen van en van worden behandeld als elementen van een vectorruimte met een innerlijk product gegeven door de covariantie ; zien Covariantie#relatie met innerlijke producten.
De definitie van de canonieke variabelen en is dan gelijkwaardig aan de definitie van Hoofdvectoren voor het paar subruimten overspanning door de inzendingen van en Met betrekking tot dit innerlijk product. De canonieke correlaties is gelijk aan de cosinus van hoofdhoeken.
Whitening en probabilistische canonieke correlatieanalyse
CCA kan ook worden gezien als een special Whitening -transformatie waar de willekeurige vectoren en worden tegelijkertijd zo getransformeerd dat de kruiscorrelatie tussen de witte vectoren en is diagonaal.[13] De canonieke correlaties worden vervolgens geïnterpreteerd als regressiecoëfficiënten met koppeling en en kan ook negatief zijn. De regressiebetaus van CCA biedt ook een manier om een latente variabele probabilistisch generatief model voor CCA te construeren, met niet-gecorreleerde verborgen variabelen die gedeelde en niet-gescheiden variabiliteit vertegenwoordigen.
Zie ook
- Gegeneraliseerde canonieke correlatie
- RV -coëfficiënt
- Hoeken tussen flats
- Hoofdcomponentanalyse
- Lineaire discriminerende analyse
- Geregulariseerde canonieke correlatieanalyse
- Singuliere waarden ontbinding
- Gedeeltelijke kleinste vierkantenregressie
Referenties
- ^ Härdle, Wolfgang; Simar, Léopold (2007). "Canonieke correlatieanalyse". Multivariate statistische analyse toegepast. pp. 321–330. Citeseerx 10.1.1.324.403. doen:10.1007/978-3-540-72244-1_14. ISBN 978-3-540-72243-4.
- ^ Knapp, T. R. (1978). "Canonieke correlatieanalyse: een algemeen parametrisch significantietestsysteem". Psychologisch bulletin. 85 (2): 410–416. doen:10.1037/0033-2909.85.2.410.
- ^ Hotelling, H. (1936). "Relaties tussen twee sets variaties". Biometrika. 28 (3–4): 321–377. doen:10.1093/Biomet/28.3-4.321. Jstor 2333955.
- ^ Jordan, C. (1875). "Essai Sur la Géométrie à dimensies". Stier. Soc. Wiskunde. Frankrijk. 3: 103.
- ^ Hsu, D.; Kakade, S. M.; Zhang, T. (2012). "Een spectraal algoritme voor het leren van verborgen Markov -modellen" (PDF). Journal of Computer and System Sciences. 78 (5): 1460. arxiv:0811.4413. doen:10.1016/j.jcs.2011.12.025.
- ^ Huang, S. Y.; Lee, M. H.; Hsiao, C. K. (2009). "Niet -lineaire maatregelen van associatie met kernel canonieke correlatieanalyse en toepassingen" (PDF). Journal of Statistical Planning and Inference. 139 (7): 2162. doen:10.1016/j.jspi.2008.10.011.
- ^ Knyazev, A.V.; Argentati, M.E. (2002), "Belangrijkste hoeken tussen subruimten in een A-gebaseerd scalair product: algoritmen en schattingen van perturbatie", Siam Journal on Scientific Computing, 23 (6): 2009–2041, Citeseerx 10.1.1.73.2914, doen:10.1137/s1064827500377332
- ^ Kanti V. Mardia, J. T. Kent en J. M. Bibby (1979). Multivariate analyse. Academische pers.
- ^ Yang Song, Peter J. Schreier, David Ram´ırez en Tanuj Hasija Canonieke correlatieanalyse van hoog-dimensionale gegevens met zeer kleine steekproefondersteuning arxiv:1604.02047
- ^ Sieranoja, S.; Sahidullah, MD; Kinnunen, T.; Komulainen, J.; Hadid, A. (juli 2018). "Audiovisual Synchrony Detectie met geoptimaliseerde audiofuncties" (PDF). IEEE 3e int. Conferentie over signaal- en beeldverwerking (ICSIP 2018).
- ^ Tofallis, C. (1999). "Modelopbouw met meerdere afhankelijke variabelen en beperkingen". Journal of the Royal Statistical Society, Series D. 48 (3): 371–378. arxiv:1109.0725. doen:10.1111/1467-9884.00195.
- ^ Degani, A.; Shafto, M.; Olson, L. (2006). "Canonieke correlatieanalyse: gebruik van samengestelde heliografen voor het weergeven van meerdere patronen" (PDF). Schematische weergave en gevolgtrekking. Lecture Notes in Computer Science. Vol. 4045. p. 93. Citeseerx 10.1.1.538.5217. doen:10.1007/11783183_11. ISBN 978-3-540-35623-3.
- ^ Jendoubi, T.; Strimmer, K. (2018). "Een blekenbenadering van probabilistische canonieke correlatieanalyse voor omics -gegevensintegratie". BMC bioinformatica. 20 (1): 15. arxiv:1802.03490. doen:10.1186/s12859-018-2572-9. PMC 6327589. Pmid 30626338.
Externe links
- Discriminerende correlatieanalyse (DCA)[1] (Matlab)
- Hardoon, D. R.; Szedmak, S.; Shawe-Taylor, J. (2004). "Canonieke correlatieanalyse: een overzicht met toepassing op leermethoden". Neurale berekening. 16 (12): 2639–2664. Citeseerx 10.1.1.14.6452. doen:10.1162/0899766042321814. Pmid 15516276.
- Een opmerking over de ordinale canoniek-correlatieanalyse van twee sets rangschikkingsscores (Biedt ook een Fortran Programma)- In Journal of Quantitative Economics 7 (2), 2009, pp. 173–199
- Representatie-beperkte canonieke correlatieanalyse: een hybridisatie van canonieke correlatie- en hoofdcomponentanalyses (Biedt ook een Fortran Programma)- In Journal of Applied Economic Sciences 4 (1), 2009, pp. 115–124
- ^ Haghighat, Mohammad; Abdel-Mottaleb, Mohamed; Alhalabi, Wadee (2016). "Discriminerende correlatieanalyse: realtime functieniveau fusie voor multimodale biometrische herkenning". IEEE -transacties op informatie -forensisch onderzoek en beveiliging. 11 (9): 1984–1996. doen:10.1109/tifs.2016.2569061.