Correspondentieanalyse

Correspondentieanalyse (CA) is een multivariate statistische techniek voorgesteld[1] door Herman Otto Hartley (Hirschfeld)[2] en later ontwikkeld door Jean-Paul Benzécri.[3] Het is conceptueel vergelijkbaar met Hoofdcomponentanalyse, maar is van toepassing op categorische in plaats van continue gegevens.Op een vergelijkbare manier als principale componentanalyse biedt het een middel om een set gegevens in tweedimensionale grafische vorm weer te geven of samen te vatten.Het doel is om weer te geven in een tweedekker Elke structuur verborgen in de multivariate instelling van de gegevenstabel.Als zodanig is het een techniek uit het gebied van multivariate bevalling.Aangezien de hier beschreven variant van CA kan worden toegepast met een focus op de rijen of op de kolommen, moet deze in feite worden aangeroepen Eenvoudige (symmetrische) correspondentieanalyse.[4]

Het wordt traditioneel toegepast op de rampentabel van een paar nominale variabelen waarbij elke cel een telling of een nulwaarde bevat.Als er meer dan twee categorische variabelen moeten worden samengevat, wordt een variant genoemd Meerdere correspondentieanalyse moet in plaats daarvan worden gekozen.CA kan ook worden toegepast op binaire data Gezien de aanwezigheid/afwezigheidscodering vertegenwoordigt vereenvoudigde telgegevens, d.w.z. een 1 beschrijft een positieve telling en 0 staat voor een telling van nul.Afhankelijk van de gebruikte scores behoudt CA de chi-kwadraatafstand[5][6] tussen de rijen of de kolommen van de tabel.Omdat CA een beschrijvende techniek is, kan het worden toegepast op tabellen, ongeacht een significante Chisquared Test.[7][8] Hoewel de statistiek gebruikt in inferentiële statistieken en de chikwadraatafstand is rekenkundig gerelateerd, ze moeten niet in de war raken, omdat deze laatste werkt als een multivariate statistische afstand meet in ca terwijl de Statistiek is in feite een scalair- geen metriek.[9]

Details

Graag willen Analyse van de belangrijkste componenten, correspondentie -analyse creëert orthogonaal Componenten (of assen) en, voor elk item in een tabel, d.w.z. voor elke rij, zie een set scores (soms factor scores genoemd, zie Factoren analyse).Correspondentieanalyse wordt uitgevoerd op de gegevenstabel, opgevat als matrix C van grootte m×n waar m is het aantal rijen en n is het aantal kolommen.Verwijst in de volgende wiskundige beschrijving van de methode hoofdletters in cursief naar een Matrix Terwijl letters in cursief verwijzen vectoren.Inzicht in de volgende berekeningen vereist kennis van matrixalgebra.

Voorbewerking

Voordat u naar de centrale rekenstap van het algoritme gaat, de waarden in matrix C moeten worden getransformeerd.[10] Bereken eerst een set gewichten voor de kolommen en de rijen (soms genoemd massa),[11][12] waarbij respectievelijk rij- en kolomgewichten worden gegeven door de rij- en kolomvectoren:

Hier is de som van alle celwaarden in matrix Cof kort de som van C, en is een kolom vector van degenen met de juiste dimensie.

In eenvoudige woorden, is slechts een vector waarvan de elementen de rijen zijn van C gedeeld door de som van C, en is een vector waarvan de elementen de kolomsommen zijn van C gedeeld door de som van C.

De gewichten worden omgezet in diagonale matrices

en

waar de diagonale elementen van zijn en die van zijn respectievelijk d.w.z. de vectorelementen zijn de omkeren van de vierkante wortels van de massa.De off-diagonale elementen zijn allemaal 0.

Bereken matrix vervolgens door te delen door zijn som

In eenvoudige woorden, matrix is alleen de gegevensmatrix (contingentietabel of binaire tabel) omgezet in delen, d.w.z. elke celwaarde is slechts het celgedeelte van de som van de hele tabel.

Eindelijk, Compute Matrix , soms de matrix genoemd van gestandaardiseerde residuen,[13] door Matrix vermenigvuldiging net zo

Let op, de vectoren en worden gecombineerd in een buitenste product resulterend in een matrix van hetzelfde dimensies net zo .In woorden luidt de formule: Matrix wordt afgetrokken van matrix en de resulterende matrix wordt geschaald (gewogen) door de diagonale matrices en .Het vermenigvuldigen van de resulterende matrix met de diagonale matrices is equivalent om de i-de rij (of kolom) ervan te vermenigvuldigen met het i-de element van de diagonaal van of respectievelijk[14].

Interpretatie van voorbewerking

De vectoren en zijn de rij- en kolommassa's of de marginale kansen voor respectievelijk de rijen en kolommen.Matrix aftrekken van matrix is de Matrix Algebra -versie van Double centreren de data.Dit verschil vermenigvuldigen met de diagonale wegingsmatrices resulteert in een matrix die gewogen afwijkingen van de oorsprong van een Vector ruimte.Deze oorsprong wordt gedefinieerd door matrix .

In feite matrix is identiek aan de matrix van Verwachte frequenties in de Chi-kwadraat test. Daarom is computationeel gerelateerd aan het onafhankelijkheidsmodel dat in die test wordt gebruikt.Maar omdat CA is niet Een inferentiële methode Het term onafhankelijkheidsmodel is hier ongepast.

Orthogonale componenten

De tafel wordt dan ontbonden[10] door een singuliere waarden ontbinding net zo

waar en zijn de linker en rechter enkelvoudige vectoren van en is een vierkante diagonale matrix met de enkelvoudige waarden van op de diagonaal. is van dimensie Vandaar is van dimensie m × p en is van n × p. EENs orthonormale vectoren en vervullen

.

Met andere woorden, de multivariate informatie die is opgenomen in evenals in is nu verdeeld over twee (coördinaat) matrices en en een diagonale (schaal) matrix .De door hen gedefinieerde vectorruimte heeft als aantal dimensies P, dat wil zeggen de kleinere van de twee waarden, het aantal rijen en het aantal kolommen, min 1.

Luiheid

Hoewel een principale componentanalyse kan worden gezegd Ontbind de (CO) variantieen daarom is de maatstaf voor succes de hoeveelheid (co-) variantie die wordt behandeld door de eerste paar PCA -assen -gemeten in eigenwaarde -, een CA werkt met een gewogen (co-) variantie die wordt genoemd luiheid.[15] De som van de kwadratische enkelvoudige waarden is de Totale traagheid van de gegevenstabel, berekend als

De Totale traagheid van de gegevenstabel kan ook rechtstreeks uit net zo

De hoeveelheid traagheid die wordt afgedekt door de I-de set enkelvoudige vectoren is , de hoofd traagheid. Hoe hoger het traagheidsgedeelte dat wordt bedekt door de eerste paar enkelvoudige vectoren, d.w.z. hoe groter de som van de belangrijkste traagheid in vergelijking met de totale traagheid, hoe succesvoller een CA is.[15] Daarom worden alle belangrijkste traagheidswaarden uitgedrukt als portie van de totale traagheid

en worden gepresenteerd in de vorm van een klasplot.In feite is een scree -plot slechts een barplot van alle hoofdnotertertie -delen .

Coördineert

Om de enkelvoudige vectoren te transformeren naar coördinaten die de Chisquare -afstanden tussen rijen of kolommen behouden, is een extra wegingsstap noodzakelijk.De resulterende coördinaten worden genoemd hoofdcoördinaten[10] In CA -tekstboeken.Als hoofdcoördinaten worden gebruikt voor rijen, wordt hun visualisatie een rij isometrisch[16] schalen in econometrie en Schalen 1[17] in ecologie.Omdat de weging de enkelvoudige waarden omvat van de matrix van gestandaardiseerde residuen Deze coördinaten worden soms aangeduid als enkelvoudige waarde geschaalde enkelvoudige vectoren, of, een beetje misleidend, als eigenwaarde geschaalde eigenvectoren.In feite de niet-triviale eigenvectoren van zijn de linkse enkelvoudige vectoren van en die van zijn de juiste enkelvoudige vectoren van Terwijl de eigenwaarden van een van deze matrices de vierkanten van de enkelvoudige waarden zijn .Maar omdat alle moderne algoritmen voor CA zijn gebaseerd op een ontleding van een enkelvoudige waarde, moet deze terminologie worden vermeden.In de Franse traditie van CA worden de coördinaten soms genoemd (factor) scores.

Factor scores of hoofdcoördinaten voor de rijen matrix C worden berekend door

d.w.z. de linkerfectoren worden geschaald door het omgekeerde van de vierkante wortels van de rijmassa's en door de enkelvoudige waarden.Omdat hoofdcoördinaten worden berekend met behulp van enkelvoudige waarden, bevatten ze de informatie over de verspreiding tussen de rijen (of kolommen) in de oorspronkelijke tabel.Het berekenen van de Euclidische afstanden tussen de entiteiten in hoofdcoördinaten resulteert in waarden die gelijk zijn aan hun Chisquare -afstanden, wat de reden is waarom CA wordt gezegd "Behoud chisquare afstanden".

Bereken de belangrijkste coördinaten voor de kolommen door


Om het resultaat van CA in een juiste te vertegenwoordigen tweedekker, die categorieën die zijn niet uitgezet in hoofdcoördinaten, d.w.z. in chisquare afstand die coördinaten behouden, moeten in zogenaamde worden uitgezet Standaardcoördinaten.[10] Ze worden standaardcoördinaten genoemd omdat elke vector van standaardcoördinaten gestandaardiseerd is om gemiddelde 0 en variantie 1 te vertonen.[18] Bij het berekenen van standaardcoördinaten worden de enkelvoudige waarden weggelaten, wat een direct gevolg is van het toepassen van de tweedekkerregel waardoor een van de twee sets van enkelvoudige vectormatrices moet worden geschaald door enkelvoudige waarden die tot de kracht van nul zijn verhoogd, d.w.z. vermenigvuldigd met een d.w.z. berekend door het weglaten van de enkelvoudige waarden als de andere set enkelvoudige vectoren zijn geschaald door de Singuar -waarden.Dit stelt het bestaan van een innerlijk product Tussen de twee sets coördinaten, d.w.z. het leidt tot zinvolle interpretaties van hun ruimtelijke relaties in een tweedekker.

In praktische termen kan men de standaardcoördinaten beschouwen als de hoekpunten van de vectorruimte waarin de set van hoofdcoördinaten (d.w.z. de respectieve punten) "bestaat".[19] De standaardcoördinaten voor de rijen zijn

en die voor de kolommen zijn

Merk op dat een Schalen 1[17] tweedekker in ecologie impliceert de rijen die in principaal moeten staan en de kolommen om in standaardcoördinaten te zijn terwijl Schalen 2 impliceert de rijen die in standaard zijn en de kolommen in hoofdcoördinaten.D.w.z.Schalen 1 impliceert een tweedeling van samen met Terwijl het schalen van 2 een tweedeling van impliceert samen met .

Grafische weergave van het resultaat

De visualisatie van een CA -resultaat begint altijd met het weergeven van de scree -plot van de belangrijkste traagheidswaarden om het succes van samenvattende verspreiding door de eerste paar enkelvoudige vectoren te evalueren.

De daadwerkelijke wijding wordt gepresenteerd in een grafiek die - in eerste instantie kan worden verward met een ingewikkeld spreidingsplot.In feite bestaat het uit twee spreidingsplots op de andere, een reeks punten voor de rijen en één voor de kolommen.Maar als een tweedeling zijn een duidelijke interpretatieregel de twee gebruikte coördinaatmatrices.

Gewoonlijk worden de eerste twee dimensies van de CA -oplossing uitgezet omdat ze het maximum aan informatie over de gegevenstabel omvatten die in 2D kan worden weergegeven, hoewel andere combinaties van dimensies kunnen worden onderzocht door een tweedekker.Een tweedekker is in feite een lage dimensionaal in kaart brengen van een deel van de informatie in de oorspronkelijke tabel.

Als vuistregel (rijen of kolommen) die moeten worden geanalyseerd met betrekking tot de samenstelling ervan zoals gemeten door de andere set wordt weergegeven in hoofdcoördinaten, terwijl de andere set wordt weergegeven in standaardcoördinaten.Bijv.Een tabel weergeven stemdistricten in rijen en politieke partijen in kolommen met de cellen die de getelde bevatten stemmen kan worden weergegeven met de districten (rijen) in hoofdcoördinaten wanneer de focus ligt op het bestellen van districten volgens soortgelijke stemming.

Traditioneel, afkomstig van de Franse traditie in CA,[20] Vroege CA -tweedekker brachten beide entiteiten toe in dezelfde coördinaatversie, meestal hoofdcoördinaten, maar dit soort display is misleidend voor zover: "Hoewel dit een tweedekker wordt genoemd, doet het dat wel niet hebben een nuttige innerlijke productrelatie tussen de rij- en kolomscores "als Brian Ripley, onderhoud van R -pakketmassa wijst correct op.[21] Tegenwoordig moet dat soort display worden vermeden, omdat leken meestal niet op de hoogte zijn van de ontbrekende relatie tussen de twee puntensets.

A Schalen 1[17] Biplot (rijen in hoofdcoördinaten, kolommen in standaardcoördinaten) worden als volgt geïnterpreteerd:[22]

  • De afstanden tussen rijpunten benaderen hun chikwadraatafstand.Punten dicht bij elkaar vertegenwoordigen rijen met zeer vergelijkbare waarden in de oorspronkelijke gegevenstabel.D.w.z. ze kunnen vrij vergelijkbare frequenties vertonen in het geval van telgegevens of nauw verwante binaire waarden in het geval van aanwezigheid/afwezigheidsgegevens.
  • (Kolom) Punten in standaardcoördinaten vertegenwoordigen de hoekpunten van de vectorruimte, d.w.z. de buitenste hoek van iets dat in multidimensionale ruimte de vorm heeft van een onregelmatige polyhedron.Projectrij wijst op de lijn die de oorsprong verbindt en de standaardcoördinaat van een kolom;Als de geprojecteerde positie langs die verbindingslijn dicht bij de positie van de standaardcoördinaat ligt, is dat rijpunt sterk geassocieerd met deze kolom, d.w.z. in het geval van telgegevens heeft de rij een hoge frequentie van die categorie en in het geval van aanwezigheid/afwezigheidsgegevensDe rij zal waarschijnlijk een 1 in die kolom vertonen.Rijpunten waarvan de projectie de verbindingslijn voorbij de oorsprong zou moeten verlengen, hebben een lagere dan gemiddelde waarde in die kolom.

Uitbreidingen en toepassingen

Er zijn verschillende varianten van CA beschikbaar, waaronder Degelde correspondentieanalyse (DCA) en Canonieke correspondentieanalyse (CCA).De latere (CCA) is de methode om te gebruiken, wanneer er informatie is over mogelijke oorzaken voor de overeenkomsten tussen de onderzochte entiteiten.De uitbreiding van correspondentieanalyse tot vele categorische variabelen wordt genoemd Meerdere correspondentieanalyse.Een aanpassing van correspondentieanalyse aan het probleem van discriminatie op basis van kwalitatieve variabelen (d.w.z. het equivalent van Discriminerende analyse voor kwalitatieve gegevens) wordt discriminerende correspondentieanalyse of barycentrische discriminerende analyse genoemd.

In de sociale wetenschappen, correspondentieanalyse en met name de uitbreiding ervan Meerdere correspondentieanalyse, werd buiten Frankrijk bekend gemaakt via de Franse socioloog Pierre Bourdieu's Toepassing ervan.[23]

Implementaties

  • Het datavisualisatiesysteem Oranje Neem de module op: orngca.
  • De statistische programmeertaal R Bevat verschillende pakketten, die een functie bieden voor (eenvoudige symmetrische) correspondentieanalyse.Met behulp van de R -notatie [pakket_name :: function_name] De pakketten en respectieve functies zijn: Ade4 :: dudi.coa (), CA :: CA () , Exposition :: EPCA (), Feitominer :: CA (), Mass :: Corresp (), Vegan :: CCA ().De eenvoudigste benadering voor beginners is CA :: CA () Omdat er een uitgebreid tekstboek is[24] dat pakket vergezellen.
  • The Freeware Past (Paleontological Statistics)[25] aanbiedingen (eenvoudige symmetrische) correspondentieanalyse via het menu "Multivariate/ordening/correspondentie (CA)".

Zie ook

Referenties

  1. ^ Dodge, Y. (2003) The Oxford Dictionary of Statistical Feards, Ooep ISBN0-19-850994-4
  2. ^ Hirschfeld, H.O.(1935) "Een verband tussen correlatie en contingentie", Proc.Cambridge Philosophical Society, 31, 520–524
  3. ^ Benzécri, J.-P. (1973). L'analyseer des Données.Deel II.L'analyseer des correspondenten. Parijs, Frankrijk: Dunod.
  4. ^ Beh, Eric;Lombardo, Rosaria (2014). Correspondentieanalyse.Theorie, praktijk en nieuwe strategieën.Chichester: Wiley.p.120. ISBN 978-1-119-95324-1.
  5. ^ Greenacre, Michael (2007). Correspondentie -analyse in de praktijk.Boca Raton: CRC Press.p.204. ISBN 9781584886167.
  6. ^ Legendre, Pierre;Legendre, Louis (2012). Numerieke ecologie.Amsterdam: Elsevier.p.465. ISBN 978-0-444-53868-0.
  7. ^ Greenacre, Michael (1983). Theorie en toepassingen van correspondentieanalyse. Londen: Academische pers. ISBN 0-12-299050-1.
  8. ^ Greenacre, Michael (2007). Correspondentie -analyse in de praktijk, tweede editie. Londen: Chapman & Hall/CRC.
  9. ^ Greenacre, Michael (2017). Correspondentie -analyse in de praktijk (3e ed.).Boca Raton: CRC Press.pp. 26–29. ISBN 9781498731775.
  10. ^ a b c d Greenacre, Michael (2007). Correspondentie -analyse in de praktijk.Boca Raton: CRC Press.p.202. ISBN 9781584886167.
  11. ^ Greenacre, Michael (1983). Theorie en toepassingen van correspondentieanalyse. Londen: Academische pers. ISBN 0-12-299050-1.
  12. ^ Greenacre, Michael (2007). Correspondentie -analyse in de praktijk, tweede editie.Londen: Chapman & Hall/CRC.p.202.
  13. ^ Greenacre, Michael (2007). Correspondentie -analyse in de praktijk.Boca Raton: CRC Press.p.202. ISBN 9781584886167.
  14. ^ Abadir, Karim;Magnus, Jan (2005). Matrixalgebra.Cambridge: Cambridge University Press.p.24. ISBN 9786612394256.
  15. ^ a b Beh, Eric;Lombardo, Rosaria (2014). Correspondentieanalyse.Theorie, praktijk en nieuwe strategieën.Chichester: Wiley.pp. 87, 129. ISBN 978-1-119-95324-1.
  16. ^ Beh, Eric;Lombardo, Rosaria (2014). Correspondentieanalyse.Theorie, praktijk en nieuwe strategieën.Chichester: Wiley.pp. 132–134. ISBN 978-1-119-95324-1.
  17. ^ a b c Legendre, Pierre;Legendre, Louis (2012). Numerieke ecologie.Amsterdam: Elsevier.p.470. ISBN 978-0-444-53868-0.
  18. ^ Greenacre, Michael (2017). Correspondentie -analyse in de praktijk (3e ed.).Boca Raton: CRC Press.p.62. ISBN 9781498731775.
  19. ^ Blasius, Jörg (2001). Korrespondenzanalyse (In het Duits).Berlijn: Walter de Gruyter.pp. 40, 60. ISBN 9783486257304.
  20. ^ Greenacre, Michael (2017). Correspondentie -analyse in de praktijk (3e ed.).Boca Raton: CRC Press.p.70. doen:10.1201/9781315369983. ISBN 9781498731775.
  21. ^ Ripley, Brian (2022-01-13). "Mass R -pakkethandleiding". R Pakketdocumentatie (RDRR.IO). Details. Opgehaald 2022-03-17.
  22. ^ Borcard, Daniel;Gillet, Francois;Legendre, Pierre (2018). Numerieke ecologie met r (2e ed.).Cham: Springer.p.175. doen:10.1007/978-3-319-71404-2. ISBN 9783319714042.
  23. ^ Bourdieu, Pierre (1984). Onderscheid. Routledge. pp.41. ISBN 0674212770.
  24. ^ Greenacre, Michael (2021). Correspondentie -analyse in de praktijk (derde ed.).Londen: CRC Press. ISBN 9780367782511.
  25. ^ Hammer, Øyvind. "Past 4 - het verleden van de toekomst". Gearchiveerd Van het origineel op 2020-11-01. Opgehaald 2021-09-14.

Externe links

  • Greenacre, Michael (2008), La práctica del análisis de correspondencias, BBVA Foundation, Madrid, Spaanse vertaling van Correspondentie -analyse in de praktijk, beschikbaar gratis downloaden van BBVA Foundation Publications
  • Greenacre, Michael (2010), Tweedekker in de praktijk, BBVA Foundation, Madrid, beschikbaar gratis downloaden op multivariatestatistics.org