Meerdere correspondentieanalyse
In statistieken, Meerdere correspondentieanalyse (MCA) is een gegevensanalyse Techniek voor nominale categorische gegevens, gebruikt om onderliggende structuren in een gegevensset te detecteren en weer te geven.Het doet dit door gegevens weer te geven als punten in een laag-dimensionaal Euclidische ruimte.De procedure lijkt dus de tegenhanger van Hoofdcomponentanalyse voor categorische gegevens.[1][2] MCA kan worden gezien als een uitbreiding van eenvoudig Correspondentieanalyse (Ca) in die zin dat het van toepassing is op een grote set van categorische variabelen.
Als een uitbreiding van correspondentieanalyse
MCA wordt uitgevoerd door het Ca -algoritme toe te passen op een indicatormatrix (ook wel genoemd Volledige disjunctieve tabel - CDT) of een Burt -tafel gevormd uit deze variabelen.[3] Een indicatormatrix is een matrix voor individuen × variabelen, waarbij de rijen individuen vertegenwoordigen en de kolommen dummy -variabelen zijn die categorieën van de variabelen vertegenwoordigen.[4] Door de indicatiematrix te analyseren, staat individuen de directe weergave mogelijk als punten in de geometrische ruimte.De Burt-tabel is de symmetrische matrix van alle tweerichtingskruistabulaties tussen de categorische variabelen en heeft een analogie met de covariantiematrix van continue variabelen.Het analyseren van de burt -tabel is een meer natuurlijke generalisatie van eenvoudige Correspondentieanalyse, en individuen of de middelen van groepen individuen kunnen worden toegevoegd als aanvullende punten aan het grafische display.
In de indicatormatrixbenadering worden associaties tussen variabelen ontdekt door de chikwadraatafstand te berekenen tussen verschillende categorieën van de variabelen en tussen de individuen (of respondenten).Deze associaties worden vervolgens grafisch weergegeven als "kaarten", die de interpretatie van de structuren in de gegevens vergemakkelijkt.Opposities tussen rijen en kolommen worden vervolgens gemaximaliseerd, om de onderliggende dimensies te ontdekken die het beste in staat zijn om de centrale opposities in de gegevens te beschrijven.Als in factoren analyse of Hoofdcomponentanalyse, de eerste as is de belangrijkste dimensie, de tweede as, de tweede belangrijkste, enzovoort, in termen van de hoeveelheid variantie die is verantwoord.Het aantal te behouden assen voor analyse wordt bepaald door gemodificeerd te berekenen eigenwaarden.
Details
Aangezien MCA is aangepast om statistische conclusie te maken van categorische variabelen (zoals meerdere vragen van keuzes), is het eerste wat men moet doen, kwantitatieve gegevens omzetten (zoals leeftijd, grootte, gewicht, dag, enz.) In categorieën (gebruikBijvoorbeeld statistische kwantielen).
Wanneer de gegevensset volledig wordt weergegeven als categorische variabelen, kan men de overeenkomstige zogenaamde volledig disjunctieve tabel bouwen.We geven deze tabel aan . Als personen beantwoordden een enquête met Meerdere keuzevragen met elk 4 antwoorden, elk, zal hebben Rijen en kolommen.
Meer theoretisch,[5] aannemen is de volledig disjunctieve tabel van waarnemingen van categorische variabelen.Neem ook aan dat de -th variabele hebben verschillende niveaus (categorieën) en ingesteld .De tafel is dan een matrix met alle coëfficiënt zijn of .Stel de som van alle inzendingen van zijn en introduceren .In een MCA zijn er ook twee speciale vectoren: eerst , dat bevat de bedragen langs de rijen van , en , dat bevat de bedragen langs de kolommen van . Opmerking en , de diagonale matrices die bevatten en respectievelijk als diagonaal.Met deze notaties bestaat het berekenen van een MCA in wezen uit de ontleding van de enkele waarde van de matrix:
De ontleding van geeft jou , en zoals dat met P, q twee eenheidsmatrices en is de gegeneraliseerde diagonale matrix van de enkelvoudige waarden (met dezelfde vorm als ).De positieve coëfficiënten van zijn de eigenwaarden van .
De interesse van MCA komt van de manier waarop observaties (rijen) en variabelen (kolommen) in kan worden ontbonden.Deze ontleding wordt een factorontleding genoemd.De coördinaten van de waarnemingen in de factorruimte worden gegeven door
De -de rijen van vertegenwoordigen de -th observatie in de factorruimte.En op dezelfde manier worden de coördinaten van de variabelen (in dezelfde factorruimte als waarnemingen!)
Recente werken en extensies
In de afgelopen jaren, verschillende studenten van Jean-Paul Benzécri hebben MCA verfijnd en opgenomen in een meer algemeen kader van gegevensanalyse bekend als bekend als Geometrische gegevensanalyse.Dit omvat de ontwikkeling van directe verbindingen tussen eenvoudig Correspondentieanalyse, Hoofdcomponentanalyse en MCA met een vorm van clusteranalyse bekend als Euclidische classificatie.[6]
Twee extensies hebben veel praktisch gebruik.
- Het is mogelijk om, als actieve elementen in de MCA, verschillende kwantitatieve variabelen op te nemen.Deze extensie wordt genoemd Factoranalyse van gemengde gegevens (zie onder).
- Heel vaak zijn de vragen in vragenlijsten in verschillende kwesties gestructureerd.In de statistische analyse is het noodzakelijk om rekening te houden met deze structuur.Dit is het doel van meervoudige factoranalyse die de verschillende problemen (d.w.z. de verschillende groepen variabelen) in een globale analyse in evenwicht brengt en, buiten de klassieke resultaten van faculteitenanalyse (voornamelijk afbeeldingen van individuen en van categorieën), verschillende resultaten (indicatoren enGraphics) specifiek van de groepsstructuur.
Aanvraagvelden
In de sociale wetenschappen is MCA misschien het best bekend om de toepassing ervan door Pierre Bourdieu,[7] met name in zijn boeken LA onderscheid, Homo Academicus en De nobelie.Bourdieu betoogde dat er een interne link was tussen zijn visie op het sociale als ruimtelijke en relationele -gevangen genomen door het idee van veld, en de geometrische eigenschappen van MCA.[8] Sociologen die het werk van Bourdieu volgen, kiezen meestal voor de analyse van de indicatormatrix, in plaats van de Burt -tabel, grotendeels vanwege het centrale belang dat wordt toegekend aan de analyse van de 'wolk van individuen'.[9]
Meerdere correspondentieanalyse en principale componentanalyse
MCA kan ook worden bekeken als een PCA die op de volledige disjunctieve tabel wordt toegepast.Om dit te doen, moet de CDT als volgt worden getransformeerd.Laten Geef de algemene term van de CDT aan. is gelijk aan 1 als individu bezit de categorie en 0 zo niet.Laat aangeven , het aandeel individuen dat de categorie bezit .De getransformeerde CDT (TCDT) heeft als algemene term:
De niet -gestandaardiseerde PCA toegepast op TCDT, de kolom het gewicht hebben , leidt tot de resultaten van MCA.
Deze gelijkwaardigheid wordt volledig uitgelegd in een boek van Jérôme Pagès.[10] Het speelt een belangrijke theoretische rol omdat het de weg opent voor de gelijktijdige behandeling van kwantitatieve en kwalitatieve variabelen.Twee methoden analyseren tegelijkertijd deze twee soorten variabelen: Factoranalyse van gemengde gegevens en wanneer de actieve variabelen in verschillende groepen worden verdeeld: meerdere factoranalyse.
Deze equivalentie betekent niet dat MCA een bepaald geval van PCA is, omdat het geen bepaald geval is van CA.Het betekent alleen dat deze methoden nauw aan elkaar zijn gekoppeld, omdat ze tot dezelfde familie behoren: de facultaire methoden.
Software
Er zijn talloze software van gegevensanalyse, waaronder MCA, zoals Stata en SPSS.Het R -pakket Feitominer Bevat ook MCA.Deze software is gerelateerd aan een boek dat de basismethoden beschrijft voor het uitvoeren van MCA.[11] Er is ook een Python -pakket voor [1] die werkt met Numpy Array Matrices;Het pakket is nog niet geïmplementeerd voor Spark DataFrames.
Referenties
- ^ Le roux;B. en H. Rouanet (2004). Geometrische gegevensanalyse, van correspondentieanalyse tot gestructureerde gegevensanalyse.Dordrecht.Kluwer: p.180.
- ^ Greenacre, Michael en Blasius, Jörg (Editors) (2006). Meerdere correspondentieanalyse en gerelateerde methoden. Londen: Chapman & Hall/CRC.
{{}}
:|author=
heeft een generieke naam (helpen)CS1 MainT: Meerdere namen: Lijst met auteurs (link) - ^ Greenacre, Michael (2007). Correspondentie -analyse in de praktijk, tweede editie. Londen: Chapman & Hall/CRC.
- ^ Le Roux, B. en H. Rouanet (2004), Geometrische gegevensanalyse, van correspondentieanalyse tot gestructureerde gegevensanalyse, Dordrecht.Kluwer: p.179
- ^ Hervé Abdi;Dominique Valentin (2007). "Meerdere correspondentie -analyse" (PDF).
- ^ Le roux;B. en H. Rouanet (2004). Geometrische gegevensanalyse, van correspondentieanalyse tot gestructureerde gegevensanalyse.Dordrecht.Kluwer.
- ^ Scott, John & Gordon Marshall (2009): Oxford Dictionary of Sociology, p.135. Oxford: Oxford University Press
- ^ Rouanet, Henry (2000) "De geometrische analyse van vragenlijsten. De les van Bourdieu's La Distinction", in Bulletin de Méthodologie Sociologique 65, pp. 4-18
- ^ Lebaron, Frédéric (2009) "How Bourdieu" gekwantificeerd "Bourdieu: The Geometric Modellering of Data", in Robson en Sanders (Eds.) Kwantificeringstheorie: Pierre Bourdieu.Springer, pp. 11-30.
- ^ Pagès Jérôme (2014). Meerdere factoranalyse per voorbeeld met R.Chapman & Hall/CRC De R -serie Londen 272 P
- ^ Husson F., Lê S. & Pagès J. (2009). Verkennende multivariate analyse per voorbeeld met behulp van R.Chapman & Hall/CRC de R -serie, Londen. ISBN978-2-7535-0938-2
Externe links
- Le Roux, B. en H. Rouanet (2004), Geometrische gegevensanalyse, van correspondentieanalyse tot gestructureerde gegevensanalyse bij Google Books: [2]
- Greenacre, Michael (2008), La práctica del análisis de correspondencias, BBVA Foundation, Madrid, gratis beschikbaar op de website van de Foundation [3]
- Feitominer Een R -software gewijd aan verkennende gegevensanalyse.