Tweedekker

Een tweedeling van Fisher's Iris -gegevensset.De verspreide punten zijn de invoerscores van observaties en de pijlen tonen de bijdrage van elke functie aan de invoerlaadvectoren.
Spectramap Biplot van Anderson's Iris -gegevensset
Discriminante analyse Biplot van Fisher's Iris -gegevens (Greenacre, 2010)

Tweedekker zijn een soort verkennende grafiek die wordt gebruikt in statistieken, een generalisatie van de eenvoudige twee-variabele spreidingsplot.Een tweedekker overlays een score plot met een Laadplot.Een tweedeling staat informatie over beide toe monsters en variabelen van een Gegevensmatrix grafisch worden weergegeven.Monsters worden weergegeven als punten, terwijl variabelen worden weergegeven als vectoren, lineair bijlen of niet -lineaire trajecten.In het geval van categorische variabelen, Categorie niveau punten kan worden gebruikt om de niveaus van een categorische variabele weer te geven.EEN gegeneraliseerd Biplot geeft informatie weer over zowel continue als categorische variabelen.

Inleiding en geschiedenis

De tweedekker werd geïntroduceerd door K. Ruben Gabriel (1971).[1] Gower and Hand (1996) schreef een monografie over tweedekker.Yan en Kang (2003) beschreven verschillende methoden die kunnen worden gebruikt om een tweedekker te visualiseren en te interpreteren.Het boek van Greenacre (2010)[2] is een praktische gebruikersgerichte handleiding voor tweedkenningen, samen met scripts in de open-source R programmeertaal, om tweedekker te genereren die zijn geassocieerd met Hoofdcomponentanalyse (PCA), multidimensionale schaling (MDS), log-ratio-analyse (LRA)-ook bekend als spectrale mapping[3][4]Discriminerende analyse (Da) en verschillende vormen van Correspondentieanalyse: eenvoudige correspondentieanalyse (CA), meerdere correspondentieanalyse (MCA) en canonieke correspondentieanalyse (CCA) (GreenAcre 2016[5]).Het boek van Gower, Lubbe en Le Roux (2011) hebben als doel tweeflots populair te maken als een nuttige en betrouwbare methode voor de visualisatie van multivariate gegevens wanneer onderzoekers bijvoorbeeld willen overwegen, bijvoorbeeld hoofdcomponentanalyse (PCA), canonieke variiatenanalyse (CVA)of verschillende soorten correspondentie -analyse.

Bouw

Een tweedeling wordt geconstrueerd met behulp van de singuliere waarden ontbinding (SVD) om een lage rang benadering naar een getransformeerde versie van de gegevensmatrix X, van wie n Rijen zijn de monsters (ook wel de gevallen of objecten genoemd), en waarvan p Kolommen zijn de variabelen.De getransformeerde gegevensmatrix Y wordt verkregen uit de oorspronkelijke matrix X door de kolommen (de variabelen) te centreren en te standaardiseren.Met behulp van de SVD kunnen we schrijven Y= Σk= 1, ...pdkukvkT;, waar de uk zijn n-dimensionale kolomvectoren, de vk zijn p-dimensionale kolomvectoren, en de dk zijn een niet-toenemende volgorde van niet-negatief scalars.De tweedekker wordt gevormd uit twee spreidingsdiagrammen die een gemeenschappelijke set assen delen en een tussenligging hebben scalair product interpretatie.De eerste spreidingsplot wordt gevormd uit de punten (d1αu1i,,d2αu2i), voor i= 1, ...,n.De tweede plot wordt gevormd uit de punten (d11 - αv1j,,d21 - αv2j), voor j= 1, ...,p.Dit is de tweedekker gevormd door de dominante twee termen van de SVD, die vervolgens in een tweedimensionaal display kan worden weergegeven.Typische keuzes van α zijn 1 (om een afstandsinterpretatie te geven aan de rijweergave) en 0 (om een afstandsinterpretatie te geven aan het kolomweergave), en in sommige zeldzame gevallen α = 1/2 om een symmetrisch geschaalde tweedekker te verkrijgen (die geeftgeen afstandsinterpretatie op de rijen of de kolommen, maar alleen de scalaire productinterpretatie).De set punten die de variabelen weergeven, kan worden getrokken als pijlen van de oorsprong om het idee te versterken dat ze tweedelige assen vertegenwoordigen waarop de monsters kunnen worden verwacht om de oorspronkelijke gegevens te benaderen.

Referenties

  1. ^ 'Gabriel, K. R. (1971).De tweeflans grafische weergave van matrices met toepassing op hoofdcomponentanalyse. Biometrika, 58(3), 453–467.
  2. ^ Greenacre, M. (2010). Tweedekker in de praktijk.BBVA Foundation, Bilbao, Spanje.Gratis beschikbaar op http://www.multivariatestatistics.org
  3. ^ Lewi, Paul J. (2005)."Spectrale mapping, een persoonlijk en historisch verslag van een avontuur in multivariate gegevensanalyse". Chemometrie en intelligente laboratoriumsystemen. 77 (1–2): 215–223. doen:10.1016/j.chemolab.2004.07.010.
  4. ^ David Livingstone (2009). Een praktische gids voor wetenschappelijke gegevensanalyse. Chichester, John Wiley & Sons Ltd, 233–238. ISBN978-0-470-85153-1
  5. ^ Greenacre, M. (2016) Correspondentieanalyse in de praktijk.Derde editie.Chapman en Hall / CRC Press. ISBN978-84-923846-8-6

Bronnen

  • Gabriel, K.R. (1971)."De tweedekker grafische weergave van matrices met toepassing op hoofdcomponentanalyse". Biometrika. 58 (3): 453–467. doen:10.1093/biomet/58.3.453.
  • Gower, J.C., Lubbe, S. en Le Roux, N. (2010). Inzicht in tweevoudig. Wiley. ISBN978-0-470-01255-0
  • Gower, J.C. en Hand, D.J (1996). Tweedekker. Chapman & Hall, London, Verenigd Koninkrijk. ISBN0-412-71630-5
  • Yan, W. en Kang, M.S.(2003). GGE Biplot -analyse. CRC -pers, Boca Raton, Florida. ISBN0-8493-1338-4
  • Demey, J.R., Vicente-Villardón, J.L., Galindo-Villardón, M.P.en Zambrano, A.Y.(2008). Het identificeren van moleculaire markers geassocieerd met de classificatie van genotypen door externe logistieke tweedekker. Bio -informatica.24 (24): 2832–2838