Multivariate statistieken

Multivariate statistieken is een onderverdeling van statistieken het omvatten van de gelijktijdige observatie en analyse van meer dan één uitkomst variabele. Multivariate statistieken betreft het begrijpen van de verschillende doelen en achtergrond van elk van de verschillende vormen van multivariate analyse en hoe ze zich tot elkaar verhouden. De praktische toepassing van multivariate statistieken op een bepaald probleem kan verschillende soorten univariate en multivariate analyses omvatten om de relaties tussen variabelen en hun relevantie voor het bestudeerde probleem te begrijpen.

Bovendien houdt multivariate statistieken zich bezig met multivariate waarschijnlijkheidsverdelingen, in termen van beide

  • hoe deze kunnen worden gebruikt om de verdelingen van waargenomen gegevens weer te geven;
  • Hoe ze kunnen worden gebruikt als onderdeel van Statistische inferentie, met name wanneer verschillende hoeveelheden van belang zijn voor dezelfde analyse.

Bepaalde soorten problemen met multivariate gegevens, bijvoorbeeld Eenvoudige lineaire regressie en meervoudige regressie, zijn niet Meestal beschouwd als speciale gevallen van multivariate statistieken, omdat de analyse wordt behandeld door de (univariate) voorwaardelijke verdeling van een enkele uitkomstvariabele te overwegen, gezien de andere variabelen.

Multivariate analyse

Multivariate analyse (MVA) is gebaseerd op de principes van multivariate statistieken. Meestal wordt MVA gebruikt om de situaties aan te pakken waarin meerdere metingen worden uitgevoerd op elke experimentele eenheid en de relaties tussen deze metingen en hun structuren belangrijk zijn.[1] Een moderne, overlappende categorisatie van MVA omvat:[1]

  • Normale en algemene multivariate modellen en distributietheorie
  • De studie en meting van relaties
  • Waarschijnlijkheidsberekeningen van multidimensionale regio's
  • Het verkennen van gegevensstructuren en patronen

Multivariate analyse kan worden gecompliceerd door de wens om op fysica gebaseerde analyse op te nemen om de effecten van variabelen voor een hiërarchische "systeem-of-systemen" te berekenen. Studies die multivariate analyse willen gebruiken, worden vaak vastgelopen door de dimensionaliteit van het probleem. Deze zorgen worden vaak versoepeld door het gebruik van surrogaatmodellen, zeer nauwkeurige benaderingen van de op fysica gebaseerde code. Omdat surrogaatmodellen de vorm aannemen van een vergelijking, kunnen ze zeer snel worden geëvalueerd. Dit wordt een enabler voor grootschalige MVA-onderzoeken: terwijl een Monte Carlo simulatie Over de ontwerpruimte is moeilijk met op natuurkunde gebaseerde codes, het wordt triviaal bij het evalueren van surrogaatmodellen, die vaak de vorm aannemen van responsoppervlak Vergelijkingen.

Soorten analyse

Er zijn veel verschillende modellen, elk met een eigen type analyse:

  1. Multivariate variantieanalyse (Manova) verlengt de Variantieanalyse om gevallen te dekken waarin er meer dan één afhankelijke variabele tegelijkertijd moet worden geanalyseerd; zie ook Multivariate analyse van covariantie (Mancova).
  2. Multivariate regressie probeert een formule te bepalen die kan beschrijven hoe elementen in een vector van variabelen tegelijkertijd reageren op veranderingen in andere. Voor lineaire relaties zijn regressieanalyses hier gebaseerd op vormen van de Algemeen lineair model. Sommigen suggereren dat multivariate regressie verschilt van multivariabele regressie, die echter wordt besproken en niet consistent waar is op wetenschappelijke gebieden.[2]
  3. Analyse van de belangrijkste componenten (PCA) maakt een nieuwe set orthogonale variabelen die dezelfde informatie bevatten als de oorspronkelijke set. Het roteert de variatieassen om een ​​nieuwe set orthogonale assen te geven, zo geordend dat ze de afnemende verhoudingen van de variatie samenvatten.
  4. Factoren analyse is vergelijkbaar met PCA, maar stelt de gebruiker in staat om een ​​bepaald aantal synthetische variabelen te extraheren, minder dan de oorspronkelijke set, waardoor de resterende onverklaarbare variatie als fout blijft. De geëxtraheerde variabelen staan ​​bekend als latente variabelen of factoren; Ieder kan worden verondersteld rekening te houden met covariatie in een groep waargenomen variabelen.
  5. Canonieke correlatieanalyse vindt lineaire relaties tussen twee sets variabelen; Het is de algemene (d.w.z. canonieke) versie van bivariate[3] correlatie.
  6. Redundantie -analyse (RDA) is vergelijkbaar met canonieke correlatieanalyse, maar stelt de gebruiker in staat om een ​​bepaald aantal synthetische variabelen af ​​te leiden uit één set (onafhankelijke) variabelen die zoveel mogelijk variantie verklaren in een andere (onafhankelijke) set. Het is een multivariate analoog van regressie.
  7. Correspondentieanalyse (CA) of wederzijds gemiddelde, vindt (zoals PCA) een set synthetische variabelen die de oorspronkelijke set samenvatten. Het onderliggende model veronderstelt chi-kwadraat ongelijkheid tussen records (gevallen).
  8. Canonieke (of "beperkte") correspondentieanalyse (CCA) voor het samenvatten van de gewrichtsvariatie in twee sets variabelen (zoals redundantie -analyse); Combinatie van correspondentieanalyse en multivariate regressieanalyse. Het onderliggende model veronderstelt chi-kwadraat ongelijkheid tussen records (gevallen).
  9. Multidimensionale schaling bestaat uit verschillende algoritmen om een ​​set synthetische variabelen te bepalen die het beste de paarsgewijze afstanden tussen records weergeven. De originele methode is Hoofdcoördinaten analyse (PCOA; gebaseerd op PCA).
  10. Discriminerende analyseof canonieke variatieanalyse, pogingen om vast te stellen of een set variabelen kan worden gebruikt om onderscheid te maken tussen twee of meer groepen gevallen.
  11. Lineaire discriminerende analyse (LDA) berekent een lineaire voorspeller uit twee sets van normaal verdeelde gegevens om nieuwe observaties mogelijk te maken.
  12. Clustersystemen Wijs objecten toe aan groepen (clusters genoemd) zodat objecten (cases) uit dezelfde cluster meer op elkaar lijken dan objecten van verschillende clusters.
  13. Recursieve verdeling Creëert een beslissingsboom die probeert leden van de bevolking correct te classificeren op basis van een dichotome afhankelijke variabele.
  14. Kunstmatige neurale netwerken Breid regressie- en clusteringsmethoden uit naar niet-lineaire multivariate modellen.
  15. Statistische afbeeldingen zoals rondleidingen, Parallelle coördinaatplots, Scatterplot -matrices kunnen worden gebruikt om multivariate gegevens te verkennen.
  16. Gelijktijdige vergelijkingsmodellen Betrek meer dan één regressievergelijking, met verschillende afhankelijke variabelen, samen geschat.
  17. Vector Autoregressie omvat gelijktijdige regressies van verschillende tijdreeksen variabelen op zichzelf en elkaars vertraagde waarden.
  18. Hoofdresponscurves Analyse (PRC) is een methode op basis van RDA waarmee de gebruiker zich in de loop van de tijd op behandelingseffecten kan concentreren door te corrigeren voor veranderingen in controlebehandelingen in de loop van de tijd.[4]
  19. Iconografie van correlaties Bestaat uit het vervangen van een correlatiematrix door een diagram waarbij de "opmerkelijke" correlaties worden weergegeven door een ononderbroken lijn (positieve correlatie) of een stippellijn (negatieve correlatie).

Belangrijke waarschijnlijkheidsverdelingen

Er is een set van waarschijnlijkheidsverdelingen gebruikt in multivariate analyses die een vergelijkbare rol spelen als de overeenkomstige set distributies die worden gebruikt in univariate analyse wanneer de normale verdeling is geschikt voor een gegevensset. Deze multivariate distributies zijn:

De Inverse-wishart distributie is belangrijk in Bayesiaanse gevolgtrekking, bijvoorbeeld in Bayesiaanse multivariate lineaire regressie. Aanvullend, Hotelling's T-Squared Distribution is een multivariate verdeling, generaliseren Student t-distributie, dat wordt gebruikt in multivariate Hypothesetesten.

Geschiedenis

Anderson's leerboek uit 1958, Een inleiding tot multivariate statistische analyse,[5] een generatie theoretici en toegepaste statistici opgeleid; Anderson's boek benadrukt Hypothesetesten via waarschijnlijkheidsratio -tests en de eigenschappen van vermogensfuncties: toelaatbaarheid, onbevooroordeel en monotoniteit.[6][7]

MVA stond ooit alleen in de statistische theorie -rijken vanwege de grootte, complexiteit van onderliggende gegevensset en een hoog rekenverbruik. Met de dramatische groei van de rekenkracht speelt MVA nu een steeds belangrijkere rol in gegevensanalyse en heeft een brede toepassing in Omics velden.

Toepassingen

Software en tools

Er zijn een enorm aantal softwarepakketten en andere tools voor multivariate analyse, waaronder:


Zie ook

Referenties

  1. ^ a b Olkin, i.; Sampson, A. R. (2001-01-01), "Multivariate analyse: overzicht", in Smelser, Neil J.; Baltes, Paul B. (eds.), Internationale encyclopedie van de sociale en gedragswetenschappen, Pergamon, pp. 10240-10247, ISBN 9780080430768, opgehaald 2019-09-02
  2. ^ Hidalgo, b; Goodman, M (2013). "Multivariate of multivariabele regressie?". Ben J volksgezondheid. 103: 39–40. doen:10.2105/ajph.2012.300897. PMC 3518362. Pmid 23153131.
  3. ^ Niet -geavanceerde analisten van bivariate Gaussiaanse problemen kunnen nuttig zijn, maar nauwkeurig, maar nauwkeurig methode van het nauwkeurig meten van de waarschijnlijkheid door simpelweg de som te nemen S van de N de vierkanten van residuen, die de som aftrekken SM minimaal, het verdelen van dit verschil door SM, het resultaat vermenigvuldigen met (N - 2) en het nemen van de omgekeerde anti-ln van de helft van dat product.
  4. ^ Ter Braak, Caaro J.F. & Šmilauer, Petr (2012). Canoco Reference Manual en gebruikershandleiding: software voor ordening (versie 5.0), P292. Microcomputer Power, Ithaca, NY.
  5. ^ T.W. Anderson (1958) Een inleiding tot multivariate analyse, New York: Wiley ISBN0471026409; 2e (1984) ISBN0471889873; 3e (2003) ISBN0471360910
  6. ^ Sen, Pranab Kumar; Anderson, T. W.; Arnold, S. F.; Eaton, M. L.; Giri, N. C.; Gnanadesikan, R.; Kendall, M. G.; Kshirsagar, A. M.; et al. (Juni 1986). "Review: hedendaagse leerboeken over multivariate statistische analyse: een panoramische beoordeling en kritiek". Journal of the American Statistical Association. 81 (394): 560–564. doen:10.2307/2289251. ISSN 0162-1459. Jstor 2289251.(Pagina's 560–561)
  7. ^ Schervish, Mark J. (november 1987). "Een overzicht van multivariate analyse". Statistische wetenschap. 2 (4): 396–413. doen:10.1214/ss/1177013111. ISSN 0883-4237. Jstor 2245530.
  8. ^ Kran Heeft details over de beschikbare pakketten voor multivariate data -analyse

Verder lezen

  • Johnson, Richard A.; Wichern, Dean W. (2007). Multivariate statistische analyse toegepast (Zesde ed.). Prentice Hall. ISBN 978-0-13-187715-3.
  • KV Mardia; JT Kent; JM Bibby (1979). Multivariate analyse. Academische pers. ISBN 0-12-471252-5.
  • A. Sen, M. Srivastava, Regressieanalyse - theorie, methoden en toepassingen, Springer-Verlag, Berlijn, 2011 (4e printing).
  • Cook, Swayne (2007). Interactieve graphics voor gegevensanalyse.
  • Malakooti, ​​B. (2013). Bewerkingen en productiesystemen met meerdere doelstellingen. John Wiley & Sons.
  • T. W. Anderson, Een inleiding tot multivariate statistische analyse, Wiley, New York, 1958.
  • KV Mardia; JT Kent & JM Bibby (1979). Multivariate analyse. Academische pers. ISBN 978-0124712522. (M.A. Niveau "waarschijnlijkheid" -benadering)
  • Feinstein, A. R. (1996) Multivariabele analyse. New Haven, CT: Yale University Press.
  • Hair, J. F. Jr. (1995) Multivariate gegevensanalyse met lezingen, 4e ed. Prentice-Hall.
  • Johnson, Richard A.; Wichern, Dean W. (2007). Multivariate statistische analyse toegepast (Zesde ed.). Prentice Hall. ISBN 978-0-13-187715-3.
  • Schafer, J. L. (1997) Analyse van onvolledige multivariate gegevens. CRC Press. (Geavanceerd)
  • Sharma, S. (1996) Multivariate technieken toegepast. Wiley. (Informeel, toegepast)
  • Izenman, Alan J. (2008).Moderne multivariate statistische technieken: regressie, classificatie en veelvoud leren.Springer -teksten in statistieken.New York: Springer-Verlag. ISBN9780387781884.
  • "Handboek van toegepaste multivariate statistieken en wiskundige modellering | ScienceDirect".Ontvangen 2019-09-03.

Externe links