Algemeen lineair model

De Algemeen lineair model of Algemeen multivariate regressiemodel is een compacte manier om tegelijkertijd verschillende te schrijven Meerdere lineaire regressie modellen. In die zin is het geen afzonderlijke statistiek lineair model. De verschillende meervoudige lineaire regressiemodellen kunnen compact worden geschreven als[1]

waar Y is een Matrix met reeks multivariate metingen (elke kolom is een set metingen op een van de afhankelijke variabelen), X is een matrix van observaties op onafhankelijke variabelen dat kan een ontwerpmatrix (elke kolom is een reeks observaties op een van de onafhankelijke variabelen), B is een matrix die parameters bevat die meestal moeten worden geschat en U is een matrix die bevat fouten (lawaai). De fouten worden meestal verondersteld niet te gecorreleerd zijn tussen metingen en volgen een multivariate normale verdeling. Als de fouten geen multivariate normale verdeling volgen, Gegeneraliseerde lineaire modellen kan worden gebruikt om veronderstellingen over te ontspannen Y en U.

Het algemene lineaire model bevat een aantal verschillende statistische modellen: ANOVA, ANCOVA, Manova, Mancova, normaal lineaire regressie, t-testen en F-testen. Het algemene lineaire model is een generalisatie van meervoudige lineaire regressie naar het geval van meer dan één afhankelijke variabele. Als Y, B, en U waren kolomvectoren, de bovenstaande matrixvergelijking zou meerdere lineaire regressie vertegenwoordigen.

Hypothesetests met het algemene lineaire model kunnen op twee manieren worden gedaan: multivariate of als meerdere onafhankelijke univariate tests. In multivariate tests de kolommen van Y worden samen getest, terwijl in univariate tests de kolommen van Y worden onafhankelijk getest, d.w.z. als meerdere univariate tests met dezelfde ontwerpmatrix.

Vergelijking met meerdere lineaire regressie

Meerdere lineaire regressie is een generalisatie van Eenvoudige lineaire regressie in het geval van meer dan één onafhankelijke variabele, en een speciaal geval van algemene lineaire modellen, beperkt tot één afhankelijke variabele. Het basismodel voor meerdere lineaire regressie is

Voor elke observatie i = 1, ..., n.

In de bovenstaande formule overwegen we n waarnemingen van één afhankelijke variabele en p onafhankelijke variabelen. Dus, Yi is de ie Observatie van de afhankelijke variabele, XIJ is ie Observatie van de je onafhankelijke variabele, j = 1, 2, ..., p. De waarden βj vertegenwoordigen parameters die moeten worden geschat, en εi is de ie Onafhankelijke identiek gedistribueerde normale fout.

In de meer algemene multivariate lineaire regressie is er één vergelijking van de bovenstaande vorm voor elk van m > 1 afhankelijke variabelen die dezelfde set verklarende variabelen delen en daarom gelijktijdig met elkaar worden geschat:

voor alle observaties geïndexeerd als i = 1, ..., n en voor alle afhankelijke variabelen geïndexeerd als J = 1, ..., m.

Merk op dat, omdat elke afhankelijke variabele zijn eigen set regressieparameters heeft die moet worden gemonteerd, vanuit een computationeel oogpunt de algemene multivariate regressie eenvoudig een reeks is van standaard meerdere lineaire regressies met behulp van dezelfde verklarende variabelen.

Vergelijking met gegeneraliseerd lineair model

Het algemene lineaire model en het Gegeneraliseerd lineair model (GLM)[2][3] zijn twee veelgebruikte families van statistische methoden om een ​​aantal continu en/of categorisch te relateren voorspellers naar een enkele uitkomst variabele.

Het belangrijkste verschil tussen de twee benaderingen is dat het algemene lineaire model strikt veronderstelt dat de residuen zal een voorwaardelijk normale verdeling,[4] terwijl de GLM deze veronderstelling losmaakt en een verscheidenheid van andere mogelijk maakt uitverdelingen van de exponentiële familie voor de residuen.[2] Merk op dat het algemene lineaire model een speciaal geval is van de GLM waarin de verdeling van de residuen een voorwaardelijk normale verdeling volgt.

De verdeling van de residuen hangt grotendeels af van het type en verdeling van de uitkomstvariabele; Verschillende soorten uitkomstvariabelen leiden tot de verscheidenheid aan modellen binnen de GLM -familie. Veelgebruikte modellen in de GLM -familie zijn onder meer binaire logistieke regressie[5] voor binaire of dichotome resultaten, Poisson -regressie[6] voor telresultaten, en lineaire regressie voor continue, normaal verdeelde resultaten. Dit betekent dat over GLM kan worden gesproken als een algemene familie van statistische modellen of als specifieke modellen voor specifieke uitkomsttypen.

Algemeen lineair model Gegeneraliseerd lineair model
Typische schattingsmethode Minst vierkanten, Beste lineaire onbevooroordeelde voorspelling Maximale kans of Bayesiaans
Voorbeelden ANOVA, ANCOVA, lineaire regressie lineaire regressie, logistieke regressie, Poisson -regressie, gamma -regressie,[7] Algemeen lineair model
Uitbreidingen en gerelateerde methoden Manova, Mancova, lineair gemengd model Gegeneraliseerd lineair gemengd model (GLMM), Gegeneraliseerde schattingsvergelijkingen (Gee)
R Pakket en functie LM () in statistiekenpakket (basis R) GLM () in statistiekenpakket (basis R)
Matlab functie mvregress () Glmfit ()
SAS procedures PROC GLM, Proc Reg Proc Genmod, PROC -logistiek (voor binaire en geordende of ongeordende categorische resultaten)
Stata opdracht regressie GLM
SPSS opdracht regressie, GLM Genlin, logistiek
Wolfram -taal & Wisica functie Linearmodelfit [][8] GeneralizedLineArModelfit [][9]
Eviews opdracht LS[10] GLM[11]
statusmodellen Python -pakket regressie-en-lineaire modellen GLM

Toepassingen

Een toepassing van het algemene lineaire model verschijnt bij de analyse van meerdere hersenscans in wetenschappelijke experimenten waar Y bevat gegevens van hersenscanners, X Bevat experimentele ontwerpvariabelen en verwarring. Het wordt meestal op een univariate manier getest (meestal verwezen naar een massa-univariate in deze instelling) en wordt vaak aangeduid als Statistische parametrische mapping.[12]

Zie ook

Aantekeningen

  1. ^ K. V. Mardia, J. T. Kent en J. M. Bibby (1979). Multivariate analyse. Academische pers. ISBN 0-12-471252-5.
  2. ^ a b McCullagh, P.; Nelder, J. A. (1989), "Een overzicht van gegeneraliseerde lineaire modellen", Gegeneraliseerde lineaire modellen, Springer US, pp. 21–47, doen:10.1007/978-1-4899-3242-6_2, ISBN 9780412317606
  3. ^ Fox, J. (2015). Toegepaste regressieanalyse en gegeneraliseerde lineaire modellen. Wijze publicaties.
  4. ^ Cohen, J., Cohen, P., West, S. G., & Aiken, L. S. (2003). Toegepaste meervoudige regressie/correlatieanalyse voor de gedragswetenschappen.
  5. ^ Hosmer Jr, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Toegepaste logistieke regressie (Vol. 398). John Wiley & Sons.
  6. ^ Gardner, W.; Mulvey, E. P.; Shaw, E. C. (1995). "Regressieanalyses van tellingen en tarieven: Poisson, overdispereerde Poisson en negatieve binomiale modellen". Psychologisch bulletin. 118 (3): 392–404. doen:10.1037/0033-2909.118.3.392. Pmid 7501743.
  7. ^ McCullagh, Peter; Nelder, John (1989). Gegeneraliseerde lineaire modellen, tweede editie. Boca Raton: Chapman en Hall/CRC. ISBN 978-0-412-31760-6.
  8. ^ Linearmodelfit, Wolfram Language Documentation Center.
  9. ^ GeneralizedLineArmodelfit, Wolfram Language Documentation Center.
  10. ^ LS, Eviews helpen.
  11. ^ GLM, Eviews helpen.
  12. ^ K.J. Friston; A.P. Holmes; K.J. Worsley; J.-B. Poline; CD. Frith; R.S.J. Frackowiak (1995). "Statistische parametrische kaarten bij functionele beeldvorming: een algemene lineaire benadering". Menselijk brein mapping. 2 (4): 189–210. doen:10.1002/HBM.460020402. S2CID 9898609.

Referenties

  • Christensen, Ronald (2020). Vliegtuig antwoorden op complexe vragen: de theorie van lineaire modellen (Vijfde ed.). New York: Springer. ISBN 978-3-030-32096-6.
  • Wichura, Michael J. (2006). De coördinaatvrije benadering van lineaire modellen. Cambridge -serie in statistische en probabilistische wiskunde. Cambridge: Cambridge University Press. pp. XIV+199. ISBN 978-0-521-86842-6. DHR 2283455.
  • Rawlings, John O.; Pantula, Sastry G.; Dickey, David A., eds. (1998). Toegepaste regressieanalyse. Springer -teksten in statistieken. doen:10.1007/B98890. ISBN 0-387-98454-2.