Regressie analyse

Regressielijn voor 50 willekeurige punten in een Gaussische verdeling Rond de lijn y = 1,5x+2 (niet getoond).

In Statistische modellering, regressie analyse is een reeks statistische processen voor schatting de relaties tussen a afhankelijke variabele (vaak de 'uitkomst' of 'respons' variabele genoemd, of een 'label' in machine learning -taalgebruik) en een of meer onafhankelijke variabelen (Vaak 'voorspellers' genoemd, 'covariaten', 'verklarende variabelen' of 'functies'). De meest voorkomende vorm van regressieanalyse is lineaire regressie, waarin men de lijn vindt (of een complexer lineaire combinatie) dat het meest past bij de gegevens volgens een specifiek wiskundig criterium. Bijvoorbeeld de methode van gewone kleinste vierkanten berekent de unieke lijn (of hyperplane) die de som van vierkante verschillen tussen de werkelijke gegevens en die lijn (of hyperplane) minimaliseert. Om specifieke wiskundige redenen (zie lineaire regressie), dit stelt de onderzoeker in staat om de Voorwaardelijke verwachting (of bevolking gemiddelde waarde) van de afhankelijke variabele wanneer de onafhankelijke variabelen een gegeven set waarden aannemen. Minder veel voorkomende vormen van regressie gebruiken enigszins verschillende procedures om een ​​alternatief te schatten Locatieparameters (bijv. Kwantiele regressie of noodzakelijke voorwaardeanalyse[1]) of schat de voorwaardelijke verwachting over een bredere verzameling niet-lineaire modellen (bijv. niet -parametrische regressie).

Regressieanalyse wordt voornamelijk gebruikt voor twee conceptueel verschillende doeleinden.

Ten eerste wordt regressieanalyse veel gebruikt voor voorspelling en voorspelling, waar het gebruik ervan een aanzienlijke overlap heeft met het veld van Machine Learning.

Ten tweede kan in sommige situaties regressieanalyse worden gebruikt om af te leiden causale relaties tussen de onafhankelijke en afhankelijke variabelen. Belangrijk is dat regressies op zichzelf alleen relaties onthullen tussen een afhankelijke variabele en een verzameling onafhankelijke variabelen in een vaste gegevensset. Om regressies voor voorspelling te gebruiken of respectievelijk causale relaties af te leiden, moet een onderzoeker zorgvuldig rechtvaardigen waarom bestaande relaties voorspellende kracht hebben voor een nieuwe context of waarom een ​​relatie tussen twee variabelen een causale interpretatie heeft. Dit laatste is vooral belangrijk wanneer onderzoekers hopen causale relaties te schatten observatiegegevens.[2][3]

Geschiedenis

De vroegste vorm van regressie was de methode van de minste vierkanten, die werd gepubliceerd door Legendre in 1805,[4] en bij Gauss in 1809.[5] Legendre en Gauss pasten beide de methode toe op het probleem van het bepalen van, uit astronomische waarnemingen, de banen van lichamen over de zon (meestal kometen, maar ook later de toen nieuw ontdekte kleine planeten). Gauss publiceerde een verdere ontwikkeling van de theorie van de minste vierkanten in 1821,[6] inclusief een versie van de Gauss -Markov -stelling.

De term "regressie" werd bedacht door Francis Galton in de 19e eeuw om een ​​biologisch fenomeen te beschrijven. Het fenomeen was dat de hoogten van afstammelingen van lange voorouders de neiging hebben om terug te vallen naar een normaal gemiddelde (een fenomeen ook bekend als bekend als Regressie naar het gemiddelde).[7][8] Voor Galton had regressie alleen deze biologische betekenis,[9][10] Maar zijn werk werd later uitgebreid door Udny yule en Karl Pearson naar een meer algemene statistische context.[11][12] In het werk van Yule en Pearson, de gezamenlijke distributie Van de respons en verklarende variabelen wordt verondersteld te zijn Gaussiaans. Deze veronderstelling werd verzwakt door R.A. Visser in zijn werken van 1922 en 1925.[13][14][15] Fisher ging ervan uit dat de voorwaardelijke verdeling van de responsvariabele is Gaussiaans, maar de gezamenlijke verdeling hoeft niet te zijn. In dit opzicht ligt de veronderstelling van Fisher dichter bij Gauss 'formulering van 1821.

In de jaren 1950 en 1960 gebruikten economen elektromechanische bureau "rekenmachines" om regressies te berekenen. Vóór 1970 duurde het soms tot 24 uur om het resultaat van één regressie te ontvangen.[16]

Regressiemethoden blijven een gebied van actief onderzoek. In de afgelopen decennia zijn nieuwe methoden ontwikkeld voor Robuuste regressie, regressie met gecorreleerde reacties zoals tijdreeksen en groeicurven, regressie waarbij de voorspeller (onafhankelijke variabele) of responsvariabelen curves, afbeeldingen, grafieken of andere complexe gegevensobjecten zijn, regressiemethoden die verschillende soorten ontbrekende gegevens opvullen, niet -parametrische regressie, Bayesiaans methoden voor regressie, regressie waarbij de voorspellende variabelen worden gemeten met fouten, regressie met meer voorspellende variabelen dan waarnemingen, en causale gevolgtrekking met regressie.

Regressie model

In de praktijk selecteren onderzoekers eerst een model dat ze willen schatten en vervolgens hun gekozen methode gebruiken (bijv. gewone kleinste vierkanten) om de parameters van dat model te schatten. Regressiemodellen omvatten de volgende componenten:

  • De Onbekende parameters, vaak aangeduid als een scalair- of vector .
  • De onafhankelijke variabelen, die in gegevens worden waargenomen en vaak worden aangeduid als een vector (waar geeft een rij gegevens aan).
  • De afhankelijke variabele, die worden waargenomen in gegevens en vaak aangeduid met behulp van de scalair .
  • De foutvoorwaarden, welke zijn niet direct waargenomen in gegevens en worden vaak aangeduid met behulp van de scalair .

In verschillende toepassingsgebieden, verschillende terminologieën worden gebruikt in plaats van afhankelijke en onafhankelijke variabelen.

De meeste regressiemodellen stellen dat voor is een functie van en , met een vertegenwoordiging van een Additieve foutterm dat kan opstaan ​​voor niet-gemodelleerde determinanten van of willekeurige statistische ruis:

Het doel van de onderzoekers is om de functie te schatten Dat past het dichtst bij de gegevens. Om regressieanalyse uit te voeren, de vorm van de functie moet worden gespecificeerd. Soms is de vorm van deze functie gebaseerd op kennis over de relatie tussen en Dat is niet afhankelijk van de gegevens. Als een dergelijke kennis niet beschikbaar is, is een flexibele of handige vorm voor is gekozen. Een eenvoudige univariate regressie kan bijvoorbeeld voorstellen , suggererend dat de onderzoeker gelooft om een ​​redelijke benadering te zijn voor het statistische proces dat de gegevens genereert.

Zodra onderzoekers hun voorkeur bepalen statistisch model, verschillende vormen van regressieanalyse bieden hulpmiddelen om de parameters te schatten . Bijvoorbeeld, minst vierkanten (inclusief de meest voorkomende variant, gewone kleinste vierkanten) vindt de waarde van Dat minimaliseert de som van vierkante fouten . Een bepaalde regressiemethode zal uiteindelijk een schatting geven van , meestal aangeduid om de schatting te onderscheiden van de werkelijke (onbekende) parameterwaarde die de gegevens heeft gegenereerd. Met behulp van deze schatting kan de onderzoeker vervolgens de gemonteerde waarde voor voorspelling of om de nauwkeurigheid van het model te beoordelen bij het verklaren van de gegevens. Of de onderzoeker intrinsiek geïnteresseerd is in de schatting of de voorspelde waarde zal afhangen van de context en hun doelen. Zoals beschreven in gewone kleinste vierkanten, minste vierkanten worden veel gebruikt omdat de geschatte functie benadert de Voorwaardelijke verwachting .[5] Alternatieve varianten (bijv. minst absolute afwijkingen of Kwantiele regressie) zijn nuttig wanneer onderzoekers andere functies willen modelleren .

Het is belangrijk op te merken dat er voldoende gegevens moeten zijn om een ​​regressiemodel te schatten. Stel bijvoorbeeld dat een onderzoeker toegang heeft Rijen met gegevens met één afhankelijke en twee onafhankelijke variabelen: . Stel verder dat de onderzoeker een bivariate lineair model wil schatten via minst vierkanten: . Als de onderzoeker alleen toegang heeft Datapunten, dan konden ze oneindig veel combinaties vinden die de gegevens even goed verklaren: elke combinatie kan worden gekozen die voldoet , die allemaal leiden tot en zijn daarom geldige oplossingen die de som van het kwadraat minimaliseren residuen. Om te begrijpen waarom er oneindig veel opties zijn, merkt het op dat het systeem van Vergelijkingen moeten worden opgelost voor 3 onbekenden, wat het systeem maakt onderbepaald. Als alternatief kan men oneindig veel driedimensionale vlakken visualiseren die doorgaan vaste punten.

Meer in het algemeen, om een minst vierkanten Model met verschillende parameters, moet men hebben verschillende gegevenspunten. Als , dan bestaat er in het algemeen niet een set parameters die perfect bij de gegevens passen. De hoeveelheid verschijnt vaak in regressieanalyse en wordt de graden van vrijheid In het model. Bovendien, om een ​​kleinste vierkantenmodel te schatten, de onafhankelijke variabelen moet zijn lineair onafhankelijk: Men moet niet in staat zijn om een ​​van de onafhankelijke variabelen te reconstrueren door de resterende onafhankelijke variabelen toe te voegen en te vermenigvuldigen. Zoals besproken in gewone kleinste vierkanten, deze voorwaarde zorgt dat dat is een omkeerbare matrix en daarom dat een unieke oplossing bestaat.

Onderliggende aannames

Op zichzelf is een regressie gewoon een berekening met behulp van de gegevens. Om de output van regressie te interpreteren als een zinvolle statistische hoeveelheid die real-world relaties meet, vertrouwen onderzoekers vaak op een aantal klassieke aannames. Deze veronderstellingen omvatten vaak:

  • De steekproef is representatief voor de populatie in het algemeen.
  • De onafhankelijke variabelen worden gemeten zonder fout.
  • Afwijkingen van het model hebben een verwachte waarde van nul, voorwaardelijk op covariaten:
  • De variantie van de residuen is constant over waarnemingen (homosedasticiteit).
  • De residuen zijn niet gecorrigeerd met een ander. Wiskundig, de variantie -covariantiematrix van de fouten is diagonaal.

Een handvol voorwaarden zijn voldoende om de kleinste kwadratenschatter wenselijke eigenschappen te bezitten: in het bijzonder de Gauss - Markov veronderstellingen impliceren dat de parameterschattingen zullen zijn onbevooroordeeld, consequent, en efficiënt in de klasse van lineaire onpartijdige schatters. Beoefenaars hebben verschillende methoden ontwikkeld om enkele of al deze gewenste eigenschappen in real-world instellingen te handhaven, omdat het onwaarschijnlijk is dat deze klassieke veronderstellingen precies zijn. Bijvoorbeeld modellering fouten in variabelen Kan leiden tot redelijke schattingen die onafhankelijke variabelen worden gemeten met fouten. Heteroscedasticiteit-consistente standaardfouten Sta de variantie toe van veranderen tussen waarden van . Gecorreleerde fouten die bestaan ​​binnen subsets van de gegevens of die specifieke patronen volgen, kunnen worden afgehandeld met behulp van Geclusterde standaardfouten, geografische gewogen regressie, of Newey - West Standaardfouten, onder andere technieken. Wanneer rijen gegevens overeenkomen met locaties in de ruimte, de keuze om te modelleren Binnen geografische eenheden kunnen belangrijke gevolgen hebben.[17][18] Het subveld van econometrie is grotendeels gericht op het ontwikkelen van technieken waarmee onderzoekers redelijke real-world conclusies kunnen trekken in real-world instellingen, waar klassieke veronderstellingen niet precies zijn.

Lineaire regressie

Bij lineaire regressie is de modelspecificatie dat de afhankelijke variabele, is een lineaire combinatie van de parameters (maar hoeft niet lineair te zijn in de onafhankelijke variabelen). Bijvoorbeeld in Eenvoudige lineaire regressie voor het modelleren Datapunten Er is één onafhankelijke variabele: , en twee parameters, en :

rechte lijn:

Bij meerdere lineaire regressie zijn er verschillende onafhankelijke variabelen of functies van onafhankelijke variabelen.

Een term toevoegen in aan de voorgaande regressie geeft:

parabool:

Dit is nog steeds lineaire regressie; Hoewel de uitdrukking aan de rechterkant kwadratisch is in de onafhankelijke variabele , het is lineair in de parameters , en

In beide gevallen, is een foutterm en het subscript indexeert een bepaalde observatie.

Onze aandacht besteedt aan de rechte lijncase: gezien een willekeurige steekproef van de populatie, schatten we de populatieparameters en verkrijgen we het lineaire regressiemodel van de steekproef:

De restant, , is het verschil tussen de waarde van de afhankelijke variabele voorspeld door het model, , en de werkelijke waarde van de afhankelijke variabele, . Een schattingsmethode is gewone kleinste vierkanten. Deze methode verkrijgt parameterschattingen die de som van het kwadraat minimaliseren residuen, SSR:

Minimalisatie van deze functie resulteert in een set van normale vergelijkingen, een set gelijktijdige lineaire vergelijkingen in de parameters, die zijn opgelost om de parameterschatters te leveren, .

Illustratie van lineaire regressie op een gegevensset.

In het geval van eenvoudige regressie zijn de formules voor de schattingen van de minste kwadraten

waar is de gemeen (gemiddeld) van de waarden en is het gemiddelde van de waarden.

In de veronderstelling dat de bevolkingsfoutterm een ​​constante variantie heeft, wordt de schatting van die variantie gegeven door:

Dit wordt de Gemiddelde vierkante fout (MSE) van de regressie. De noemer is de steekproefomvang verminderd door het aantal modelparameters geschat op basis van dezelfde gegevens, voor regressoren of Als een onderschepping wordt gebruikt.[19] In dit geval, Dus de noemer is .

De standaardfouten van de parameterschattingen worden gegeven door

In de verdere veronderstelling dat de bevolkingsfoutterm normaal wordt verdeeld, kan de onderzoeker deze geschatte standaardfouten gebruiken om te maken betrouwbaarheidsintervallen en gedrag Hypothesetests over de Populatieparameters.

Algemeen lineair model

In het meer algemene meervoudige regressiemodel zijn er onafhankelijke variabelen:

waar is de -th observatie over de -De onafhankelijke variabele. Als de eerste onafhankelijke variabele de waarde 1 voor iedereen nodig heeft , , dan wordt de Regressie onderscheppen.

De minste vierkantenparameterschattingen worden verkregen van Normale vergelijkingen. Het rest kan worden geschreven als

De normale vergelijkingen zijn

In matrixnotatie worden de normale vergelijkingen geschreven als

waar de element van is , de Element van de kolomvector is , en de element van is . Dus is , is , en is . De oplossing is

Diagnostiek

Zodra een regressiemodel is gebouwd, kan het belangrijk zijn om de goedheid van fit van het model en de statistische significantie van de geschatte parameters. Veelgebruikte controles van goedheid van fit zijn onder meer de R-kwadraat, analyses van het patroon van residuen en hypothesetesten. Statistische significantie kan worden gecontroleerd door een F-test van de algehele pasvorm, gevolgd door t-tests van individuele parameters.

Interpretaties van deze diagnostische tests berusten zwaar op de veronderstellingen van het model. Hoewel onderzoek van de residuen kan worden gebruikt om een ​​model ongeldig te maken, de resultaten van een test of F-test zijn soms moeilijker te interpreteren als de veronderstellingen van het model worden geschonden. Als de foutterm bijvoorbeeld geen normale verdeling heeft, volgen de geschatte parameters in kleine monsters bijvoorbeeld geen normale verdelingen en bemoeilijken de gevolgtrekking. Met relatief grote monsters echter een centrale limietstelling kan zodanig worden ingeroepen dat hypothesetesten kunnen doorgaan met behulp van asymptotische benaderingen.

Beperkte afhankelijke variabelen

Beperkte afhankelijke variabelen, die responsvariabelen zijn die zijn categorische variabelen of zijn variabelen beperkt om alleen in een bepaald bereik te vallen, komen vaak voor in econometrie.

De responsvariabele kan niet-continu zijn ("beperkt" om op een deel van de echte lijn te liggen). Voor binaire (nul of één) variabelen, als de analyse verloopt met lineaire regressie van de kleinste kwadraten, wordt het model de Lineair waarschijnlijkheidsmodel. Niet -lineaire modellen voor binaire afhankelijke variabelen omvatten de problemen en Logit -model. De multivariate probit Model is een standaardmethode voor het schatten van een gezamenlijke relatie tussen verschillende binaire afhankelijke variabelen en sommige onafhankelijke variabelen. Voor categorische variabelen Met meer dan twee waarden is er de multinomiale logit. Voor ordinale variabelen Met meer dan twee waarden zijn er de Bestelde logit en geordende probit modellen. Gecensureerde regressiemodellen kan worden gebruikt wanneer de afhankelijke variabele slechts soms wordt waargenomen, en Heckman -correctie Type modellen kunnen worden gebruikt wanneer de steekproef niet willekeurig wordt geselecteerd uit de populatie van interesse. Een alternatief voor dergelijke procedures is lineaire regressie op basis van polychorische correlatie (of polyseriële correlaties) tussen de categorische variabelen. Dergelijke procedures verschillen in de veronderstellingen over de verdeling van de variabelen in de populatie. Als de variabele positief is met lage waarden en de herhaling van het optreden van een gebeurtenis weergeeft, telmodellen zoals de Poisson -regressie of de negatief binomiaal Model kan worden gebruikt.

Niet -lineaire regressie

Wanneer de modelfunctie niet lineair is in de parameters, moet de som van vierkanten worden geminimaliseerd door een iteratieve procedure. Dit introduceert veel complicaties die zijn samengevat in Verschillen tussen lineaire en niet-lineaire kleinste vierkanten.

Interpolatie en extrapolatie

In het midden vertegenwoordigt de geïnterpoleerde rechte lijn de beste balans tussen de punten boven en onder deze lijn. De stippellijnen vertegenwoordigen de twee extreme lijnen. De eerste curven vertegenwoordigen de geschatte waarden. De buitenste krommen vertegenwoordigen een voorspelling voor een nieuwe meting.[20]

Regressiemodellen voorspellen een waarde van de Y variabele gegeven bekende waarden van de X variabelen. Voorspelling binnenin Het bereik van waarden in de dataset die wordt gebruikt voor modelaanpassing is informeel bekend als interpolatie. Voorspelling buiten Dit bereik van de gegevens staat bekend als extrapolatie. Het uitvoeren van extrapolatie is sterk afhankelijk van de regressie -veronderstellingen. Hoe verder de extrapolatie buiten de gegevens gaat, hoe meer ruimte er is om het model te mislukken vanwege verschillen tussen de veronderstellingen en de steekproefgegevens of de werkelijke waarden.

Het wordt algemeen geadviseerd dat u bij het uitvoeren van extrapolatie de geschatte waarde van de afhankelijke variabele met een voorspellingsinterval Dat vertegenwoordigt de onzekerheid. Dergelijke intervallen hebben de neiging om snel uit te breiden naarmate de waarden van de onafhankelijke variabele (en) buiten het bereik van de waargenomen gegevens zijn verplaatst.

Om dergelijke redenen en anderen zeggen sommigen de neiging dat het onverstandig kan zijn om extrapolatie te ondernemen.[21]

Dit omvat echter niet de volledige set modelleringsfouten die kunnen worden gemaakt: in het bijzonder de veronderstelling van een bepaalde vorm voor de relatie tussen Y en X. Een goed uitgevoerde regressieanalyse zal een beoordeling bevatten van hoe goed de veronderstelde vorm wordt gekoppeld door de waargenomen gegevens, maar dit kan alleen binnen het bereik van waarden van de onafhankelijke variabelen die beschikbaar zijn. Dit betekent dat elke extrapolatie vooral afhankelijk is van de veronderstellingen die worden gedaan over de structurele vorm van de regressierelatie. Het best practice-advies hier is dat een lineaire-in-variabelen en lineaire-in-parametersrelatie niet eenvoudig moeten worden gekozen voor computationeel gemak, maar dat alle beschikbare kennis moet worden ingezet bij het construeren van een regressiemodel. Als deze kennis het feit omvat dat de afhankelijke variabele niet buiten een bepaald bereik van waarden kan gaan, kan dit worden gebruikt bij het selecteren van het model - zelfs als de waargenomen gegevensset geen waarden heeft, met name in de buurt van dergelijke grenzen. De implicaties van deze stap van het kiezen van een geschikte functionele vorm voor de regressie kunnen geweldig zijn wanneer extrapolatie wordt overwogen. Het kan op zijn minst ervoor zorgen dat elke extrapolatie die voortkomt uit een gepast model "realistisch" is (of in overeenstemming met wat bekend is).

Vermogen- en steekproefgrootteberekeningen

Er zijn geen algemeen overeengekomen methoden voor het relateren van het aantal observaties versus het aantal onafhankelijke variabelen in het model. Een methode vermoedelijk door Good en Hardin is , waar is de steekproefgrootte, is het aantal onafhankelijke variabelen en is het aantal waarnemingen dat nodig is om de gewenste precisie te bereiken als het model slechts één onafhankelijke variabele had.[22] Een onderzoeker bouwt bijvoorbeeld een lineair regressiemodel met behulp van een gegevensset die 1000 patiënten bevat (). Als de onderzoeker besluit dat er vijf observaties nodig zijn om een ​​rechte lijn precies te definiëren (), dan is het maximale aantal onafhankelijke variabelen dat het model kan ondersteunen 4, omdat

Andere methodes

Hoewel de parameters van een regressiemodel meestal worden geschat met behulp van de methode van de kleinste kwadraten, zijn andere methoden die zijn gebruikt:

Software

Alle belangrijke statistische softwarepakketten presteren minst vierkanten Regressieanalyse en gevolgtrekking. Eenvoudige lineaire regressie en meerdere regressie met behulp van de kleinste vierkanten kan in sommigen worden gedaan spreadsheet Toepassingen en op sommige rekenmachines. Hoewel veel statistische softwarepakketten verschillende soorten niet -parametrische en robuuste regressie kunnen uitvoeren, zijn deze methoden minder gestandaardiseerd. Verschillende softwarepakketten implementeren verschillende methoden en een methode met een bepaalde naam kan anders worden geïmplementeerd in verschillende pakketten. Gespecialiseerde regressiesoftware is ontwikkeld voor gebruik op gebieden zoals enquêteanalyse en neuroimaging.

Zie ook

Referenties

  1. ^ Noodzakelijke voorwaardeanalyse
  2. ^ David A. Freedman (27 april 2009). Statistische modellen: theorie en praktijk. Cambridge University Press. ISBN 978-1-139-47731-4.
  3. ^ R. Dennis Cook; Sanford Weisberg Kritiek en invloedsanalyse bij regressie, Sociologische methodologie, Vol. 13. (1982), pp. 313–361
  4. ^ BEN. Legendre. Nouvelles méthodes pour la détermination des orbites decomètes, Firmin Didot, Parijs, 1805. "Sur La Méthode Des Moindres Quarrés" verschijnt als een bijlage.
  5. ^ a b Hoofdstuk 1 van: Angrist, J. D., & Pischke, J. S. (2008). Meestal onschadelijke econometrie: de metgezel van een empirist. Princeton University Press.
  6. ^ C.F. Gauss. Theoria combinatieis observationum erroribus minimis obnoxiae. (1821/1823)
  7. ^ Mogull, Robert G. (2004). Tweede semester toegepaste statistieken. Kendall/Hunt Publishing Company. p. 59. ISBN 978-0-7575-1181-3.
  8. ^ Galton, Francis (1989). "Kinship and Correlation (herdrukt 1989)". Statistische wetenschap. 4 (2): 80–86. doen:10.1214/ss/1177012581. Jstor 2245330.
  9. ^ Francis Galton. "Typische wetten van erfelijkheid", Nature 15 (1877), 492–495, 512–514, 532–533. (Galton gebruikt de term "omkering" in dit artikel, waarin de grootte van erwten wordt besproken.)
  10. ^ Francis Galton. Presidentieel adres, sectie H, antropologie. (1885) (Galton gebruikt de term "regressie" in dit artikel, waarin het hoogtepunt van mensen wordt besproken.)
  11. ^ Yule, G. Udny (1897). "Over de correlatietheorie". Journal of the Royal Statistical Society. 60 (4): 812–54. doen:10.2307/2979746. Jstor 2979746.
  12. ^ Pearson, Karl; Yule, G.U.; Blanchard, Norman; Lee, Alice (1903). "De wet van voorouderlijke erfelijkheid". Biometrika. 2 (2): 211–236. doen:10.1093/biomet/2.2.211. Jstor 2331683.
  13. ^ Fisher, R.A. (1922). "De goedheid van de fit van regressieformules en de verdeling van regressiecoëfficiënten". Journal of the Royal Statistical Society. 85 (4): 597–612. doen:10.2307/2341124. Jstor 2341124. PMC 1084801.
  14. ^ Ronald A. Fisher (1954). Statistische methoden voor onderzoekswerkers (Twaalfde ed.). Edinburgh: Oliver en Boyd. ISBN 978-0-05-002170-5.
  15. ^ Aldrich, John (2005). "Fisher en regressie". Statistische wetenschap. 20 (4): 401–417. doen:10.1214/088342305000000331. Jstor 20061201.
  16. ^ Rodney Ramcharan. Regressies: waarom worden economen met hen bekleed? Maart 2006. Toegang tot 2011-12-03.
  17. ^ Fotheringham, A. Stewart; Brunsdon, Chris; Charlton, Martin (2002). Geografisch gewogen regressie: de analyse van ruimtelijk variërende relaties (Reprint ed.). Chichester, Engeland: John Wiley. ISBN 978-0-471-49616-8.
  18. ^ Fotheringham, als; Wong, DWS (1 januari 1991). "Het gewijzigbare probleem van de oppervlakte -eenheid in multivariate statistische analyse". Omgeving en plannen van een. 23 (7): 1025-1044. doen:10.1068/A231025. S2CID 153979055.
  19. ^ Steel, R.G.D en Torrie, J. H., Principes en procedures van statistieken met speciale verwijzing naar de biologische wetenschappen., McGraw Hill, 1960, pagina 288.
  20. ^ Rouaud, Mathieu (2013). Waarschijnlijkheid, statistieken en schatting (PDF). p. 60.
  21. ^ Chiang, C.L, (2003) Statistische analysemethoden, Wereldwetenschappelijk. ISBN981-238-310-7- Pagina 274 Sectie 9.7.4 "Interpolatie versus extrapolatie"
  22. ^ Goed, P. I.; Hardin, J. W. (2009). Veel voorkomende fouten in statistieken (en hoe ze te vermijden) (3e ed.). Hoboken, New Jersey: Wiley. p. 211. ISBN 978-0-470-45798-6.
  23. ^ Tofallis, C. (2009). "Minste vierkanten percentage regressie". Journal of Modern Toegepaste statistische methoden. 7: 526–534. doen:10.2139/ssrn.1406472. SSRN 1406472.
  24. ^ Yangjing Long (2009). "De menselijke leeftijdsschatting door metrisch leren voor regressieproblemen" (PDF). Proc. Internationale conferentie over computeranalyse van afbeeldingen en patronen: 74–82. Gearchiveerd van het origineel (PDF) op 2010-01-08.

Verder lezen

Evan J. Williams, "I. Regressie", pp. 523–41.
Julian C. Stanley, "II. Variantieanalyse", pp. 541–554.
  • Lindley, D.V. (1987). "Regressie- en correlatieanalyse", " New Palgrave: A Dictionary of Economics, v. 4, pp. 120–23.
  • Birkes, David en Dodge, Y., Alternatieve methoden van regressie. ISBN0-471-56881-3
  • Chatfield, C. (1993) "Het berekenen van intervalvoorspellingen, " Journal of Business and Economic Statistics, 11. pp. 121–135.
  • Draper, N.R.; Smith, H. (1998). Toegepaste regressieanalyse (3e ed.). John Wiley. ISBN 978-0-471-17082-2.
  • Fox, J. (1997). Toegepaste regressieanalyse, lineaire modellen en gerelateerde methoden. Verstandig
  • Hardle, W., Niet -parametrische regressie toegepast (1990), ISBN0-521-42950-1
  • Meade, Nigel; Islam, Towhidul (1995). "Voorspellingsintervallen voor voorspelingen van de groeicurve". Journal of Forecasting. 14 (5): 413–430. doen:10.1002/voor.3980140502.
  • A. Sen, M. Srivastava, Regressieanalyse - theorie, methoden en toepassingen, Springer-Verlag, Berlijn, 2011 (4e printing).
  • T. Strutz: Gegevensaanpassing en onzekerheid (een praktische introductie tot gewogen kleinste vierkanten en daarna). Vieweg+Teubner, ISBN978-3-8348-1022-9.
  • Stulp, Freek en Olivier Sigaud. Veel regressie -algoritmen, één uniform model: een overzicht. Neural Networks, Vol. 69, september 2015, pp. 60-79. https://doi.org/10.1016/j.neunet.2015.05.005.
  • Malakooti, ​​B. (2013). Bewerkingen en productiesystemen met meerdere doelstellingen. John Wiley & Sons.

Externe links