Bootstrapping (statistieken)
Bootstrapping is elke test of metriek die gebruikt Willekeurige bemonstering met vervanging (bijv. Het bemonsteringsproces nabootsen), en valt onder de bredere klasse van herbevestiging Methoden.Bootstrapping geeft nauwkeurigheidsmaatregelen toe (vooringenomenheid, variantie, betrouwbaarheidsintervallen, voorspellingsfout, enz.) Om schattingen te bemonsteren.[1][2] Deze techniek maakt schatting van de steekproefverdeling van bijna elke statistiek met behulp van willekeurige bemonsteringsmethoden.[3][4]
Bootstrapping schat de eigenschappen van een schatten (zoals zijn variantie) door die eigenschappen te meten bij het bemonsteren van een benadering van een benadering.Een standaardkeuze voor een benaderingsverdeling is de empirische distributiefunctie van de waargenomen gegevens.In het geval dat kan worden aangenomen dat een reeks observaties van een onafhankelijk en identiek verdeeld Bevolking, dit kan worden geïmplementeerd door een aantal te bouwen opnieuw voorbeelden bij vervanging, van de waargenomen gegevensset (en van gelijke grootte als de waargenomen gegevensset).
Het kan ook worden gebruikt voor het construeren Hypothesetests.Het wordt vaak gebruikt als alternatief voor Statistische inferentie Op basis van de veronderstelling van een parametrisch model wanneer die veronderstelling in twijfel staat, of wanneer parametrische inferentie onmogelijk is of gecompliceerde formules vereist voor de berekening van standaardfouten.
Geschiedenis
De bootstrap werd gepubliceerd door Bradley Efron In "Bootstrap Methods: Another Look to the JackKnife" (1979),[5][6][7] geïnspireerd door eerder werk op de kwijt.[8][9][10] Verbeterde schattingen van de variantie werden later ontwikkeld.[11][12] Een Bayesiaanse uitbreiding werd ontwikkeld in 1981.[13] De bias-gecorrigeerde en versnelde (BCA) bootstrap is ontwikkeld door Efron in 1987,[14] en de ABC -procedure in 1992.[15]
Nadering
Het basisidee van bootstrapping is dat inferentie over een populatie uit steekproefgegevens (steekproef → populatie) kan worden gemodelleerd door herbevestiging De voorbeeldgegevens en het uitvoeren van inferentie over een monster uit opnieuw bemonsterde gegevens (opnieuw bemonsterd → monster).Omdat de populatie onbekend is, is de werkelijke fout in een steekproefstatistiek tegen de populatiewaarde onbekend.In bootstrap-resamples is de 'populatie' in feite de steekproef, en dit is bekend;Vandaar dat de kwaliteit van de gevolgtrekking van het 'echte' monster uit opnieuw bemonsterde gegevens (opnieuw bemonsterd → monster) meetbaar is.
Meer formeel werkt de bootstrap door de gevolgtrekking van de ware waarschijnlijkheidsverdeling te behandelen J, gezien de oorspronkelijke gegevens, als analoog aan een gevolgtrekking van de empirische verdeling Ĵ, gezien de opnieuw bemonsterde gegevens.De nauwkeurigheid van conclusies met betrekking tot Ĵ Het gebruik van de opnieuw bemonsterde gegevens kan worden beoordeeld omdat we het weten Ĵ. Als Ĵ is een redelijke benadering van J, dan de kwaliteit van de gevolgtrekking op J kan op zijn beurt worden afgeleid.
Ga er bijvoorbeeld van uit dat we geïnteresseerd zijn in het gemiddelde (of gemeen) Hoogte van mensen wereldwijd.We kunnen niet alle mensen in de wereldbevolking meten, dus in plaats daarvan proeven we slechts een klein deel ervan en meten we dat.Neem aan dat het monster van grootte is N;dat wil zeggen, we meten de hoogten van N individuen.Uit dat enkele monster kan slechts één schatting van het gemiddelde worden verkregen.Om over de bevolking te redeneren, hebben we enig gevoel van de variabiliteit van het gemiddelde dat we hebben berekend.De eenvoudigste bootstrap -methode omvat het nemen van de originele gegevensset van hoogten, en, met behulp van een computer, het bemonsteren ervan om een nieuw monster te vormen (een 'resample' of bootstrap -monster) dat ook van grootte isN.Het bootstrap -monster is uit het origineel gehaald door te gebruiken bemonstering met vervanging (bijv. We kunnen bijvoorbeeld 5 keer 'resamperen' van [1,2,3,4,5] en krijgen [2,5,4,4,1]), dus, ervan uitgaande N is voldoende groot, voor alle praktische doeleinden is er vrijwel nul waarschijnlijkheid dat het identiek zal zijn aan het oorspronkelijke "echte" monster.Dit proces wordt een groot aantal keren herhaald (meestal 1.000 of 10.000 keer), en voor elk van deze bootstrap -monsters berekenen we het gemiddelde (elk van deze wordt een "bootstrap -schatting" genoemd).We kunnen nu een histogram van bootstrap -middelen maken.Dit histogram geeft een schatting van de vorm van de verdeling van het monstergemiddelde waaruit we vragen kunnen beantwoorden over hoeveel het gemiddelde varieert tussen monsters.(De methode hier, beschreven voor het gemiddelde, kan op bijna elke andere worden toegepast statistiek of schatter.)
Discussie
Voordelen
Een groot voordeel van bootstrap is de eenvoud.Het is een eenvoudige manier om schattingen af te leiden van standaardfouten en betrouwbaarheidsintervallen Voor complexe schatters van de verdeling, zoals percentielpunten, verhoudingen, odds ratio en correlatiecoëfficiënten.Ondanks zijn eenvoud kan bootstrapping echter worden toegepast op complexe bemonsteringsontwerpen (bijvoorbeeld voor populatie verdeeld in S -lagen met ns Observaties per lagen, bootstrapping kan voor elke lagen worden toegepast).[16] Bootstrap is ook een geschikte manier om de stabiliteit van de resultaten te controleren en te controleren.Hoewel het voor de meeste problemen het ware betrouwbaarheidsinterval onmogelijk is, is bootstrap asymptotisch nauwkeuriger dan de standaardintervallen verkregen met behulp van monstervariantie en veronderstellingen van normaliteit.[17] Bootstrapping is ook een handige methode die de kosten voor het herhalen van het experiment vermijdt om andere groepen monstergegevens te krijgen.
Nadelen
Bootstrapping hangt sterk af van de gebruikte schatter en, hoewel eenvoudig, onwetend gebruik van bootstrapping zal niet altijd asymptotisch geldige resultaten opleveren en kan leiden tot inconsistentie.[18] Hoewel bootstrapping (onder sommige omstandigheden) asymptotisch is consequent, het biedt geen algemene eindige-steekproefgaranties.Het resultaat kan afhangen van het representatieve monster.De schijnbare eenvoud kan het feit verbergen dat er belangrijke veronderstellingen worden gedaan bij het uitvoeren van de bootstrap -analyse (bijv. Onafhankelijkheid van monsters of groot genoeg van een steekproefgrootte) waar deze formeler in andere benaderingen zouden worden vermeld.Bootstrapping kan ook tijdrovend zijn en er zijn niet veel beschikbare software voor bootstrapping, omdat het moeilijk te automatiseren is met behulp van traditionele statistische computerpakketten.[16]
Aanbevelingen
Geleerden hebben meer bootstrap -monsters aanbevolen, omdat de beschikbare rekenkracht is toegenomen.Als de resultaten aanzienlijke real-world gevolgen kunnen hebben, moet men zoveel monsters gebruiken als redelijk is, gegeven beschikbare rekenkracht en tijd.Het verhogen van het aantal monsters kan de hoeveelheid informatie in de oorspronkelijke gegevens niet verhogen;Het kan alleen de effecten van willekeurige bemonsteringsfouten verminderen die kunnen voortvloeien uit een bootstrap -procedure zelf.Bovendien zijn er aanwijzingen dat het aantal monsters groter dan 100 leidt tot verwaarloosbare verbeteringen in de schatting van standaardfouten.[19] Volgens de oorspronkelijke ontwikkelaar van de bootstrapping -methode zal zelfs het instellen van het aantal monsters op 50 waarschijnlijk leiden tot redelijk goede standaardfoutschattingen.[20]
Adèr et al.Beveel de bootstrap -procedure aan voor de volgende situaties:[21]
- Wanneer de theoretische verdeling van een interesse statistiek ingewikkeld of onbekend is.Aangezien de bootstrapping-procedure distributie-onafhankelijk is, biedt deze een indirecte methode om de eigenschappen van de onderliggende verdeling van het monster en de belangenparameters te beoordelen die zijn afgeleid van deze verdeling.
- Wanneer de steekproefgrootte is onvoldoende voor eenvoudige statistische inferentie.Als de onderliggende verdeling bekend is, biedt bootstrapping een manier om rekening te houden met de vervormingen veroorzaakt door de specifieke steekproef die mogelijk niet volledig representatief is voor de bevolking.
- Wanneer vermogensberekeningen moet worden uitgevoerd en er is een klein pilootmonster beschikbaar.De meeste berekeningen van het vermogen en de steekproefgrootte zijn sterk afhankelijk van de standaardafwijking van de interessestatistiek.Als de gebruikte schatting onjuist is, is de vereiste steekproefgrootte ook verkeerd.Een methode om een indruk te krijgen van de variatie van de statistiek is om een klein pilootmonster te gebruiken en bootstrapping erop uit te voeren om de indruk van de variantie te krijgen.
Athreya heeft echter aangetoond[22] dat als iemand een naïeve bootstrap op het steekproef betekent, wanneer de onderliggende populatie een eindige variantie mist (bijvoorbeeld een machtswetverdeling), dan zal de bootstrap -verdeling niet tot dezelfde limiet convergeren als het monstergemiddelde.Als gevolg hiervan, betrouwbaarheidsintervallen op basis van een Monte Carlo simulatie van de bootstrap kan misleidend zijn.Athreya stelt dat "tenzij iemand redelijk zeker is dat de onderliggende verdeling dat niet is zware staart, men moet aarzelen om de naïeve bootstrap te gebruiken ".
Soorten bootstrap -schema
In univariate problemen is het meestal acceptabel om de individuele observaties opnieuw te bemonsteren met vervanging ("case resampling" in tegenstelling tot dan ook dan subsampling, waarin resampling zonder vervanging is en geldig is onder veel zwakkere omstandigheden in vergelijking met de bootstrap.In kleine monsters kan een parametrische bootstrap -benadering de voorkeur hebben.Voor andere problemen, a gladde bootstrap zal waarschijnlijk de voorkeur krijgen.
Voor regressieproblemen zijn verschillende andere alternatieven beschikbaar.[1]
Case resampling
De bootstrap is over het algemeen nuttig voor het schatten van de verdeling van een statistiek (bijv. Gemiddelde, variantie) zonder normaliteitsaannames te gebruiken (zoals vereist, bijvoorbeeld voor een z-statistiek of een T-statistisch).In het bijzonder is de bootstrap nuttig wanneer er geen analytische vorm of een asymptotische theorie is (bijvoorbeeld een toepasselijk centrale limietstelling) om de verdeling van de interessestatistieken te schatten.Dit komt omdat bootstrap -methoden kunnen van toepassing kunnen zijn op de meeste willekeurige hoeveelheden, bijvoorbeeld de verhouding van variantie en gemiddelde.Er zijn minstens twee manieren om case -resampling uit te voeren.
- Het Monte Carlo -algoritme voor case -resampling is vrij eenvoudig.Eerst vormen we de gegevens opnieuw bij vervanging en de grootte van het resample moet gelijk zijn aan de grootte van de oorspronkelijke gegevensset.Vervolgens wordt de interesse statistiek berekend vanaf de resample vanaf de eerste stap.We herhalen deze routine vele malen om een meer precieze schatting te krijgen van de bootstrap -verdeling van de statistiek.[1]
- De 'exacte' versie voor case -resampling is vergelijkbaar, maar we sombes uitputtend elk mogelijk resample van de gegevensset opsommen.Dit kan computationeel duur zijn, want er zijn er een totaal van verschillende resamples, waar n is de grootte van de gegevensset.Dus voor n= 5, 10, 20, 30 Er zijn 126, 92378, 6.89 × 1010 en 5.91 × 1016 verschillende resamples respectievelijk.[23]
Het schatten van de verdeling van het monstergemiddelde
Overweeg een experiment met munten.We draaien de munt om en nemen vast of het hoofden of staarten landt.Laten X = x1, x2,…, x10 zijn 10 observaties uit het experiment. xi = 1 Als de I th flip hoofden landt, en anders 0.Door de veronderstelling op te roepen dat het gemiddelde van de muntflips normaal wordt verdeeld, kunnen we de T-statistisch Om de verdeling van het monstergemiddelde te schatten,
Een dergelijke normaliteitsveronderstelling kan worden gerechtvaardigd als een benadering van de verdeling van elk individu munt flip of als een benadering van de verdeling van de gemiddeld van een groot aantal muntenflips.De eerste is een slechte benadering omdat de ware verdeling van de muntflips is Bernoulli in plaats van normaal.De laatste is een geldige benadering in oneindig groot monsters vanwege de centrale limietstelling.
Als we echter niet klaar zijn om een dergelijke rechtvaardiging te maken, kunnen we in plaats daarvan de bootstrap gebruiken.Met behulp van case resampling kunnen we de verdeling van afleiden van .We zijn eerst de gegevens opnieuw bemonsteren om een bootstrap resample.Een voorbeeld van de eerste resample kan er zo uitzien X1* = x2, x1, x10, x10, x3, x4, x6, x7, x1, x9.Er zijn enkele duplicaten, omdat een bootstrap -resample voortkomt uit bemonstering met vervanging van de gegevens.Ook is het aantal gegevenspunten in een bootstrap -resample gelijk aan het aantal gegevenspunten in onze oorspronkelijke waarnemingen.Dan berekenen we het gemiddelde van dit resample en verkrijgen we de eerste bootstrap betekent: μ1*.We herhalen dit proces om het tweede resample te verkrijgen X2* en bereken het tweede bootstrap -gemiddelde μ2*.Als we dit 100 keer herhalen, dan hebben we dat μ1*, μ2*, ..., μ100*.Dit vertegenwoordigt een Empirische bootstrap -verdeling van monstergemiddelde.Uit deze empirische verdeling kan men een bootstrap betrouwbaarheidsinterval voor het testen van hypothesen.
Regressie
In regressieproblemen, case resampling verwijst naar het eenvoudige schema van het opnieuw bemonsteren van individuele gevallen - vaak rijen van een gegevensset.Voor regressieproblemen, zolang de gegevensset vrij groot is, is dit eenvoudige schema vaak acceptabel.[24][25][26] De methode staat echter open voor kritiek.[16]
In regressieproblemen, de verklarende variabelen worden vaak gefixeerd, of op zijn minst waargenomen met meer controle dan de responsvariabele.Ook definieert het bereik van de verklarende variabelen de beschikbare informatie.Daarom betekent het opnieuw voorbeeld van gevallen dat elk bootstrap -monster enige informatie verliest.Als zodanig moeten alternatieve bootstrap -procedures worden overwogen.
Bayesiaanse bootstrap
Bootstrapping kan worden geïnterpreteerd in een Bayesiaans Framework met behulp van een schema dat nieuwe gegevenssets maakt door de initiële gegevens opnieuw te wegen.Gegeven een set van Gegevenspunten, de weging toegewezen aan gegevenspunt In een nieuwe gegevensset is , waar is een lage tot hoge geordende lijst van uniform verdeelde willekeurige getallen op , voorafgegaan door 0 en opgevolgd door 1. De verdelingen van een parameter afgeleid van het overwegen van veel dergelijke gegevenssets zijn dan interpreteerbaar als achterste distributies Over die parameter.[27]
Gladde bootstrap
Volgens dit schema wordt een kleine hoeveelheid (meestal normaal verdeelde) nul-gecentreerde willekeurige ruis toegevoegd aan elke opnieuw bemonsterde waarneming.Dit komt overeen met bemonstering van een kerneldichtheid schatting van de gegevens.Aannemen K om een symmetrische kerneldichtheidsfunctie te zijn met eenheidsvariantie.De standaard kernel schatter van is
waar is de gladde parameter.En de bijbehorende distributiefunctie schatter is
Parametrische bootstrap
Op basis van de veronderstelling dat de oorspronkelijke gegevensset een realisatie is van een willekeurig monster uit een verdeling van een specifiek parametrisch type, wordt in dit geval een parametrisch model gemonteerd door parameter θ, vaak door maximale kansen monsters van willekeurige nummers zijn afkomstig uit dit gepaste model.Gewoonlijk heeft het getekende monster dezelfde steekproefgrootte als de oorspronkelijke gegevens.Dan kan de schatting van de oorspronkelijke functie F worden geschreven als .Dit bemonsteringsproces wordt vele malen herhaald als voor andere bootstrap -methoden.Gezien de gecentreerde monstergemiddelde In dit geval is de random sample originele distributiefunctie wordt vervangen door een bootstrap willekeurig monster met functie en de waarschijnlijkheidsverdeling van wordt benaderd door die van , waar , dat is de verwachting die overeenkomt met .[29] Het gebruik van een parametrisch model in de bemonsteringsfase van de bootstrap -methode leidt tot procedures die verschillen van die verkregen door de basisstatistische theorie toe te passen op inferentie voor hetzelfde model.
Resampling residuen
Een andere benadering van bootstrapping in regressieproblemen is om resample residuen.De methode verloopt als volgt.
- Plaats het model en behoud de gepaste waarden en de residuen .
- Voor elk paar, (xi, yi), waarin xi is de (mogelijk multivariate) verklarende variabele, voeg een willekeurig opnieuw bemonstering toe, , tot de gepaste waarde .Met andere woorden, maak synthetische responsvariabelen waar j is willekeurig geselecteerd uit de lijst (1, ..., n) voor iedere i.
- Ref het model opnieuw aan met behulp van de fictieve responsvariabelen en behouden de hoeveelheden interesse (vaak de parameters, , geschat uit het synthetische ).
- Herhaal stappen 2 en 3 een groot aantal keren.
Dit schema heeft het voordeel dat het de informatie in de verklarende variabelen behoudt.Er rijst echter een vraag over welke residuen om opnieuw te bemonsteren.Rauwe residuen zijn een optie;Een ander is Residuen van de student (in lineaire regressie).Hoewel er argumenten zijn voor het gebruik van residuen van studenten;In de praktijk maakt het vaak weinig verschil en is het gemakkelijk om de resultaten van beide schema's te vergelijken.
Gaussiaanse procesregressie bootstrap
Wanneer gegevens tijdelijk worden gecorreleerd, vernietigt eenvoudige bootstrapping de inherente correlaties.Deze methode maakt gebruik van Gaussiaanse procesregressie (GPR) om een probabilistisch model te passen waaruit replicaties vervolgens kunnen worden getrokken.GPR is een Bayesiaanse niet-lineaire regressiemethode.Een Gaussiaans proces (GP) is een verzameling willekeurige variabelen, waarvan elk eindig aantal een gezamenlijke Gaussiaanse (normale) verdeling heeft.Een huisarts wordt gedefinieerd door een gemiddelde functie en een covariantiefunctie, die de gemiddelde vectoren en covariantiematrices specificeren voor elke eindige verzameling van de willekeurige variabelen.[30]
Regressie model:
- is een ruistijd.
Gaussiaans proces eerder:
Voor elke eindige verzameling variabelen, x1, ...,xn, de functie gaat uit worden gezamenlijk verdeeld volgens een multivariate Gaussian met gemiddelde en covariantiematrix
Aannemen Dan ,,
waar , en is de standaard Kronecker Delta -functie.[30]
Gaussiaans proces posterieur:
Volgens GP Prior kunnen we krijgen
- ,
waar en
Laat x1*,...,xs* Wees weer een eindige verzameling variabelen, het is duidelijk dat
- ,
waar , ,
Volgens de bovenstaande vergelijkingen, de uitgangen y worden ook gezamenlijk verdeeld volgens een multivariate Gaussian.Dus,
waar , , , en is identiteitsmatrix.[30]
Wilde bootstrap
The Wild Bootstrap, oorspronkelijk voorgesteld door Wu (1986),[31] is geschikt als het model exposeert heteroskedasticiteit.Het idee is, als de resterende bootstrap, om de regressors tegen hun steekproefwaarde te laten, maar om de responsvariabele op te lossen op basis van de residuenwaarden.Dat is voor elke replicatie, één berekent een nieuwe gebaseerd op
Dus de residuen worden willekeurig vermenigvuldigd met een willekeurige variabele met gemiddelde 0 en variantie 1. voor de meeste verdelingen van (maar niet die van Mammen), veronderstelt deze methode dat de 'ware' restverdeling symmetrisch is en voordelen kan bieden ten opzichte van eenvoudige resterende bemonstering voor kleinere steekproefgroottes.Verschillende vormen worden gebruikt voor de willekeurige variabele , zoals
- Een verdeling voorgesteld door Mammen (1993).[32]
- Ongeveer, de verdeling van Mammen is:
- Of de eenvoudigere verdeling, gekoppeld aan de Rademacherverdeling:
Blok bootstrap
De blok bootstrap wordt gebruikt wanneer de gegevens of de fouten in een model gecorreleerd zijn.In dit geval zal een eenvoudig geval of restbemonstering mislukken, omdat het de correlatie in de gegevens niet kan repliceren.De Block Bootstrap probeert de correlatie te repliceren door weerbemonstering in gegevensblokken te herstellen (zie Blokkering (statistieken)).De blok bootstrap is voornamelijk gebruikt met gegevens die in de tijd zijn gecorreleerd (d.w.z. tijdreeksen), maar kan ook worden gebruikt met gegevens die zijn gecorreleerd in de ruimte of tussen groepen (zogenaamde clustergegevens).
Tijdreeks: Simple Block Bootstrap
In de (eenvoudige) blok bootstrap wordt de variabele van interesse opgesplitst in niet-overlappende blokken.
Time Series: Moving Block Bootstrap
In het bewegende blok Bootstrap, geïntroduceerd door Künsch (1989),[33] Gegevens worden opgesplitst in n-b+1 overlappende lengteblokken b: Observatie 1 tot B zal blok 1 zijn, observatie 2 tot b+1 wordt blok 2, enz. n-b+1 blokken, n/b Blokken worden willekeurig getekend bij vervanging.Door deze N/B -blokken uit te lijnen in de volgorde die ze werden gekozen, zal de bootstrap -observaties geven.
Deze bootstrap werkt met afhankelijke gegevens, maar de bootstrappe observaties zullen niet meer stationair zijn door de bouw.Maar er werd aangetoond dat de bloklengte die willekeurig varieert, dit probleem kan voorkomen.[34] Deze methode staat bekend als de Stationaire bootstrap. Andere gerelateerde wijzigingen van het bewegende blok bootstrap zijn de Markoviaanse bootstrap en een stationaire bootstrap -methode die overeenkomt met latere blokken op basis van standaardafwijking.
Tijdreeks: maximale entropie bootstrap
Vinod (2006),[35] presenteert een methode die tijdreeksgegevens met maximale entropie-principes met behulp van de ergodische stelling met gemiddelde behoud en massa-bewarende beperkingen bevredigen.Er is een R -pakket, boot,[36] Dat maakt gebruik van de methode, die toepassingen heeft in econometrie en informatica.
Clustergegevens: Block bootstrap
Clustergegevens beschrijven gegevens waarbij veel observaties per eenheid worden waargenomen.Dit zou het observeren van veel bedrijven in veel staten kunnen observeren of studenten in veel klassen observeren.In dergelijke gevallen is de correlatiestructuur vereenvoudigd en menen men meestal de veronderstelling dat gegevens zijn gecorreleerd binnen een groep/cluster, maar onafhankelijk tussen groepen/clusters.De structuur van de blok bootstrap wordt gemakkelijk verkregen (waarbij het blok gewoon overeenkomt met de groep), en meestal worden alleen de groepen opnieuw bemonsterd, terwijl de waarnemingen binnen de groepen ongewijzigd worden gelaten. Cameron et al.(2008) bespreekt dit voor geclusterde fouten bij lineaire regressie.[37]
Methoden voor het verbeteren van de rekenefficiëntie
De bootstrap is een krachtige techniek, hoewel mogelijk substantiële computerbronnen in zowel tijd als geheugen vereisen.Sommige technieken zijn ontwikkeld om deze last te verminderen.Ze kunnen in het algemeen worden gecombineerd met veel van de verschillende soorten bootstrap -schema's en verschillende statistiekenkeuzes.
Poisson bootstrap

De gewone bootstrap vereist de willekeurige selectie van N -elementen uit een lijst, die equivalent is aan het tekenen van een multinomiale verdeling.Dit kan een groot aantal passen over de gegevens vereisen en is een uitdaging om deze berekeningen parallel uit te voeren.Voor grote waarden van N is de Poisson -bootstrap een efficiënte methode voor het genereren van bootstrappe gegevenssets.[38] Bij het genereren van een enkel bootstrap -monster, in plaats van willekeurig uit de steekproefgegevens bij vervanging te halen, wordt elk gegevenspunt toegewezen een willekeurig gewicht dat is verdeeld volgens de Poisson -verdeling met .Voor grote steekproefgegevens benaderen dit willekeurige bemonstering bij vervanging.Dit komt door de volgende benadering:
Deze methode leent zich ook goed voor het streamen van gegevens en groeiende gegevenssets, omdat het totale aantal monsters niet bekend hoeft te zijn voorafgaand aan het beginnen van bootstrap -monsters.
Voor groot genoeg N zijn de resultaten relatief vergelijkbaar met de oorspronkelijke bootstrap -schattingen.[39]
Een manier om de Poisson -bootstrap, "sequentiële bootstrap" te verbeteren, is door de eerste monsters te nemen zodat het aandeel unieke waarden ≈0.632 is van de oorspronkelijke steekproefgrootte n.Dit biedt een verdeling met belangrijkste empirische kenmerken die zich op een afstand van zijn .[40] Empirisch onderzoek heeft aangetoond dat deze methode goede resultaten kan opleveren.[41] Dit is gerelateerd aan de verminderde bootstrap -methode.[42]
Zak met kleine bootstraps
Voor massieve gegevenssets is het vaak computationeel onbetaalbaar om alle steekproefgegevens in het geheugen te bewaren en uit de steekproefgegevens te weerstaan.De zak met kleine bootstraps (BLB)[43] Biedt een methode voor het vooraf aggregeren van gegevens vóór bootstrapping om rekenbeperkingen te verminderen.Dit werkt door de gegevensset te verdelen in Emmers van gelijke grootte en het aggregeren van de gegevens binnen elke emmer.Deze vooraf geaggregeerde gegevensset wordt de nieuwe steekproefgegevens om monsters met vervanging te tekenen.Deze methode is vergelijkbaar met de Block Bootstrap, maar de motivaties en definities van de blokken zijn heel verschillend.Onder bepaalde veronderstellingen moet de steekproefverdeling het volledige bootstrappe scenario benaderen.Een beperking is het aantal emmers waar en de auteurs bevelen het gebruik aan Als algemene oplossing.
Keuze uit statistiek
De bootstrap -verdeling van een puntschatter van een populatieparameter is gebruikt om een bootstrapped te produceren Betrouwbaarheidsinterval voor de werkelijke waarde van de parameter als de parameter kan worden geschreven als een functie van de verdeling van de bevolking.
Populatieparameters worden geschat met veel puntschatters.Populaire families van punt-schatting zijn onder meer Gemiddeld ongebaseerde minimum-variantieschatters, Mediaan-niet-niet-biased schatters, Bayesiaanse schatters (bijvoorbeeld de achterste verdeling's modus, mediaan-, gemeen), en Maximaal-waarschijnlijkheidsschatters.
Een Bayesiaanse puntschatter en een maximaal waarschijnlijkheidsschatter hebben een goede prestaties wanneer de steekproefgrootte oneindig is, volgens asymptotische theorie.Voor praktische problemen met eindige monsters kunnen andere schatters de voorkeur hebben.Asymptotische theorie suggereert technieken die vaak de prestaties van bootstrappe schatters verbeteren;De bootstrapping van een maximaal waarschijnlijkheidsschatter kan vaak worden verbeterd met behulp van transformaties gerelateerd aan cruciale hoeveelheden.[44]
Het afleiden van betrouwbaarheidsintervallen uit de bootstrap -verdeling
De bootstrap-verdeling van een parameter-schatting is gebruikt om te berekenen betrouwbaarheidsintervallen voor zijn populatie-parameter.[1]
Bias, asymmetrie en betrouwbaarheidsintervallen
- Vooroordeel: De bootstrap -verdeling en het monster kunnen het systematisch niet eens zijn, in welk geval vooroordeel kan gebeuren.
- Als de bootstrap-verdeling van een schatter symmetrisch is, worden percentiel vertrouwensinterval vaak gebruikt;Dergelijke intervallen zijn speciaal geschikt voor mediaan-niet-niet-biased schatters van minimumrisico (met betrekking tot een absoluut verliesfunctie).Bias in de bootstrap -verdeling zal leiden tot vertekening in het betrouwbaarheidsinterval.
- Anders, als de bootstrap-verdeling niet-symmetrisch is, zijn percentiel betrouwbaarheidsintervallen vaak ongepast.
Methoden voor betrouwbaarheidsintervallen van bootstrap
Er zijn verschillende methoden voor het construeren van betrouwbaarheidsintervallen van de bootstrap -verdeling van een echt parameter:
- Basis bootstrap,[44] ook bekend als de Omgekeerde percentielinterval.[45] De basis bootstrap is een eenvoudig schema om het betrouwbaarheidsinterval te construeren: men neemt gewoon het empirisch kwantielen Uit de bootstrap -verdeling van de parameter (zie Davison en Hinkley 1997, equ. 5.6 p. 194):
- waar geeft de percentiel van de bootstrappe coëfficiënten .
- Percentiel bootstrap.De percentiel bootstrap verloopt op een vergelijkbare manier als de basis bootstrap, met behulp van percentielen van de bootstrap -verdeling, maar met een andere formule (let op de inversie van de linker en rechter kwantielen):
- waar geeft de percentiel van de bootstrappe coëfficiënten .
- Zie Davison en Hinkley (1997, equ. 5.18 p. 203) en Efron en Tibshirani (1993, equ 13,5 p. 171).
- Deze methode kan op elke statistiek worden toegepast.Het zal goed werken in gevallen waarin de bootstrap -verdeling symmetrisch is en gecentreerd is op de waargenomen statistiek[46] en wanneer de steekproefstatistiek mediaan-onbetwist is en een maximale concentratie heeft (of minimumrisico met betrekking tot een absolute waardeverliesfunctie).Bij het werken met kleine steekproefgroottes (d.w.z. minder dan 50), de basis- / omgekeerde percentiel- en percentiel betrouwbaarheidsintervallen voor (bijvoorbeeld) de variantie Statistiek zal te smal zijn.Zodat met een steekproef van 20 punten, 90% betrouwbaarheidsinterval de werkelijke variantie slechts 78% van de tijd zal omvatten.[47] De basis- / omgekeerde percentiel betrouwbaarheidsintervallen zijn gemakkelijker om wiskundig te rechtvaardigen[48][45] Maar ze zijn in het algemeen minder nauwkeurig dan percentiel betrouwbaarheidsintervallen, en sommige auteurs ontmoedigen het gebruik ervan.[45]
- Studentized bootstrap.De Studentized bootstrap, ook wel genoemd bootstrap-t, wordt analoog berekend naar het standaard betrouwbaarheidsinterval, maar vervangt de kwantielen van de normale of studentenbenadering door de kwantielen van de bootstrap -verdeling van de Student's t-test (Zie Davison en Hinkley 1997, equ. 5.7 p. 194 en Efron en Tibshirani 1993 Equ 12.22, p. 160):
- waar geeft de percentiel van de bootstrapped Student's t-test , en is de geschatte standaardfout van de coëfficiënt in het oorspronkelijke model.
- De student -test geniet van optimale eigenschappen, omdat de statistiek die Bootstrapped is, is doorslaggevend (d.w.z. het hangt niet af van overlastparameters Zoals de t-test asymptotisch volgt op een n (0,1) verdeling), in tegenstelling tot de percentiel bootstrap.
- Bias-gecorrigeerde bootstrap - past zich aan voor vooroordeel in de bootstrap -verdeling.
- Versnelde bootstrap -De bias-gecorrigeerde en versnelde (BCA) bootstrap, door Efron (1987),[14] past zich aan voor zowel bias als scheefheid in de bootstrap -verdeling.Deze aanpak is nauwkeurig in een breed scala aan instellingen, heeft redelijke berekeningsvereisten en produceert redelijk smalle intervallen.[14]
Bootstrap hypothese testen
Efron en Tibshirani[1] Stel het volgende algoritme voor voor het vergelijken van de middelen van twee onafhankelijke monsters: laat Wees een willekeurig monster uit distributie F met monstergemiddelde en voorbeeldvariantie . Laten Wees een ander, onafhankelijke willekeurige steekproef van distributie G met gemiddelde en variantie
- Bereken de teststatistiek
- Maak twee nieuwe gegevenssets waarvan de waarden zijn en waar is het gemiddelde van het gecombineerde monster.
- Teken een willekeurig monster () van grootte door vervanging van en nog een willekeurige steekproef () van grootte door vervanging van .
- Bereken de teststatistiek
- Herhaal 3 en 4 keer (bijv. ) verzamelen Waarden van de teststatistiek.
- Schat de p-waarde als waar wanneer voorwaarde is waar en 0 anders.
Voorbeeldtoepassingen
Gladde bootstrap
In 1878, Simon Newcomb nam observaties op de lichtsnelheid.[49] De gegevensset bevat twee uitbijters, die de grote invloed hebben op de monstergemiddelde.(Het monstergemiddelde hoeft geen consistente schatter voor enige populatie gemiddelde, omdat er geen gemiddelde hoeft te bestaan voor een zware verdeling.) Een goed gedefinieerde en robuuste statistiek want de centrale neiging is de monster mediaan, die consistent is en mediaan-onbetwist voor de bevolking mediaan.
De bootstrap -verdeling voor de gegevens van Newcomb verschijnt hieronder.We kunnen de discretie van de bootstrap -verdeling verminderen door een kleine hoeveelheid willekeurige ruis aan elk bootstrap -monster toe te voegen.Een conventionele keuze is om ruis toe te voegen met een standaardafwijking van Voor een steekproefgrootte n;Dit geluid wordt vaak afkomstig uit een student-T-verdeling met N-1 graden van vrijheid.[50] Dit resulteert in een ongeveer niet-niet-biasige schatter voor de variantie van het steekproefgemiddelde.Dit betekent dat monsters uit de bootstrap -verdeling een variantie zullen hebben die gemiddeld gelijk is aan de variantie van de totale populatie.
Histogrammen van de bootstrap -verdeling en de gladde bootstrap -verdeling verschijnen hieronder.De bootstrap-verdeling van de monster-mediaan heeft slechts een klein aantal waarden.De afgevlakte bootstrap -verdeling heeft een rijkere steun.Merk echter op dat of de afgevlakte of standaard bootstrap-procedure gunstig is, geval per geval is en wordt aangetoond dat het afhankelijk is van zowel de onderliggende distributiefunctie als van de geschatte hoeveelheid.[51]
In dit voorbeeld is de Bootstrapped 95% (percentiel) betrouwbaarheidsinterval voor de populatiemediaan (26, 28,5), dat dicht bij het interval ligt voor (25,98, 28,46) voor de afgevlakte bootstrap.
Relatie met andere benaderingen van gevolgtrekkingen
Relatie met andere resampling -methoden
De bootstrap onderscheidt zich van:
- de kwijt procedure, gebruikt om vooroordelen van steekproefstatistieken te schatten en om varianties te schatten, en
- kruisvalidatie, waarin de parameters (bijvoorbeeld regressiegewichten, factorbelastingen) die in de ene subsample worden geschat, op een andere subsample worden toegepast.
Zie voor meer informatie herbevestiging.
Bootstrap aggregerend (zakken) is een meta-algoritme Gebaseerd op het gemiddelde modelvoorspellingen verkregen uit modellen die zijn getraind op meerdere bootstrap -monsters.
U-statistiek
In situaties waarin een voor de hand liggende statistiek kan worden bedacht om een vereist kenmerk te meten met slechts een klein aantal, r, van gegevensitems, kan een overeenkomstige statistiek op basis van het gehele monster worden geformuleerd.Gegeven een r-Smonster statistiek, men kan een n-Smonstere statistiek door iets dat lijkt op bootstrapping (het gemiddelde van de statistiek over alle subsamples van grootte nemen r).Het is bekend dat deze procedure bepaalde goede eigenschappen heeft en het resultaat is een U-statistisch. De monstergemiddelde en steekproefvariantie zijn van deze vorm, voor r= 1 en r= 2.
Zie ook
- Nauwkeurigheid en precisie
- Bootstrap aggregerend
- Bootstrapping
- Empirische waarschijnlijkheid
- Toerekening (statistieken)
- Betrouwbaarheid (statistieken)
- Reproduceerbaarheid
- Herbevestiging
Referenties
- ^ a b c d e Efron, B.; Tibshirani, R. (1993). Een inleiding tot de bootstrap.Boca Raton, FL: Chapman & Hall/CRC. ISBN 0-412-04231-2. software Gearchiveerd 2012-07-12 op archief.today
- ^ Tweede gedachten over de bootstrap - Bradley Efron, 2003
- ^ Varian, H. (2005)."Bootstrap -tutorial". Mathematica Journal, 9, 768–775.
- ^ Weisstein, Eric W. "Bootstrap -methoden."Van Mathworld-een Wolfram Web Resource. http://mathworld.wolfram.com/bootstrapmethods.html
- ^ Opmerkingen voor het vroegst bekende gebruik van enkele van de woorden van wiskunde: bootstrap (John Aldrich)
- ^ Vroegste bekende toepassingen van enkele van de woorden van wiskunde (b) (Jeff Miller)
- ^ Efron, B. (1979). "Bootstrap -methoden: een andere blik op het jackknife". De annalen van de statistieken. 7 (1): 1–26. doen:10.1214/AOS/1176344552.
- ^ Quenouille M (1949) Geschatte correlatietests in tijdreeksen.J Roy Statist Soc Ser B 11 68–84
- ^ Tukey J (1958) Bias en vertrouwen in niet-helemaal grote monsters (abstract).Ann Math Statist 29 614
- ^ Jaeckel L (1972) The Infinitesimal Jackknife.Memorandum MM72-1215-11, Bell Lab
- ^ Bickel P, Freeman D (1981) Enkele asymptotische theorie voor de bootstrap.Ann Statist 9 1196–1217
- ^ Singh K (1981) Over de asymptotische nauwkeurigheid van de bootstrap van Efron.Ann Statist 9 1187–1195
- ^ Rubin D (1981).De Bayesiaanse bootstrap.Ann Statist 9 130–134
- ^ a b c Efron, B. (1987)."Betere bootstrap betrouwbaarheidsintervallen". Journal of the American Statistical Association.Journal of the American Statistical Association, Vol.82, nr. 397. 82 (397): 171–185. doen:10.2307/2289144. Jstor 2289144.
- ^ Diciccio T, Efron B (1992) Nauwkeuriger betrouwbaarheidsintervallen in exponentiële families.Biometrika 79 231–245
- ^ a b c "21 bootstrapping regressiemodellen" (PDF). Gearchiveerd (PDF) Van het origineel op 2015-07-24.
- ^ Diciccio TJ, Efron B (1996) Bootstrap betrouwbaarheidsintervallen (met discussie).Statistical Science 11: 189–228
- ^ Hinkley, David (1994-08-01). "[Bootstrap: Meer dan een steek in het donker?]: Comment". Statistische wetenschap. 9 (3). doen:10.1214/ss/1177010387. ISSN 0883-4237.
- ^ Goodhue, D.L., Lewis, W., & Thompson, R. (2012). Heeft PLS voordelen voor kleine steekproefomvang of niet-normale gegevens? MIS Quarterly, 36 (3), 981–1001.
- ^ Efron, B., Rogosa, D., & Tibshirani, R. (2004).Resampling -schattingsmethoden.In N.J. Smelser, & P.B.Baltes (eds.).Internationale encyclopedie van de sociale en gedragswetenschappen (pp. 13216–13220).New York, NY: Elsevier.
- ^ Adèr, H. J., Mellenbergh G. J., & Hand, D. J. (2008). Adviseren over onderzoeksmethoden: de metgezel van een consultant.Huizen, Nederland: Johannes Van Kessel Publishing. ISBN978-90-79418-01-5.
- ^ Bootstrap van het gemiddelde in de oneindige variantiezaak Athreya, K.B. Ann statistieken Vol 15 (2) 1987 724–731
- ^ "Hoeveel verschillende bootstrap -monsters zijn er? Statweb.stanford.edu". Gearchiveerd van het origineel op 2019-09-14. Opgehaald 2019-12-09.
- ^ Jenkins, David G.;Quintana-Ascencio, Pedro F. (2020-02-21). "Een oplossing voor minimale steekproefomvang voor regressies". PLOS One. 15 (2): E0229345. Bibcode:2020PLOSO..1529345J. doen:10.1371/journal.pone.0229345. ISSN 1932-6203. PMC 7034864. Pmid 32084211.
- ^ Lumley, Thomas (2002)."Het belang van de normaliteitsveronderstelling in grote gegevensverzamelingen voor de volksgezondheid". Jaaroverzicht van de volksgezondheid. 23: 151–169. doen:10.1146/annurev.publHealth.23.100901.140546. Pmid 11910059.
- ^ Li, Xiang;Wong, Wanling;Lamoureux, Ecosse L.;Wong, Tien Y. (2012-05-01). "Zijn lineaire regressietechnieken geschikt voor analyse wanneer de afhankelijke (uitkomst) variabele normaal niet wordt verdeeld?". Onderzoeks oftalmologie en visuele wetenschap. 53 (6): 3082–3083. doen:10.1167/IOVS.12-9967. ISSN 1552-5783. Pmid 22618757.
- ^ Rubin, D. B. (1981)."De Bayesiaanse bootstrap". Annals of Statistics, 9, 130.
- ^ a b Wang, Suojin (1995)."Optimalisatie van de afgevlakte bootstrap". Ann. Inst. Statist. Wiskunde. 47: 65–80. doen:10.1007/BF00773412. S2CID 122041565.
- ^ Een moderne inleiding tot waarschijnlijkheid en statistieken: begrijpen waarom en hoe.Dekking, Michel, 1946-.Londen: Springer.2005. ISBN 978-1-85233-896-1. Oclc 262680588.
{{}}
: CS1 onderhoud: anderen (link) - ^ a b c Kirk, Paul (2009). "Gaussiaanse procesregressie bootstrapping: het verkennen van de effecten van onzekerheid in tijdsverloopgegevens". Bio -informatica. 25 (10): 1300–1306. doen:10.1093/bioinformatica/BTP139. PMC 2677737. Pmid 19289448.
- ^ Wu, C.F.J.(1986). "Jackknife, bootstrap en andere resamplingmethoden in regressieanalyse (met discussies)" (PDF). Annals of Statistics. 14: 1261–1350. doen:10.1214/AOS/1176350142.
- ^ Mammen, E. (Mar 1993). "Bootstrap en wilde bootstrap voor hoge dimensionale lineaire modellen". Annals of Statistics. 21 (1): 255–285. doen:10.1214/AOS/1176349025.
- ^ Künsch, H. R. (1989). "De JackKnife en de bootstrap voor algemene stationaire observaties". Annals of Statistics. 17 (3): 1217–1241. doen:10.1214/AOS/1176347265.
- ^ Politis, D. N.;Romano, J. P. (1994)."De stationaire bootstrap". Journal of the American Statistical Association. 89 (428): 1303–1313. doen:10.1080/01621459.1994.10476870. HDL:10983/25607.
- ^ Vinod, HD (2006)."Maximale entropie -ensembles voor tijdreeks Inferentie in economie". Journal of Asian Economics. 17 (6): 955–978. doen:10.1016/j.asieco.2006.09.001.
- ^ Vinod, Hrishikesh;López-de-Lacalle, Javier (2009). "Maximale entropie bootstrap voor tijdreeksen: het Meboot R -pakket". Journal of Statistical Software. 29 (5): 1–19. doen:10.18637/jss.v029.i05.
- ^ Cameron, A. C.;Gelbach, J. B.;Miller, D. L. (2008). "Bootstrap-gebaseerde verbeteringen voor inferentie met geclusterde fouten" (PDF). Overzicht van economie en statistieken. 90 (3): 414–427. doen:10.1162/REST.90.3.414.
- ^ Chamandy, n;Muralidharan, O;Najmi, a;Naidu, S (2012). "Het schatten van onzekerheid voor massale gegevensstromen".
- ^ Hanley, James A. en Brenda MacGibbon."Het maken van niet-parametrische bootstrap-monsters met behulp van Poisson-frequenties."Computermethoden en programma's in biomedicine 83.1 (2006): 57-62. PDF
- ^ Babu, G. Jogesh, P. K. Pathak en C. R. Rao."Tweede orde correctheid van de Poisson Bootstrap."The Annals of Statistics 27.5 (1999): 1666-1683. koppeling
- ^ Schoenmaker, Owen J. en P. K. Pathak."De sequentiële bootstrap: een vergelijking met reguliere bootstrap."Communicatie in statistieken-theorie en methoden 30.8-9 (2001): 1661-1674. koppeling
- ^ Jiménez-Gamero, María Dolores, Joaquín Muñoz-García en Rafael Pino-Mejías."Verminderde bootstrap voor de mediaan."Statistica Sinica (2004): 1179-1198. koppeling
- ^ Kleiner, A;Talwalkar, A;Sarkar, P;Jordan, M. I. (2014)."Een schaalbare bootstrap voor enorme gegevens". Journal of the Royal Statistical Society, Series B (Statistical Methodology). 76 (4): 795–816. arxiv:1112.5016. doen:10.1111/rssb.12050. ISSN 1369-7412. S2CID 3064206.
- ^ a b Davison, A. C.; Hinkley, D. V. (1997). Bootstrap -methoden en hun toepassing.Cambridge -serie in statistische en probabilistische wiskunde.Cambridge University Press. ISBN 0-521-57391-2. software.
- ^ a b c Hesterberg, Tim C (2014)."Wat leraren moeten weten over de bootstrap: resampling in het curriculum van de niet -gegradueerde statistieken". arxiv:1411.5279 [status].
- ^ Efron, B. (1982). The JackKnife, The Bootstrap en andere resamplingplannen.Vol.38. Society of Industrial and Applied Mathematics CBMS-NSF-monografieën. ISBN 0-89871-179-7.
- ^ Scheiner, S. (1998). Ontwerp en analyse van ecologische experimenten. CRC Press. ISBN 0412035618.
- ^ Rijst, John. Wiskundige statistieken en gegevensanalyse (2 ed.).p.272. "Hoewel deze directe vergelijking van kwantielen van de bootstrap -bemonsteringsverdeling met betrouwbaarheidslimieten aanvankelijk aantrekkelijk lijkt, is de redenering enigszins onduidelijk."
- ^ Gegevens uit voorbeelden in Bayesiaanse gegevensanalyse
- ^ Chihara, Laura;Hesterberg, Tim (3 augustus 2018). Wiskundige statistieken met resampling en r (2e ed.). John Wiley & Sons, Inc. ISBN 9781119416548.
- ^ Young, G. A. (juli 1990). "Alternatieve afgevlakt bootstraps". Journal of the Royal Statistical Society, Series B (Methodological). 52 (3): 477–484. doen:10.1111/j.2517-6161.1990.tb01801.x. ISSN 0035-9246.
Verder lezen
- Diaconis, P.; Efron, B. (Mei 1983). "Computerintensieve methoden in statistieken" (PDF). Wetenschappelijke Amerikaan. 248 (5): 116–130. Bibcode:1983sciam.248e.116d. doen:10.1038/ScientificAmerican0583-116. Gearchiveerd van het origineel (PDF) op 2016-03-13. Opgehaald 2016-01-19. populaire wetenschap
- Efron, B. (1981)."Niet -parametrische schattingen van standaardfout: de JackKnife, de bootstrap en andere methoden". Biometrika. 68 (3): 589–599. doen:10.1093/biomet/68.3.589.
- Hesterberg, T. C.; D. S. Moore;S. Monaghan;A. Clipson & R. Epstein (2005). "Bootstrap -methoden en permutatietests" (PDF). In David S. Moore & George McCabe (Eds.). Inleiding tot de praktijk van statistieken. software. Gearchiveerd van het origineel (PDF) op 2006-02-15. Opgehaald 2007-03-23.
- Efron, Bradley (1979). "Bootstrap -methoden: een andere blik op het jackknife". De annalen van de statistieken. 7: 1–26. doen:10.1214/AOS/1176344552.
- Efron, Bradley (1981)."Niet -parametrische schattingen van standaardfout: de JackKnife, de bootstrap en andere methoden". Biometrika. 68 (3): 589–599. doen:10.2307/2335441. Jstor 2335441.
- Efron, Bradley (1982). The JackKnife, The Bootstrap en andere resamplingplannen, In Society of Industrial and Applied Mathematics CBMS-NSF-monografieën, 38.
- Diaconis, P.; Efron, Bradley (1983), "Computer-intensieve methoden in statistieken", " Wetenschappelijke Amerikaan, Mei, 116-130.
- Efron, Bradley;Tibshirani, Robert J. (1993). Een inleiding tot de bootstrap, New York: Chapman & Hall, software.
- Davison, A. C. en Hinkley, D. V. (1997): Bootstrap -methoden en hun toepassing, software.
- Mooney, C Z & Duval, R D (1993).Bootstrapping.Een niet -parametrische benadering van statistische inferentie.Sage University Paper Series over kwantitatieve toepassingen in de sociale wetenschappen, 07-095.Newbury Park, CA: Verstandig.
- Simon, J. L. (1997): Resampling: de nieuwe statistieken.
- Wright, D.B., London, K., Field, A.P. Gebruik van bootstrap-schatting en het plug-in principe voor klinische psychologiegegevens.2011 TexTrum Ltd. Online: https://www.researchgate.net/publication/236647074_using_bootstrap_estimation_and_the_plug-in_principle_for_clinical_psychology_data.Ontvangen op 25/04/2016.
- Een inleiding tot de bootstrap.Monografieën over statistieken en toegepaste waarschijnlijkheid 57. Chapman & Hall/CHC.1998. Online 20principle & f = false.Ontvangen op 25 04 2016.
Externe links
- Bootstrap sampling tutorial met MS Excel
- Bootstrap voorbeeld om aandelenkoersen te simuleren met behulp van MS Excel
- bootstrapping tutorial
- Wat is de bootstrap?
Software
- Statistieken101: Resampling, bootstrap, Monte Carlo -simulatieprogramma. Gratis programma geschreven in Java om op elk besturingssysteem te worden uitgevoerd.