Resampling (statistieken)
In statistieken, herbevestiging is het creëren van nieuwe monsters op basis van één waargenomen monster.Resampling -methoden zijn:
- Permutatietests (Ook re-randomisatietests)
- Bootstrapping
- Kruisvalidatie
Permutatietests
Permutatietests zijn afhankelijk van het herbemonsteren van de oorspronkelijke gegevens, uitgaande van de nulhypothese.Op basis van de opnieuw bemonsterde gegevens kan worden geconcludeerd hoe waarschijnlijk de oorspronkelijke gegevens moeten plaatsvinden onder de nulhypothese.
Bootstrap

Bootstrapping is een statistische methode voor het schatten van de bemonsteringsverdeling van een schatter door bemonstering met vervanging van het oorspronkelijke monster, meestal met als doel robuuste schattingen af te leiden standaardfouten en betrouwbaarheidsintervallen van een populatieparameter zoals een gemeen, mediaan-, proportie, odds ratio, correlatiecoëfficiënt of regressie coëfficiënt.Het wordt de plug-in principe,[1] zoals het is de methode van schatting van functionals van een bevolkingsverdeling door dezelfde functionals te evalueren bij de empirische verdeling gebaseerd op een monster.
Bijvoorbeeld,[1] Bij het schatten van de bevolking gemeen, deze methode gebruikt de steekproef gemeen;Om de bevolking te schatten mediaan-, het gebruikt de monster mediaan;Om de bevolking te schatten regressie lijn, het gebruikt de voorbeeldregressielijn.
Het kan ook worden gebruikt voor het construeren van hypothesetests.Het wordt vaak gebruikt als een robuust alternatief voor inferentie op basis van parametrische veronderstellingen wanneer die veronderstellingen in twijfel staan, of wanneer parametrische inferentie onmogelijk is of zeer gecompliceerde formules vereist voor de berekening van standaardfouten.Bootstrapping-technieken worden ook gebruikt in de update-selecties-overgangen van deeltjesfilters, Genetische type algoritmen en gerelateerde resample/herconfiguratie Monte Carlo -methoden gebruikt in computationele fysica.[2][3] In deze context wordt de bootstrap gebruikt om opeenvolgend empirische gewogen waarschijnlijkheidsmaatregelen te vervangen door empirische maatregelen.De bootstrap maakt het mogelijk om de monsters te vervangen door lage gewichten door kopieën van de monsters met hoge gewichten.
Kruisvalidatie
Kruisvalidatie is een statistische methode voor het valideren van een voorspellend model.Subsets van de gegevens worden vastgehouden voor gebruik als validerende sets;Een model is geschikt voor de resterende gegevens (een trainingsset) en gebruikt om te voorspellen voor de validatieset.Gemiddeld de kwaliteit van de voorspellingen in de validatie levert een algemene maat voor de nauwkeurigheid van de voorspelling.Kruisvalidatie wordt herhaaldelijk gebruikt bij het bouwen van beslissingsbomen.
Eén vorm van kruisvalidatie laat een enkele observatie tegelijk weg;Dit is vergelijkbaar met de kwijt. Een ander, K-Voud kruisvalidatie, splitst de gegevens in K subsets;Elk wordt op zijn beurt gehouden als de validatieset.
Dit voorkomt "zelfstandigheid".Ter vergelijking, in regressie analyse Methoden zoals lineaire regressie, elk y Waarde trekt de regressielijn naar zichzelf, waardoor de voorspelling van die waarde nauwkeuriger lijkt dan hij in werkelijkheid is.Kruisvalidatie toegepast op lineaire regressie voorspelt de y waarde voor elke observatie zonder die observatie te gebruiken.
Dit wordt vaak gebruikt om te beslissen hoeveel voorspellende variabelen te gebruiken in regressie.Zonder kruisvalidatie vermindert het toevoegen van voorspellers altijd de resterende som van vierkanten (of laat het mogelijk ongewijzigd).Daarentegen zal de kruisvalideerde gemiddelde kwadraatfout de neiging hebben af te nemen als waardevolle voorspellers worden toegevoegd, maar toenemen als waardeloze voorspellers worden toegevoegd.[4]
Monte Carlo kruisvalidatie
Subsampling is een alternatieve methode voor het benaderen van de bemonsteringsverdeling van een schatter.De twee belangrijkste verschillen met de bootstrap zijn:
- De resample -grootte is kleiner dan de steekproefgrootte en
- Resampling wordt gedaan zonder vervanging.
Het voordeel van subsampling is dat het geldig is onder veel zwakkere omstandigheden in vergelijking met de bootstrap.In het bijzonder is een reeks voldoende voorwaarden dat de convergentie van de schatter bekend is en dat de beperkende verdeling continu is.Bovendien moet de grootte van de resample (of subsample) de neiging hebben om oneindig samen met de steekproefomvang te zijn, maar in een kleinere snelheid, zodat hun verhouding tot nul convergeert.Hoewel subsampling oorspronkelijk werd voorgesteld voor het geval van onafhankelijke en identiek gedistribueerde (IID) gegevens, is de methodologie ook uitgebreid om tijdreeksgegevens te behandelen;In dit geval opnieuw voorbeelden van blokken van latere gegevens in plaats van individuele gegevenspunten.Er zijn veel gevallen van toegepaste rente wanneer subsampling leidt tot geldige inferentie, terwijl bootstrapping dat niet doet;Dergelijke gevallen omvatten bijvoorbeeld voorbeelden waarbij de convergentiesnelheid van de schatter niet de vierkantswortel van de steekproefgrootte is of wanneer de beperkende verdeling niet-normaal is.Wanneer zowel subsampling als de bootstrap consistent zijn, is de bootstrap meestal nauwkeuriger. Ransac is een populair algoritme met behulp van subsampling.
Jackknife kruisvalidatie
Jackknifing (jackknife kruisvalidatie) wordt gebruikt in Statistische inferentie Om de bias en standaardfout (variantie) van een statistiek te schatten, wanneer een willekeurige waarnemingen van observaties wordt gebruikt om deze te berekenen.Historisch gezien ging deze methode vooraf aan de uitvinding van de bootstrap met Quenouille deze methode uitvinden in 1949 en Tukey Uitbreiding in 1958.[5][6] Deze methode werd voorspeld door Mahalanobis die in 1946 herhaalde schattingen van de interessestatistiek suggereerde met de helft van de willekeurige steekproef.[7] Hij bedacht de naam 'interpenetrerende monsters' voor deze methode.
Quenouille heeft deze methode uitgevonden met de bedoeling de vertekening van de schatting van de steekproef te verminderen.Tukey heeft deze methode uitgebreid door aan te nemen dat als de replicaten identiek en onafhankelijk kunnen worden verdeeld, een schatting van de variantie van de steekproefparameter kon worden gemaakt en dat deze ongeveer als een t -variaat zou worden verdeeld met n−1 vrijheidsgraden (n de steekproefgrootte zijn).
Het basisidee achter de JackKnife -variantieschatter ligt in het systematisch hercompleren van de statistische schatting, waardoor een of meer observaties per keer uit de steekproefset worden weggelaten.Uit deze nieuwe reeks replica's van de statistiek kan een schatting voor de bias en een schatting voor de variantie van de statistiek worden berekend.
In plaats van het JackKnife te gebruiken om de variantie te schatten, kan het in plaats daarvan worden toegepast op het logboek van de variantie.Deze transformatie kan leiden tot betere schattingen, met name wanneer de verdeling van de variantie zelf niet normaal kan zijn.
Voor veel statistische parameters neigt de schatting van de variantie van JackKnife bijna zeker asymptotisch naar de werkelijke waarde.In technische termen zegt men dat de schatting van de jackknife is consequent.Het jackknife is consistent voor het monster middelen, steekproef varianties, centrale en niet-centrale T-statistieken (met mogelijk niet-normale populaties), monster variatiecoëfficiënt, Maximale waarschijnlijkheidsschatters, minste vierkantenschatters, correlatie coëfficiënten en regressiecoëfficiënten.
Het is niet consistent voor het monster mediaan-.In het geval van een unimodale variate wordt de verhouding van de jackknife -variantie tot de steekproefvariantie meestal verdeeld als een helft van het vierkant van een chi -vierkante verdeling met twee graden van vrijheid.
Het JackKnife is, net als de oorspronkelijke bootstrap, afhankelijk van de onafhankelijkheid van de gegevens.Uitbreidingen van het JackKnife om afhankelijkheid in de gegevens mogelijk te maken, zijn voorgesteld.
Een andere uitbreiding is de methode Delete-a-Group die wordt gebruikt in samenwerking met Poisson Sampling.
JackKnife is gelijk aan de willekeurige (subsampling) verlof-een-uit-cross-validatie, het verschilt alleen in het doel.[8]
Vergelijking van bootstrap en jackknife
Beide methoden, de bootstrap en het JackKnife, schatten de variabiliteit van een statistiek op basis van de variabiliteit van die statistiek tussen submonsters, in plaats van van parametrische veronderstellingen.Voor het meer algemene JackKnife, de Delete-M-observaties JackKnife, kan de bootstrap worden gezien als een willekeurige benadering ervan.Beide leveren vergelijkbare numerieke resultaten op, daarom kan elk worden gezien als benadering van de andere.Hoewel er enorme theoretische verschillen zijn in hun wiskundige inzichten, is het belangrijkste praktische verschil voor statistiekgebruikers dat de bootstrap geeft verschillende resultaten wanneer ze op dezelfde gegevens worden herhaald, terwijl het JackKnife elke keer exact hetzelfde resultaat geeft.Daarom is het JackKnife populair wanneer de schattingen verschillende keren moeten worden geverifieerd voordat ze publiceren (bijvoorbeeld officiële statistische instanties).Aan de andere kant, wanneer dit verificatiefunctie niet cruciaal is en het van belang is om geen aantal te hebben, maar alleen een idee van de verdeling ervan, heeft de bootstrap de voorkeur (bijvoorbeeld studies in de fysica, economie, biologische wetenschappen).
Het gebruik van de bootstrap of het JackKnife kan meer afhangen van operationele aspecten dan van statistische zorgen van een enquête.Het JackKnife, oorspronkelijk gebruikt voor biasreductie, is meer een gespecialiseerde methode en schat alleen de variantie van de puntschatter.Dit kan voldoende zijn voor basisstatistische inferentie (bijv. Hypothesetesten, betrouwbaarheidsintervallen).De bootstrap daarentegen schat eerst de hele verdeling (van de puntschatting) en berekent vervolgens de variantie daarvan.Hoewel krachtig en gemakkelijk, kan dit zeer computationeel intensief worden.
"De bootstrap kan worden toegepast op zowel variantie- als distributieschattingsproblemen. De bootstrap -variantieschatter is echter niet zo goed als de jackknife of de evenwichtige herhaalde replicatie (BRR) Variantieschatter in termen van de empirische resultaten.Bovendien vereist de bootstrap -variantieschatter meestal meer berekeningen dan de JackKnife of de BRR.Aldus wordt de bootstrap voornamelijk aanbevolen voor de schatting van de distributie. "[Attributie nodig][9]
Er is een speciale overweging met het JackKnife, vooral met de Delete-1 Observation JackKnife.Het mag alleen worden gebruikt met soepele, onderscheidbare statistieken (bijv. Totalen, gemiddelden, verhoudingen, verhoudingen, oneven verhoudingen, regressiecoëfficiënten, enz.; Niet met medianen of kwantielen).Dit kan een praktisch nadeel worden.Dit nadeel is meestal het argument dat de voorkeur geeft aan bootstrapping boven Jackknifing.Meer algemene jackknifes dan de delete-1, zoals de delete-m jackknife of de delete-all-but-2 Hodges - Lehmann schatter, overwonnen dit probleem voor de mediaan en kwantielen door de soepelheidsvereisten voor consistente variantieschatting te ontspannen.
Gewoonlijk is het JackKnife gemakkelijker toe te passen op complexe bemonsteringsschema's dan de bootstrap.Complexe bemonsteringsschema's kunnen stratificatie, meerdere fasen (clustering), variërende bemonsteringsgewichten (non-responsaanpassingen, kalibratie, post-stratificatie) en onder ontwerpen van onbetwistbaarheid van onbetwistbaarheid omvatten.Theoretische aspecten van zowel de bootstrap als het JackKnife zijn te vinden in Shao en Tu (1995),[10] terwijl een basisintroductie wordt verleend in Wolter (2007).[11] De bootstrap -schatting van de bias van modelvoorspelling is nauwkeuriger dan jackknife schattingen met lineaire modellen zoals lineaire discriminerende functie of meervoudige regressie.[12]
Zie ook
- Bootstrap aggregerend (Zakken)
- Genetisch algoritme
- Monte Carlo -methode
- Niet -parametrische statistieken
- Deeltjes filter
- Pseudoreplicatie
- Niet-uniforme willekeurige variategeneratie
- Willekeurige permutatie
- Replicatie (statistieken)
- Surrogate Data Testing
Referenties
- ^ a b Logan, J. David en Wolesensky, Willian R. Wiskundige methoden in de biologie.Pure en Applied Mathematics: een Wiley-Interscience-serie teksten, monografieën en traktaten.John Wiley & Sons, Inc. 2009. Hoofdstuk 6: Statistische inferentie.Sectie 6.6: Bootstrap -methoden
- ^ Del Moral, Pierre (2004). Feynman-KAC-formules.Genealogische en interacterende deeltjesbenaderingen.Waarschijnlijkheid en zijn toepassingen.Springer.p.575. doen:10.1007/978-1-4684-9393-1. ISBN 978-1-4419-1902-1.
Serie: waarschijnlijkheid en toepassingen
- ^ Del Moral, Pierre (2013). Gemiddelde veldsimulatie voor Monte Carlo -integratie. Chapman & Hall/CRC Press. p. 626.
Monografieën over statistieken en toegepaste waarschijnlijkheid
- ^ Verbyla, D. (1986)."Potentiële voorspellingsbias bij regressie en discriminerende analyse". Canadian Journal of Forest Research. 16 (6): 1255–1257. doen:10.1139/x86-222.
- ^ Quenouille, M. H. (1949)."Geschatte correlatietests in tijdreeksen". Journal of the Royal Statistical Society, Series B. 11 (1): 68–84. doen:10.1111/j.2517-6161.1949.tb00023.x. Jstor 2983696.
- ^ Tukey, J. W. (1958)."Bias en vertrouwen in niet-helemaal grote monsters (voorlopig rapport)". Annals of Mathematical Statistics. 29 (2): 614. Jstor 2237363.
- ^ Mahalanobis, P. C. (1946)."Proceedings van een vergadering van de Royal Statistical Society gehouden op 16 juli 1946". Journal of the Royal Statistical Society. 109 (4): 325–370. Jstor 2981330.
- ^ Encyclopedie van bioinformatica en computationele biologie: ABC van bioinformatica.Elsevier.2018-08-21.p.544. ISBN 978-0-12-811432-2.
- ^ Shao, J. en Tu, D. (1995).De JackKnife en Bootstrap.Springer-Verlag, Inc. pp. 281.
- ^ Shao, J.;Tu, D. (1995). The JackKnife en Bootstrap. Springer.
- ^ Wolter, K. M. (2007). Inleiding tot variantieschatting (Tweede ed.). Springer.
- ^ Verbyla, D.;Litvaitis, J. (1989)."Resampling -methoden voor het evalueren van de nauwkeurigheid van de classificatie van habitatmodellen van dieren in het wild". Milieu management. 13 (6): 783–787. Bibcode:1989enman..13..783v. doen:10.1007/BF01868317. S2CID 153448048.
Bibliografie
- Good, P. (2006) Resampling -methoden.3e ed.Birkhauser.
- Wolter, K.M.(2007). Inleiding tot variantieschatting.2e editie.Springer, Inc.
- Pierre del Moral (2004).Feynman-KAC-formules.Genealogische en interacterende deeltjessystemen met toepassingen, springer, serie waarschijnlijkheid en toepassingen. ISBN978-0-387-20268-6
- Pierre del Moral (2013).Del Moral, Pierre (2013). Gemiddelde veldsimulatie voor Monte Carlo -integratie.Chapman & Hall/CRC -pers, monografieën over statistieken en toegepaste waarschijnlijkheid. ISBN9781466504059
Externe links
Software
- Angelo Canty en Brian Ripley (2010). laars: Bootstrap R (S-plus) functies.R Pakketversie 1.2-43. Functies en datasets voor bootstrapping uit het boek Bootstrap -methoden en hun toepassingen Door A. C. Davison en D. V. Hinkley (1997, Cup).
- Statistieken101: Resampling, bootstrap, Monte Carlo -simulatieprogramma
- R -pakket `SamplingVarest ': schatting van de bemonsteringsvariantie.Implementeert functies voor het schatten van de bemonsteringsvariantie van sommige puntschatters.
- Gepaarde randomisatie/permutatietest voor evaluatie van TREC -resultaten
- Randomisatie/permutatietests om resultaten te evalueren bij het ophalen van informatie (met en zonder aanpassingen voor meerdere vergelijkingen).
- Bioconductor resampling-gebaseerde meerdere hypothesetesten met toepassingen op genomics.
- Permtest: een R -pakket om de variabiliteit binnen en afstand tussen twee groepen binnen een set microarray -gegevens te vergelijken.
- Bootstrap resampling: interactieve demonstratie van hypothesetesten met bootstrap resampling in R.
- Permutatietest: interactieve demonstratie van hypothesetesten met permutatietest in R.