Standaardafwijking

Een plot van normale verdeling (of klokvormige curve) waarbij elke band een breedte van 1 standaardafwijking heeft-zie ook: 68–95–99.7 Regel.
Cumulatieve waarschijnlijkheid van een normale verdeling met verwachte waarde 0 en standaardafwijking 1

In statistieken, de standaard- afwijking is een maat voor de hoeveelheid variatie of spreiding van een reeks waarden.[1] Een lage standaardafwijking geeft aan dat de waarden de neiging hebben om dicht bij de gemeen (Ook wel de verwachte waarde) van de set, terwijl een hoge standaardafwijking aangeeft dat de waarden zich over een breder bereik verspreiden.

Standaardafwijking kan worden afgekort SD, en wordt meestal weergegeven in wiskundige teksten en vergelijkingen door de kleine letters Griekse brief σ (sigma), voor de standaarddeviatie van de bevolking, of de Latijnse brief s, voor de standaardafwijking van het monster.

De standaardafwijking van een willekeurige variabele, steekproef, statistische bevolking, gegevensset, of waarschijnlijkheidsverdeling is de vierkantswortel van zijn variantie. Het is algebraïsch eenvoudiger, hoewel in de praktijk minder robuust, dan de Gemiddelde absolute afwijking.[2][3] Een nuttige eigenschap van de standaardafwijking is dat deze, in tegenstelling tot de variantie, in dezelfde eenheid wordt uitgedrukt als de gegevens.

De standaardafwijking van een populatie of steekproef en de standaardfout van een statistiek (bijvoorbeeld van het steekproefgemiddelde) zijn heel verschillend, maar gerelateerd. De standaardfout van het monstergemiddelde is de standaardafwijking van de set middelen die zou worden gevonden door een oneindig aantal herhaalde monsters uit de populatie te trekken en een gemiddelde te berekenen voor elke steekproef. De standaardfout van het gemiddelde blijkt gelijk te zijn aan de populatiestandaardafwijking gedeeld door de vierkantswortel van de steekproefgrootte en wordt geschat met behulp van de standaardafwijking van de steekproef gedeeld door de vierkantswortel van de steekproefgrootte. Bijvoorbeeld de standaardfout van een peiling (wat wordt gerapporteerd als de foutmarge van de poll), is de verwachte standaardafwijking van het geschatte gemiddelde als dezelfde peiling meerdere keren zou worden uitgevoerd. De standaardfout schat dus de standaardafwijking van een schatting, die zelf meet hoeveel de schatting afhangt van de specifieke steekproef die uit de populatie is genomen.

In de wetenschap is het gebruikelijk om zowel de standaardafwijking van de gegevens (als een samenvattende statistiek) als de standaardfout van de schatting te melden (als een maat voor potentiële fouten in de bevindingen). Volgens het Verdrag worden alleen effect meer dan twee standaardfouten weg van een nulverwachting overwogen "statistisch significant", een bescherming tegen valse conclusie die echt te wijten is aan willekeurige steekproeffout.

Wanneer slechts een steekproef van gegevens van een populatie is beschikbaar, de term Standaardafwijking van het monster of Voorbeeld van standaardafwijking kan verwijzen naar de bovengenoemde hoeveelheid zoals toegepast op die gegevens, of op een gewijzigde hoeveelheid die een onpartijdige schatting is van de Populatiestandaardafwijking (De standaardafwijking van de gehele bevolking).

Basisvoorbeelden

Populatiestandaardafwijking van cijfers van acht studenten

Stel dat de hele belangenbevolking acht studenten in een bepaalde klas is. Voor een eindige reeks cijfers wordt de standaardafwijking van de populatie gevonden door de vierkantswortel van de gemiddeld van de vierkante afwijkingen van de waarden afgetrokken van hun gemiddelde waarde. De tekens van een klas van acht studenten (dat wil zeggen een statistische bevolking) zijn de volgende acht waarden:

Deze acht gegevenspunten hebben de gemeen (gemiddeld) van 5:

Bereken eerst de afwijkingen van elk gegevenspunt van het gemiddelde, en vierkant het resultaat van elk:

De variantie is het gemiddelde van deze waarden:

en de bevolking Standaardafwijking is gelijk aan de vierkantswortel van de variantie:

Deze formule is alleen geldig als de acht waarden waarmee we de volledige bevolking begonnen te vormen. Als de waarden in plaats daarvan een willekeurige steekproef waren getrokken uit een grote ouderpopulatie (ze waren bijvoorbeeld 8 willekeurig en onafhankelijk gekozen uit een klasse van 2 miljoen), dan verdeelt men door 7 (dat is n - 1) in plaats van 8 (dat is n) in de noemer van de laatste formule, en het resultaat is In dat geval zou het resultaat van de oorspronkelijke formule de steekproef standaardafwijking en aangeduid door s in plaats van Delen door n- 1 in plaats van door n geeft een onpartijdige schatting van de variantie van de grotere ouderpopulatie. Dit staat bekend als Bessel's correctie.[4][5] Ruwweg is de reden daarvoor dat de formule voor de monstervariantie afhankelijk is van het berekenen van verschillen van waarnemingen van het monstergemiddelde, en het monstergemiddelde zelf werd geconstrueerd om zo dicht mogelijk bij de waarnemingen te zijn, dus alleen delen door n zou de variabiliteit onderschatten.

Standaardafwijking van de gemiddelde lengte voor volwassen mannen

Als de belangenpopulatie ongeveer normaal wordt verdeeld, biedt de standaardafwijking informatie over het aandeel van waarnemingen boven of onder bepaalde waarden. Bijvoorbeeld de Gemiddelde lengte voor volwassen mannen in de Verenigde Staten is ongeveer 70 inch, met een standaardafwijking van ongeveer 3 inch. Dit betekent dat de meeste mannen (ongeveer 68%, uitgaande van een normale verdeling) hebben een hoogte binnen 3 inch van het gemiddelde (67-73 inch) - één standaardafwijking - en bijna alle mannen (ongeveer 95%) hebben een hoogte binnen 6 inch van het gemiddelde (64-76 inch) - twee standaardafwijkingen. Als de standaardafwijking nul zou zijn, zouden alle mannen precies 70 centimeter lang zijn. Als de standaardafwijking 20 inch was, zouden mannen veel meer variabele hoogten hebben, met een typisch bereik van ongeveer 50-90 inch. Drie standaardafwijkingen zijn goed voor 99,7% van de bestudeerde steekproefpopulatie, ervan uitgaande dat de verdeling is normaal of klokvormig (zie de 68–95–99.7 Regel, of de Empirische regel, voor meer informatie).

Definitie van populatiewaarden

Laten μ wees de verwachte waarde (het gemiddelde) van willekeurige variabele X met dichtheid f(x):

De standaardafwijking σ van X is gedefinieerd als
waarvan kan worden aangetoond dat het gelijk is

Met behulp van woorden, de standaardafwijking is de vierkantswortel van de variantie van X.

De standaardafwijking van een waarschijnlijkheidsverdeling is dezelfde als die van een willekeurige variabele met die verdeling.

Niet alle willekeurige variabelen hebben een standaardafwijking. Als de verdeling heeft dikke staarten Gaan naar oneindig, de standaardafwijking bestaat misschien niet, omdat de integraal mogelijk niet convergeert. De normale verdeling Heeft staarten om in het oneindig te gaan, maar de gemiddelde en standaardafwijking bestaan, omdat de staarten snel genoeg afnemen. De Pareto -verdeling met parameter Heeft een gemiddelde, maar geen standaardafwijking (losjes gesproken is de standaardafwijking oneindig). De Cauchy -verdeling heeft geen gemiddelde noch een standaardafwijking.

Discrete willekeurige variabele

In het geval waar X neemt willekeurige waarden uit een eindige gegevensset x1, x2,…, xN, Met elke waarde met dezelfde waarschijnlijkheid is de standaardafwijking

of, door te gebruiken sommatie Notatie,

Als, in plaats van gelijke kansen te hebben, de waarden verschillende kansen hebben, laat het dan x1 waarschijnlijkheid hebben p1, x2 waarschijnlijkheid hebben p2,…, xN waarschijnlijkheid hebben pN. In dit geval zal de standaardafwijking zijn

Continue willekeurige variabele

De standaardafwijking van een Continue reële gewaardeerde willekeurige variabele X met waarschijnlijkheidsdichtheidsfunctie p(x) is

en waar de integralen zijn duidelijke integralen genomen voor x variërend over de set van mogelijke waarden van de willekeurige variabeleX.

In het geval van een Parametrische familie van distributies, de standaardafwijking kan worden uitgedrukt in termen van de parameters. Bijvoorbeeld in het geval van de log-normale verdeling met parameters μ en σ2, de standaardafwijking is

Schatting

Men kan in gevallen de standaardafwijking van een hele bevolking vinden (zoals gestandaardiseerd testen) waar elk lid van een bevolking wordt bemonsterd. In gevallen waarin dat niet kan worden gedaan, de standaardafwijking σ wordt geschat door een willekeurige steekproef te onderzoeken die uit de populatie is genomen en een statistiek van de steekproef, die wordt gebruikt als een schatting van de standaardafwijking van de populatie. Zo'n statistiek wordt een schatter, en de schatter (of de waarde van de schatter, namelijk de schatting) wordt een standaardafwijking van de steekproef genoemd en wordt aangegeven door s (mogelijk met modificatoren).

In tegenstelling tot in het geval van het schatten van het bevolkingsgemiddelde, waarvoor de monstergemiddelde is een eenvoudige schatter met veel gewenste eigenschappen (onbevooroordeeld, efficiënt, maximale waarschijnlijkheid), er is geen enkele schatter voor de standaardafwijking met al deze eigenschappen, en onpartijdige schatting van standaardafwijking is een zeer technisch betrokken probleem. Meestal wordt de standaardafwijking geschat met behulp van de Gecorrigeerde standaardafwijking van het monster (gebruik makend van N- 1), hieronder gedefinieerd, en dit wordt vaak de "monsterstandaardafwijking" genoemd, zonder kwalificaties. Andere schatters zijn echter in andere opzichten beter: de niet -gecorrigeerde schatter (met behulp van N) levert een lagere gemiddelde vierkante fout op, tijdens het gebruik N- 1.5 (voor de normale verdeling) elimineert bijna volledig bias.

Niet -gecorrigeerde monster standaardafwijking

De formule voor de bevolking Standaardafwijking (van een eindige populatie) kan op de steekproef worden toegepast, met behulp van de grootte van de steekproef als de grootte van de populatie (hoewel de werkelijke populatiegrootte waaruit de steekproef is getrokken veel groter kan zijn). Deze schatter, aangegeven door sN, staat bekend als de niet -gecorrigeerde monster standaardafwijking, of soms de Standaardafwijking van het monster (beschouwd als de hele bevolking), en wordt als volgt gedefinieerd:[6]

waar zijn de waargenomen waarden van de monsteritems, en is de gemiddelde waarde van deze waarnemingen, terwijl de noemerN staat voor de grootte van het monster: dit is de vierkantswortel van de monstervariantie, die het gemiddelde is van de Vierkant afwijkingen over het monstergemiddelde.

Dit is een consistente schatter (het convergeert in waarschijnlijkheid naar de populatiewaarde naarmate het aantal monsters oneindig gaat), en is de maximaal waarschijnlijkheid schatting Wanneer de bevolking normaal wordt verdeeld.[7] Dit is echter een bevooroordeelde schatter, omdat de schattingen over het algemeen te laag zijn. De vertekening neemt af naarmate de steekproefgrootte groeit en daalt af als 1/N, en is dus het meest belangrijk voor kleine of matige steekproefgroottes; voor De bias is onder 1%. Dus voor zeer grote steekproefgroottes is de niet -gecorrigeerde standaardafwijking van het monster over het algemeen acceptabel. Deze schatter heeft ook een uniform kleiner Gemiddelde vierkante fout dan de standaardafwijking van het gecorrigeerde monster.

Gecorrigeerde standaardafwijking van het monster

Als de bevooroordeeld steekproefvariantie (de seconde centraal moment van de steekproef, die een neerwaartse bevooroordeelde schatting van de populatievariantie is) wordt gebruikt om een ​​schatting van de standaardafwijking van de bevolking te berekenen, het resultaat is

Hier het nemen van de vierkantswortel introduceert verdere neerwaartse vertekening, door Jensen's ongelijkheid, omdat de vierkantswortel een concave functie. De vertekening in de variantie is gemakkelijk te corrigeren, maar de vertekening van de vierkantswortel is moeilijker te corrigeren en hangt af van de betreffende verdeling.

Een onpartijdige schatter voor de variantie wordt gegeven door te solliciteren Bessel's correctie, gebruik makend van N- 1 in plaats van N om de onpartijdige steekproefvariantie, aangegeven s2:

Deze schatter is onbevooroordeeld als de variantie bestaat en de steekproefwaarden onafhankelijk worden getrokken door vervanging. N- 1 komt overeen met het aantal graden van vrijheid in de vector van afwijkingen van het gemiddelde,

Het nemen van vierkante wortels herintroduceert bias opnieuw (omdat de vierkantswortel een niet -lineaire functie is die dat niet doet pendelen met de verwachting, d.w.z. vaak ), die de Gecorrigeerde monster standaardafwijking, aangegeven door s:

Zoals hierboven uitgelegd, terwijl s2 is een onbevooroordeelde schatter voor de populatievariantie, s is nog steeds een bevooroordeelde schatter voor de standaardafwijking van de populatie, hoewel aanzienlijk minder bevooroordeeld dan de standaardafwijking van de niet -gecorrigeerde steekproef. Deze schatter wordt vaak gebruikt en algemeen bekend als de "Sample Standard Deviation". De bias kan nog steeds groot zijn voor kleine monsters (N minder dan 10). Naarmate de steekproefomvang toeneemt, neemt de hoeveelheid vertekening af. We verkrijgen meer informatie en het verschil tussen en wordt kleiner.

Onbevorderde monster standaardafwijking

Voor onpartijdige schatting van standaardafwijking, er is geen formule die in alle distributies werkt, in tegenstelling tot gemiddelde en variantie. In plaats van, s wordt als basis gebruikt en wordt geschaald door een correctiefactor om een ​​onpartijdige schatting te produceren. Voor de normale verdeling wordt een onpartijdige schatter gegeven door s/c4, waarbij de correctiefactor (die afhankelijk is van N) wordt gegeven in termen van de Gamma -functieen gelijk aan:

Dit ontstaat omdat de bemonsteringsverdeling van de standaardafwijking van de steekproef volgt (geschaald) chi -verdeling, en de correctiefactor is het gemiddelde van de CHI -verdeling.

Een benadering kan worden gegeven door te vervangen N- 1 met N- 1.5, opbrengst:

De fout in deze benadering vervalt quadratisch (als 1/N2), en het is geschikt voor iedereen behalve de kleinste monsters of de hoogste precisie: voor N = 3 De bias is gelijk aan 1,3%en voor N = 9 De bias is al minder dan 0,1%.

Een meer accurate benadering is te vervangen hierboven met .[8]

Voor andere distributies hangt de juiste formule af van de verdeling, maar een vuistregel is om de verdere verfijning van de benadering te gebruiken:

waar γ2 geeft de bevolking aan overtollige kurtosis. De overtollige kurtosis kan vooraf bekend zijn voor bepaalde distributies, of geschat uit de gegevens.[9]

Betrouwbaarheidsinterval van een bemonsterde standaardafwijking

De standaardafwijking die we verkrijgen door een verdeling te bemonsteren, is zelf niet absoluut nauwkeurig, zowel om wiskundige redenen (hier uitgelegd door het betrouwbaarheidsinterval) als om praktische meetredenen (meetfout). Het wiskundige effect kan worden beschreven door de Betrouwbaarheidsinterval of CI.

Om te laten zien hoe een groter monster het betrouwbaarheidsinterval smaller zal maken, overweeg dan de volgende voorbeelden: een kleine populatie van N = 2 heeft slechts 1 graad van vrijheid voor het schatten van de standaardafwijking. Het resultaat is dat een 95% BI van de SD loopt van 0,45 x SD tot 31,9 × SD; De factoren hier zijn als volgt:

waar is de p-th Kwantiel van de chikwadraatverdeling met k vrijheidsgraden, en is het betrouwbaarheidsniveau. Dit is gelijk aan het volgende:

Met k = 1, en . De wederkeringen van de vierkante wortels van deze twee nummers geven ons de factoren 0,45 en 31.9 hierboven gegeven.

Een grotere populatie van N = 10 heeft 9 vrijheidsgraden voor het schatten van de standaardafwijking. Dezelfde berekeningen als hierboven geven ons in dit geval een 95% BI van 0,69 x SD tot 1,83 x SD. Dus zelfs met een steekproefpopulatie van 10, kan de werkelijke SD nog steeds bijna een factor 2 hoger zijn dan de bemonsterde SD. Voor een steekproefpopulatie n = 100 is dit gedaald tot 0,88 × SD tot 1,16 x SD. Om zekerder te zijn dat de bemonsterde SD dicht bij de werkelijke SD ligt, moeten we een groot aantal punten bemonsteren.

Dezelfde formules kunnen worden gebruikt om betrouwbaarheidsintervallen te verkrijgen over de variantie van residuen van een minst vierkanten passen onder standaard normale theorie, waar k is nu het aantal graden van vrijheid voor fouten.

Grenzen op standaardafwijking

Voor een set van N > 4 gegevens over een reeks waarden R, een bovengrens op de standaardafwijking s is gegeven door S = 0,6R.[10] Een schatting van de standaardafwijking voor N > 100 gegevens die als ongeveer normaal zijn genomen, volgen uit de heuristiek dat 95% van het gebied onder de normale curve ongeveer twee standaardafwijkingen ligt aan weerszijden van het gemiddelde, zodat, met 95% waarschijnlijkheid het totale bereik van waarden R vertegenwoordigt vier standaardafwijkingen zodat S ≈ R/4. Deze zogenaamde bereikregel is nuttig in steekproefgrootte Schatting, aangezien het bereik van mogelijke waarden gemakkelijker te schatten is dan de standaardafwijking. Andere delers K (n) van het bereik zodanig dat S ≈ r/k (n) zijn beschikbaar voor andere waarden van N en voor niet-normale distributies.[11]

Identiteiten en wiskundige eigenschappen

De standaardafwijking is invariant onder veranderingen in plaatsen schalen rechtstreeks met de schaal van de willekeurige variabele. Dus voor een constante c en willekeurige variabelen X en Y:

De standaardafwijking van de som van twee willekeurige variabelen kan verband houden met hun individuele standaardafwijkingen en de covariantie tussen hen:

waar en Sta voor variantie en covariantie, respectievelijk.

De berekening van de som van vierkante afwijkingen kan verband houden met momenten rechtstreeks uit de gegevens berekend. In de volgende formule wordt de letter E geïnterpreteerd als de verwachte waarde, d.w.z. gemiddelde.

De standaarddeviatie van het monster kan worden berekend als:

Voor een eindige bevolking met gelijke kansen op alle punten, hebben we

wat betekent dat de standaardafwijking gelijk is aan de vierkantswortel van het verschil tussen het gemiddelde van de vierkanten van de waarden en het kwadraat van de gemiddelde waarde.

Zie Computationele formule voor de variantie voor bewijs en voor een analoog resultaat voor de standaardafwijking van de steekproef.

Interpretatie en toepassing

Voorbeeld van monsters uit twee populaties met hetzelfde gemiddelde maar verschillende standaardafwijkingen. Rode bevolking heeft gemiddeld 100 en SD 10; Blauwe populatie heeft gemiddeld 100 en SD 50.

Een grote standaardafwijking geeft aan dat de gegevenspunten zich ver van het gemiddelde kunnen verspreiden en een kleine standaardafwijking geeft aan dat ze nauw rond het gemiddelde zijn geclusterd.

Bijvoorbeeld, elk van de drie populaties {0, 0, 14, 14}, {0, 6, 8, 14} en {6, 6, 8, 8} heeft een gemiddelde van 7. Hun standaardafwijkingen zijn 7, 5 en 1, respectievelijk. De derde populatie heeft een veel kleinere standaardafwijking dan de andere twee, omdat de waarden allemaal dicht bij 7 zijn. Deze standaardafwijkingen hebben dezelfde eenheden als de gegevenspunten zelf. Als bijvoorbeeld de gegevensset {0, 6, 8, 14} de leeftijden vertegenwoordigt van een populatie van vier broers en zussen in jaren, is de standaardafwijking 5 jaar. Als een ander voorbeeld kan de bevolking {1000, 1006, 1008, 1014} de afgestemde afstanden vertegenwoordigen door vier atleten, gemeten in meters. Het heeft een gemiddelde van 1007 meter en een standaardafwijking van 5 meter.

Standaardafwijking kan dienen als een maat voor onzekerheid. In de fysieke wetenschap bijvoorbeeld, bijvoorbeeld, de gerapporteerde standaardafwijking van een groep herhaalde afmetingen geeft de nauwkeurigheid van die metingen. Bij het beslissen of metingen overeenkomen met een theoretische voorspelling, is de standaardafwijking van die metingen van cruciaal belang: als het gemiddelde van de metingen te ver weg is van de voorspelling (met de afstand gemeten in standaardafwijkingen), dan wordt de theorie waarschijnlijk getest moet worden herzien. Dit is logisch, omdat ze buiten het bereik van waarden vallen die redelijkerwijs kunnen worden verwacht, als de voorspelling correct was en de standaardafwijking op de juiste manier is gekwantificeerd. Zien voorspellingsinterval.

Hoewel de standaardafwijking wel meet hoe ver typische waarden van het gemiddelde zijn, zijn andere maatregelen beschikbaar. Een voorbeeld is het gemiddelde absolute afwijking, die kan worden beschouwd als een meer directe maat voor de gemiddelde afstand, vergeleken met de Wortelgemiddelde vierkante afstand inherent aan de standaardafwijking.

Toepassingsvoorbeelden

De praktische waarde van het begrijpen van de standaardafwijking van een reeks waarden is om te waarderen hoeveel variatie er is van het gemiddelde (gemiddelde).

Experiment, industriële en hypothese -testen

Standaardafwijking wordt vaak gebruikt om real-world gegevens te vergelijken met een model om het model te testen. In industriële toepassingen moet bijvoorbeeld het gewicht van producten die van een productielijn komen mogelijk voldoen aan een wettelijk vereiste waarde. Door een deel van de producten te wegen, kan een gemiddeld gewicht worden gevonden, dat altijd enigszins zal verschillen van het langetermijngemiddelde. Door standaardafwijkingen te gebruiken, kan een minimum- en maximale waarde worden berekend dat het gemiddelde gewicht binnen een zeer hoog percentage van de tijd zal liggen (99,9% of meer). Als het buiten het bereik valt, moet het productieproces mogelijk worden gecorrigeerd. Statistische tests zoals deze zijn bijzonder belangrijk wanneer het testen relatief duur is. Als het product bijvoorbeeld moet worden geopend en afgevoerd en gewogen, of als het product anders werd opgebruikt door de test.

In experimentele wetenschap wordt een theoretisch realiteitsmodel gebruikt. Deeltjesfysica gebruikt conventioneel een standaard van "5 Sigma"Voor de verklaring van een ontdekking. Een niveau van vijf sigma vertaalt zich in één kans in 3,5 miljoen dat een willekeurige fluctuatie het resultaat zou opleveren. Dit niveau van zekerheid was vereist om te beweren dat een deeltje die consistent is met het Higgs Boson was ontdekt in twee onafhankelijke experimenten bij Cern,[12] leidt ook tot de verklaring van de Eerste observatie van zwaartekrachtgolven.[13]

Het weer

Overweeg als een eenvoudig voorbeeld de gemiddelde dagelijkse maximale temperaturen voor twee steden, één binnenland en één aan de kust. Het is nuttig om te begrijpen dat het bereik van de dagelijkse maximale temperaturen voor steden in de buurt van de kust kleiner is dan voor steden in het binnenland. Hoewel deze twee steden elk dezelfde gemiddelde maximale temperatuur kunnen hebben, zal de standaardafwijking van de dagelijkse maximale temperatuur voor de kuststad minder zijn dan die van de binnenlandse stad, omdat op een bepaalde dag de werkelijke maximale temperatuur waarschijnlijker is om verder te zijn van de gemiddelde maximale temperatuur voor de binnenstad dan voor de kust.

Financiën

In financiën wordt standaardafwijking vaak gebruikt als een maat voor de risico geassocieerd met prijsbelucties van een bepaald actief (aandelen, obligaties, onroerend goed, enz.), Of het risico van een portefeuille van activa[14] (actief beheerde beleggingsfondsen, index beleggingsfondsen of ETF's). Risico is een belangrijke factor bij het bepalen van het efficiënt beheren van een investeringenportefeuille omdat het de variatie in rendement op het actief en/of portefeuille bepaalt en beleggers een wiskundige basis geeft voor beleggingsbeslissingen (bekend als bekend Gemiddelde variantie-optimalisatie). Het fundamentele concept van risico is dat naarmate het toeneemt, het verwachte rendement op een investering ook zou moeten toenemen, een toename die bekend staat als de risicopremie. Met andere woorden, beleggers moeten een hoger rendement van een investering verwachten wanneer die investering een hoger risico- of onzekerheid met zich meebrengt. Bij het evalueren van investeringen moeten beleggers zowel het verwachte rendement als de onzekerheid van toekomstige rendementen schatten. Standaardafwijking biedt een gekwantificeerde schatting van de onzekerheid van toekomstige rendementen.

Neem bijvoorbeeld aan dat een belegger tussen twee aandelen moest kiezen. Voorraad A had de afgelopen 20 jaar een gemiddeld rendement van 10 procent, met een standaardafwijking van 20 percentage punten (PP) en aandelen B hadden in dezelfde periode een gemiddeld rendement van 12 procent, maar een hogere standaardafwijking van 30 pp. Op basis van risico en rendement kan een belegger beslissen dat aandelen A de veiliger keuze is, omdat voorraad B's Bijkomende twee procentuele rendementspunten is de extra standaardafwijking van 10 pp niet waard (groter risico of onzekerheid van het verwachte rendement). Stock B zal waarschijnlijk niet haalt aan de initiële investering (maar ook om de initiële investering te overschrijden) vaker dan aandelen A onder dezelfde omstandigheden, en wordt geschat dat het gemiddeld slechts twee procent meer retourneert. In dit voorbeeld zal aandelen A naar verwachting ongeveer 10 procent verdienen, plus of min 20 pp (een bereik van 30 procent tot -10 procent), ongeveer tweederde van het rendement van het toekomstige jaar. Bij het overwegen van meer extreem mogelijke rendementen of resultaten in de toekomst, moet een belegger de resultaten verwachten van maar liefst 10 procent plus of min 60 pp, of een bereik van 70 procent tot -50 procent, inclusief resultaten voor drie standaardafwijkingen van het gemiddelde rendement (ongeveer 99,7 procent van het waarschijnlijke rendement).

Het berekenen van het gemiddelde (of rekenkundig gemiddelde) van de terugkeer van een beveiliging gedurende een bepaalde periode zal het verwachte rendement van het actief genereren. Voor elke periode wordt het verwachte rendement afgetrokken van het werkelijke rendement in het verschil met het gemiddelde. Het verschil in elke periode kwetsbaar en het nemen van het gemiddelde geeft de algehele variantie van het rendement van het actief. Hoe groter de variantie, hoe groter het risico dat de beveiliging draagt. Het vinden van de vierkantswortel van deze variantie zal de standaardafwijking van de beleggingstool in kwestie geven.

Populatiestandaardafwijking wordt gebruikt om de breedte van te stellen Bollinger -bands, a technische Analyse hulpmiddel. De bovenste Bollinger -band wordt bijvoorbeeld gegeven als De meest gebruikte waarde voor n is 2; Er is ongeveer vijf procent kans om naar buiten te gaan, uitgaande van een normale verdeling van het rendement.

Het is bekend dat financiële tijdreeksen niet-stationaire series zijn, terwijl de bovenstaande statistische berekeningen, zoals standaardafwijking, alleen van toepassing zijn op stationaire series. Om de bovenstaande statistische tools toe te passen op niet-stationaire series, moet de serie eerst worden getransformeerd naar een stationaire serie, waardoor statistische hulpmiddelen mogelijk worden gemaakt die nu een geldige basis hebben om te werken.

Geometrische interpretatie

Om wat geometrische inzichten en opheldering te krijgen, zullen we beginnen met een populatie van drie waarden, x1, x2, x3. Dit definieert een punt P = (x1, x2, x3) in R3. Overweeg de lijn L = {(r, r, r): rR}. Dit is de "hoofddiagonaal" die door de oorsprong gaat. Als onze drie gegeven waarden allemaal gelijk waren, zou de standaardafwijking nul zijn en P zou liggen op L. Het is dus niet onredelijk om aan te nemen dat de standaardafwijking gerelateerd is aan de afstand van P tot L. Dat is inderdaad het geval. Om orthogonaal te verplaatsen van L ter zake P, men begint op het punt:

wiens coördinaten het gemiddelde zijn van de waarden waarmee we zijn begonnen.

Afleiding van

staat aan daarom Voor sommigen .

De lijn is om orthogonaal te zijn voor de vector van tot . Daarom:

Een kleine algebra laat zien dat de afstand tussen P en M (die hetzelfde is als de Orthogonale afstand tussen P en de lijn L) is gelijk aan de standaardafwijking van de vector (x1, x2, x3), vermenigvuldigd met de vierkantswortel van het aantal dimensies van de vector (3 in dit geval).

Chebyshev's ongelijkheid

Een observatie is zelden meer dan een paar standaardafwijkingen weg van het gemiddelde. De ongelijkheid van Chebyshev zorgt ervoor dat, voor alle distributies waarvoor de standaardafwijking is gedefinieerd, de hoeveelheid gegevens binnen een aantal standaardafwijkingen van het gemiddelde minstens evenveel is als in de volgende tabel.

Afstand van gemiddelde Minimale bevolking
50%
2σ 75%
3σ 89%
4σ 94%
5σ 96%
6σ 97%
[15]

Regels voor normaal gedistribueerde gegevens

Donkerblauw is een standaardafwijking aan weerszijden van het gemiddelde. Voor de normale verdeling is dit goed voor 68,27 procent van de set; terwijl twee standaardafwijkingen van het gemiddelde (medium en donkerblauw) goed zijn voor 95,45 procent; Drie standaardafwijkingen (licht, medium en donkerblauw) zijn goed voor 99,73 procent; en vier standaardafwijkingen zijn goed voor 99,994 procent. De twee punten van de curve die één standaardafwijking van het gemiddelde zijn, zijn ook de verbuigingspunten.

De centrale limietstelling stelt dat de verdeling van een gemiddelde van veel onafhankelijke, identiek verdeelde willekeurige variabelen neigt naar de beroemde klokvormige normale verdeling met een waarschijnlijkheidsdichtheidsfunctie van

waar μ is de verwachte waarde van de willekeurige variabelen, σ is gelijk aan de standaardafwijking van hun verdeling gedeeld door n1/2, en n is het aantal willekeurige variabelen. De standaardafwijking is daarom gewoon een schaalvariabele die aanpast hoe breed de curve zal zijn, hoewel deze ook in de Normaliseren constant.

Als een gegevensverdeling ongeveer normaal is, dan is het aandeel gegevenswaarden binnenin z Standaardafwijkingen van het gemiddelde worden gedefinieerd door:

waar is de foutfunctie. Het aandeel dat kleiner is dan of gelijk is aan een getal, x, wordt gegeven door de cumulatieve distributiefunctie:

.[16]

Als een gegevensverdeling ongeveer normaal is, valt ongeveer 68 procent van de gegevenswaarden binnen één standaardafwijking van het gemiddelde (wiskundig, μ±σ, waar μ is het rekenkundige gemiddelde), ongeveer 95 procent is binnen twee standaardafwijkingen (μ± 2σ), en ongeveer 99,7 procent liggen binnen drie standaardafwijkingen (μ± 3σ). Dit staat bekend als de 68–95–99.7 Regel, of de empirische regel.

Voor verschillende waarden van z, het percentage waarden dat naar verwachting zal liggen in en buiten het symmetrische interval, CI = ( -,,), zijn als volgt:

Percentage binnen (z)
z(Percentage binnen)

Vertrouwen
interval
Verhouding binnen Verhouding zonder
Percentage Percentage Fractie
0.318639σ 25% 75% 3 / 4
0,674490σ 50% 50% 1/2
0,977925σ 66.6667% 33.3333% 1/3
0.994458σ 68% 32% 1/3.125
1σ 68.2689492% 31.7310508% 1/3.1514872
1.281552σ 80% 20% 1/5
1.644854σ 90% 10% 1/10
1.959964σ 95% 5% 1/20
2σ 95.4499736% 4.5500264% 1/21.977895
2.575829σ 99% 1% 1/100
3σ 99.7300204% 0.2699796% 1/370.398
3.290527σ 99,9% 0,1% 1/1000
3.890592σ 99,99% 0,01% 1/10000
4σ 99.993666% 0.006334% 1/15787
4.417173σ 99,999% 0,001% 1/100000
4.5σ 99.9993204653751% 0,0006795346249% 1/147159.5358
6.8/1000000
4.891638σ 99.9999% 0,0001% 1/1000000
5σ 99.9999426697% 0,0000573303% 1/1744278
5.326724σ 99.99999% 0,00001% 1/10000000
5.730729σ 99.999999% 0,000001% 1/100000000
6σ 99.9999998027% 0,0000001973% 1/506797346
6.109410σ 99.9999999% 0,0000001% 1/1000000000
6.466951σ 99.99999999% 0,00000001% 1/10000000000
6.806502σ 99.999999999% 0,000000001% 1/100000000000
7σ 99.9999999997440% 0,000000000256% 1/390682215445

Relatie tussen standaardafwijking en gemiddelde

Het gemiddelde en de standaardafwijking van een reeks gegevens zijn beschrijvende statistieken meestal samen gerapporteerd. In zekere zin is de standaardafwijking een "natuurlijke" maat voor statistische dispersie Als het centrum van de gegevens wordt gemeten over het gemiddelde. Dit komt omdat de standaardafwijking van het gemiddelde kleiner is dan vanaf elk ander punt. De precieze verklaring is de volgende: veronderstel x1, ..., xn zijn reële getallen en definiëren de functie:

Gebruik makend van calculus of door Het vierkant voltooien, het is mogelijk om dat te laten zien σ(r) heeft een uniek minimum bij het gemiddelde:

Variabiliteit kan ook worden gemeten door de variatiecoëfficiënt, wat de verhouding is van de standaardafwijking tot het gemiddelde. Het is een Dimensieloos nummer.

Standaardafwijking van het gemiddelde

Vaak willen we wat informatie over de precisie van het gemiddelde dat we hebben verkregen. We kunnen dit verkrijgen door de standaardafwijking van het bemonsterde gemiddelde te bepalen. Uitgaande van statistische onafhankelijkheid van de waarden in het monster, is de standaardafwijking van het gemiddelde gerelateerd aan de standaardafwijking van de verdeling door:

waar N is het aantal waarnemingen in het monster dat wordt gebruikt om het gemiddelde te schatten. Dit kan gemakkelijk worden bewezen (zie Basiseigenschappen van de variantie):

(Statistische onafhankelijkheid wordt aangenomen.)

Vandaar

Resulterend in:

Om de standaardafwijking van het gemiddelde te schatten Het is noodzakelijk om de standaardafwijking van de hele bevolking te kennen vooraf. In de meeste toepassingen is deze parameter echter onbekend. Als bijvoorbeeld een reeks van 10 metingen van een voorheen onbekende hoeveelheid in een laboratorium wordt uitgevoerd, is het mogelijk om het resulterende monstergemiddelde en de standaarddeviatie van het monster te berekenen, maar het is onmogelijk om de standaardafwijking van het gemiddelde te berekenen. Men kan echter de standaardafwijking van de gehele populatie uit de steekproef schatten en dus een schatting verkrijgen voor de standaardfout van het gemiddelde.

Snelle berekeningsmethoden

De volgende twee formules kunnen een lopende (herhaaldelijk bijgewerkte) standaardafwijking vertegenwoordigen. Een set van twee vermogens bedragen s1 en s2 worden berekend over een set van N waarden van x, aangeduid als x1, ..., xN:

Gezien de resultaten van deze lopende summaties, de waarden N, s1, s2 kan op elk moment worden gebruikt om de huidig Waarde van de lopende standaardafwijking:

Waarbij n, zoals hierboven vermeld, de grootte is van de set waarden (of ook kan worden beschouwd als s0).

Evenzo voor de standaarddeviatie van de steekproef,

In een computerimplementatie, zoals de twee sj bedragen worden groot, we moeten overwegen afrotfout, rekenkundige overloop, en rekenkundige onderloop. De onderstaande methode berekent de handelsmethode met verminderde afrondingsfouten.[17] Dit is een "one -pass" -algoritme voor het berekenen van variantie van n Monsters zonder dat u eerdere gegevens tijdens de berekening moet opslaan. Het toepassen van deze methode op een tijdreeks zal resulteren in opeenvolgende waarden van standaardafwijking die overeenkomt met n Gegevenspunten als n wordt groter met elk nieuw monster, in plaats van een schuifraamberekening van constant-breedte.

Voor k = 1, ..., n:

waar a de gemiddelde waarde is.

Opmerking: sinds of

Steekproefvariantie:

Populatievariantie:

Gewogen berekening

Wanneer de waarden xi worden gewogen met ongelijke gewichten wi, de stroomomvatten s0, s1, s2 worden elk berekend als:

En de standaardafwijkingsvergelijkingen blijven ongewijzigd. s0 is nu de som van de gewichten en niet het aantal monsters N.

De incrementele methode met verminderde afrondingsfouten kan ook worden toegepast, met enige extra complexiteit.

Een lopende som van gewichten moet voor elk worden berekend k Van 1 tot n:

en plaatsen waar 1/n wordt hierboven gebruikt, moet worden vervangen door wi/Wn:

In de laatste divisie,

en

of

waar n is het totale aantal elementen, en n' is het aantal elementen met niet-nul gewichten.

De bovenstaande formules worden gelijk aan de hierboven gegeven eenvoudigere formules als gewichten als gelijk aan één worden beschouwd.

Geschiedenis

De voorwaarde standaardafwijking werd voor het eerst gebruikt bij het schrijven door Karl Pearson In 1894, na zijn gebruik ervan in lezingen.[18][19] Dit was een vervanging voor eerdere alternatieve namen voor hetzelfde idee: bijvoorbeeld, bijvoorbeeld, Gauss gebruikt Gemiddelde fout.[20]

Hogere dimensies

De standaardafwijking ellips (groen) van een tweedimensionale normale verdeling

In twee dimensies kan de standaardafwijking worden geïllustreerd met de standaardafwijking ellips (zie Multivariate normale verdeling § Geometrische interpretatie).

Zie ook

Referenties

  1. ^ Bland, J.M.; Altman, D.G. (1996). "Statistieken Opmerkingen: meetfout". BMJ. 312 (7047): 1654. doen:10.1136/bmj.312.7047.1654. PMC 2351401. Pmid 8664723.
  2. ^ Gauss, Carl Friedrich (1816). "Bestimmung der GenaUigkeit der Beobachtungen". Zeitschrift für astronomie und verwandte wissenschaften. 1: 187–197.
  3. ^ Walker, Helen (1931). Studies in de geschiedenis van de statistische methode. Baltimore, MD: Williams & Wilkins Co. pp. 24–25.
  4. ^ Weisstein, Eric W. "Bessel's correctie". Wiskunde.
  5. ^ "Standaardafwijkingsformules". www.mathsisfun.com. Opgehaald 21 augustus 2020.
  6. ^ Weisstein, Eric W. "Standaardafwijking". Mathworld.wolfram.com. Opgehaald 21 augustus 2020.
  7. ^ "Consistente schatter". www.statlect.com. Opgehaald 10 oktober 2022.
  8. ^ Gurland, John; Tripathi, Ram C. (1971), "Een eenvoudige benadering voor onpartijdige schatting van de standaardafwijking", De Amerikaanse statisticus, 25 (4): 30–32, doen:10.2307/2682923, Jstor 2682923
  9. ^ "Standaardafwijkingscalculator". Purecalculators. 11 juli 2021. Opgehaald 14 september 2021.
  10. ^ Shiffler, Ronald E.; Harsha, Phillip D. (1980). "Boven- en ondergrenzen voor de standaardafwijking van het monster". Onderwijstatistieken. 2 (3): 84–86. doen:10.1111/j.1467-9639.1980.tb00398.x.
  11. ^ Browne, Richard H. (2001). "Het monsterbereik gebruiken als basis voor het berekenen van de steekproefomvang in vermogensberekeningen". De Amerikaanse statisticus. 55 (4): 293–298. doen:10.1198/000313001753272420. Jstor 2685690. S2CID 122328846.
  12. ^ "CERN-experimenten observeren deeltjes die consistent zijn met lang gezochte Higgs Boson | CERN Press Office". Press.web.cern.ch. 4 juli 2012. Gearchiveerd van het origineel op 25 maart 2016. Opgehaald 30 mei 2015.
  13. ^ Ligo Scientific Collaboration, Virgo Collaboration (2016), "Observatie van zwaartekrachtgolven uit een binaire zwarte gatfusie", Fysieke beoordelingsbrieven, 116 (6): 061102, arxiv:1602.03837, Bibcode:2016PHRVL.116F1102A, doen:10.1103/PhysRevlett.116.061102, Pmid 26918975, S2CID 124959784
  14. ^ "Wat is standaardafwijking". Onschuldig. Opgehaald 29 oktober 2011.
  15. ^ Ghahramani, Saeed (2000). Fundamentals of waarschijnlijkheid (2e ed.). New Jersey: Prentice Hall. p.438. ISBN 9780130113290.
  16. ^ Eric W. Weisstein. "Distributie functie". Mathworld - Een Wolfram -webbron. Opgehaald 30 september 2014.
  17. ^ Welford, BP (augustus 1962). "Opmerking over een methode voor het berekenen van gecorrigeerde sommen vierkanten en producten". Technometrie. 4 (3): 419–420. Citeseerx 10.1.1.302.7503. doen:10.1080/00401706.1962.10490022.
  18. ^ Dodge, Yadolah (2003). The Oxford Dictionary of Statistical Feards. Oxford Universiteit krant. ISBN 978-0-19-920613-1.
  19. ^ Pearson, Karl (1894). "Bij de dissectie van asymmetrische frequentiecurves". Filosofische transacties van de Royal Society a. 185: 71–110. Bibcode:1894rspta.185 ... 71p. doen:10.1098/rsta.1894.0003.
  20. ^ Miller, Jeff. "Vroegste bekende toepassingen van enkele van de woorden van wiskunde".

Externe links