Variantie

Voorbeeld van monsters uit twee populaties met hetzelfde gemiddelde maar verschillende varianties. De rode populatie heeft gemiddeld 100 en variantie 100 (SD = 10), terwijl de blauwe populatie gemiddeld 100 en variantie 2500 (SD = 50) heeft.

In waarschijnlijkheids theorie en statistieken, variantie is de verwachting van de vierkante afwijking van een willekeurige variabele van zijn populatie gemiddelde of monstergemiddelde. Variantie is een maat voor spreiding, wat betekent dat het een maat is voor hoe ver een reeks getallen wordt verspreid van hun gemiddelde waarde. Variantie speelt een centrale rol in statistieken, waarbij sommige ideeën die het gebruiken omvatten beschrijvende statistieken, Statistische inferentie, Hypothesetesten, goedheid van fit, en Monte Carlo -bemonstering. Variantie is een belangrijk hulpmiddel in de wetenschappen, waarbij statistische analyse van gegevens gebruikelijk is. De variantie is het vierkant van de standaardafwijking, de seconde centraal moment van een verdeling, en de covariantie van de willekeurige variabele met zichzelf, en deze wordt vaak weergegeven door , , , , of .[1]

Een voordeel van variantie als een maat voor dispersie is dat het meer vatbaar is voor algebraïsche manipulatie dan andere dispersiemaatregelen, zoals de Verwachte absolute afwijking; De variantie van een som van niet -gecorreleerde willekeurige variabelen is bijvoorbeeld gelijk aan de som van hun varianties. Een nadeel van de variantie voor praktische toepassingen is dat, in tegenstelling tot de standaardafwijking, zijn eenheden verschillen van de willekeurige variabele, en daarom wordt de standaardafwijking vaker gerapporteerd als een maat voor de dispersie zodra de berekening is voltooid.

Er zijn twee verschillende concepten die beide "variantie" worden genoemd. Eén, zoals hierboven besproken, maakt deel uit van een theoretisch waarschijnlijkheidsverdeling en wordt gedefinieerd door een vergelijking. De andere variantie is een kenmerk van een reeks observaties. Wanneer variantie wordt berekend op basis van observaties, worden die waarnemingen meestal gemeten uit een echt wereldsysteem. Als alle mogelijke waarnemingen van het systeem aanwezig zijn, wordt de berekende variantie de populatievariantie genoemd. Normaal gesproken is echter alleen een subset beschikbaar en de variantie die hieruit wordt berekend, wordt de monstervariantie genoemd. De variantie berekend uit een steekproef wordt beschouwd als een schatting van de volledige populatievariantie. Er zijn meerdere manieren om een ​​schatting van de populatievariantie te berekenen, zoals besproken in de onderstaande sectie.

De twee soorten variantie zijn nauw verwant. Om te zien hoe, bedenk dat een theoretische waarschijnlijkheidsverdeling kan worden gebruikt als een generator van hypothetische waarnemingen. Als een oneindig aantal waarnemingen wordt gegenereerd met behulp van een verdeling, dan komt de monstervariantie berekend uit die oneindige set overeen met de waarde berekend met behulp van de vergelijking van de verdeling voor variantie.

Etymologie

De voorwaarde variantie werd voor het eerst geïntroduceerd door Ronald Fisher In zijn papier uit 1918 De correlatie tussen familieleden op de veronderstelling van Mendeliaanse erfenis:[2]

Het grote aantal beschikbare statistieken tonen ons dat de afwijkingen van een menselijke meting Volg de gemiddelde zeer nauwlettend de Normale wet van foutenen daarom dat de variabiliteit uniform kan worden gemeten door de standaardafwijking overeenkomend met de vierkantswortel van de Gemiddelde vierkante fout. Wanneer er twee onafhankelijke oorzaken zijn van variabiliteit die kunnen produceren in een anders uniforme populatieverdelingen met standaardafwijkingen en , het blijkt dat de verdeling, wanneer beide samenwerken samenwerken, een standaardafwijking heeft . Het is daarom wenselijk bij het analyseren van de oorzaken van variabiliteit om met het kwadraat van de standaardafwijking om te gaan als de maat voor variabiliteit. We zullen deze hoeveelheid de variantie noemen ...

Geometrische visualisatie van de variantie van een willekeurige verdeling (2, 4, 4, 4, 5, 5, 7, 9):
  1. Een frequentieverdeling is geconstrueerd.
  2. Het zwaartepunt van de distributie geeft zijn gemiddelde.
  3. Een vierkant met zijden gelijk aan het verschil van elke waarde van het gemiddelde wordt gevormd voor elke waarde.
  4. De vierkanten in een rechthoek regelen met één zijde gelijk aan het aantal waarden, n, resulteert in de andere kant die de variantie van de verdeling is, σ2.

Definitie

De variantie van een willekeurige variabele is de verwachte waarde van de kwadraatafwijking van het gemiddelde van , :

Deze definitie omvat willekeurige variabelen die worden gegenereerd door processen die zijn discreet, continu, geen van beide, of gemengd. De variantie kan ook worden beschouwd als de covariantie van een willekeurige variabele met zichzelf:

De variantie is ook gelijk aan de tweede cumulant van een waarschijnlijkheidsverdeling die genereert . De variantie wordt meestal aangeduid als , of soms als of , of symbolisch als of gewoon (uitgesproken "sigma vierkante "). De uitdrukking voor de variantie kan als volgt worden uitgebreid:

Met andere woorden, de variantie van X is gelijk aan het gemiddelde van het kwadraat van X minus het vierkant van het gemiddelde van X. Deze vergelijking mag niet worden gebruikt voor berekeningen met behulp van drijvend punt rekenkundig, omdat het lijdt aan catastrofale annulering Als de twee componenten van de vergelijking in grootte vergelijkbaar zijn. Zie voor andere numeriek stabiele alternatieven Algoritmen voor het berekenen van variantie.

Discrete willekeurige variabele

Als de generator van willekeurige variabele is discreet met kansdichtheidsfunctie , dan

waar is de verwachte waarde. Dat is,

(Wanneer zo'n discreet gewogen variantie wordt gespecificeerd door gewichten waarvan de som niet 1 is, dan verdeelt men zich door de som van de gewichten.)

De variantie van een verzameling van even waarschijnlijk waarden kunnen worden geschreven als

waar is de gemiddelde waarde. Dat is,

De variantie van een set van Even waarschijnlijk waarschijnlijk kunnen waarden gelijkwaardig worden uitgedrukt, zonder direct te verwijzen naar het gemiddelde, in termen van kwadraatafwijkingen van alle paarsgewijze vierkante afstanden van punten van elkaar:[3]

Absoluut continue willekeurige variabele

Als de willekeurige variabele heeft een waarschijnlijkheidsdichtheidsfunctie , en is de overeenkomstige cumulatieve distributiefunctie, dan

of gelijkwaardig,

waar is de verwachte waarde van gegeven door

In deze formules zijn de integralen met betrekking tot en zijn Lebesgue en Lebesgue - Stieltjes integralen, respectievelijk.

Als de functie is Riemann-integreerbaar Op elk eindig interval dan

waar de integrale is een Onjuiste Riemann -integrale.

Voorbeelden

Exponentiële verdeling

De exponentiële verdeling met parameter λ is een continue verdeling waarvan waarschijnlijkheidsdichtheidsfunctie is gegeven door

op de interval [0, ∞). Het gemiddelde kan worden aangetoond

Gebruik makend van Integratie door onderdelen En gebruik maken van de al berekende waarde van de verwachte waarde, hebben we:

Dus de variantie van X is gegeven door

Fair Die

Een beurs zeszijdige dobbelsteen kan worden gemodelleerd als een discrete willekeurige variabele, X, met resultaten 1 tot en met 6, elk met gelijke waarschijnlijkheid 1/6. De verwachte waarde van X is Daarom de variantie van X is

De algemene formule voor de variantie van de uitkomst, X, van een n-zegend Die is

Veelgebruikte waarschijnlijkheidsverdelingen

De volgende tabel geeft een overzicht van de variantie voor enkele veelgebruikte waarschijnlijkheidsverdelingen.

Naam van de waarschijnlijkheidsverdeling Waarschijnlijkheidsverdelingsfunctie Gemeen Variantie
Binomiale verdeling
Geometrische verdeling
Normale verdeling
Uniforme verdeling (continu)
Exponentiële verdeling
Poisson -verdeling

Eigendommen

Basiseigenschappen

Variantie is niet-negatief omdat de vierkanten positief of nul zijn:

De variantie van een constante is nul.

Omgekeerd, als de variantie van een willekeurige variabele 0 is, dan is dat Bijna zeker Een constante. Dat wil zeggen, het heeft altijd dezelfde waarde:

Kwesties van eindigheid

Als een verdeling geen eindige verwachte waarde heeft, zoals het geval is voor de Cauchy -verdeling, dan kan de variantie ook niet eindig zijn. Sommige distributies hebben echter mogelijk geen eindige variantie, ondanks dat hun verwachte waarde eindig is. Een voorbeeld is een Pareto -verdeling van wie inhoudsopgave bevredigen

Ontleding

De algemene formule voor variantie -ontleding of de Wet van totale variantie is: als en zijn twee willekeurige variabelen en de variantie van bestaat dan

De Voorwaardelijke verwachting van gegeven , en de Voorwaardelijke variantie kan als volgt worden begrepen. Gegeven een bepaalde waarde y van de willekeurige variabeleY, er is een voorwaardelijke verwachting Gezien het evenementY=y. Deze hoeveelheid hangt af van de specifieke waardey; het is een functie . Diezelfde functie geëvalueerd op de willekeurige variabele Y is de voorwaardelijke verwachting

In het bijzonder als is een discrete willekeurige variabele uitgaande mogelijke waarden met overeenkomstige waarschijnlijkheden , dan in de formule voor totale variantie, wordt de eerste term aan de rechterkant

waar . Evenzo wordt de tweede term aan de rechterkant

waar en . Dus de totale variantie wordt gegeven door

Een vergelijkbare formule wordt toegepast in Variantieanalyse, waar de overeenkomstige formule is

hier verwijst naar het gemiddelde van de vierkanten. In lineaire regressie Analyse De overeenkomstige formule is

Dit kan ook worden afgeleid van de additiviteit van varianties, omdat de totale (waargenomen) score de som is van de voorspelde score en de foutscore, waarbij de laatste twee niet gecorreleerd zijn.

Soortgelijke ontledingen zijn mogelijk voor de som van vierkante afwijkingen (som van vierkanten, ):

Berekening van de CDF

De populatievariantie voor een niet-negatieve willekeurige variabele kan worden uitgedrukt in termen van de cumulatieve distributiefunctie F gebruik makend van

Deze uitdrukking kan worden gebruikt om de variantie te berekenen in situaties waarin de CDF, maar niet de dikte, kan gemakkelijk worden uitgedrukt.

Karakteristieke eigenschap

De seconde moment van een willekeurige variabele bereikt de minimumwaarde wanneer het rond het eerste moment (d.w.z. gemiddelde) van de willekeurige variabele wordt genomen, d.w.z. . Omgekeerd, als een continue functie bevredigen voor alle willekeurige variabelen X, dan is het noodzakelijkerwijs van de vorm , waar a > 0. Dit geldt ook in het multidimensionale geval.[4]

Meeteenheden

In tegenstelling tot de Verwachte absolute afwijking, de variantie van een variabele heeft eenheden die het kwadraat van de eenheden van de variabele zelf zijn. Een in meters gemeten variabele heeft bijvoorbeeld een variantie gemeten in vierkante meters. Om deze reden beschrijven gegevenssets via hun standaardafwijking of Wortelgemiddelde vierkante afwijking heeft vaak de voorkeur boven het gebruik van de variantie. In het dobbelstenen voorbeeld is de standaardafwijking 2.9 ≈ 1.7, iets groter dan de verwachte absolute afwijking van 1,5.

De standaardafwijking en de verwachte absolute afwijking kunnen beide worden gebruikt als een indicator voor de "spreiding" van een verdeling. De standaardafwijking is vatbaarder voor algebraïsche manipulatie dan de verwachte absolute afwijking, en, samen met variantie en de generalisatie ervan covariantie, wordt vaak gebruikt in theoretische statistieken; De verwachte absolute afwijking is echter meer robuust omdat het minder gevoelig is uitbijters voortkomend uit meetanomalieën of een onnodig zware verdeling.

Voortplanting

Toevoeging en vermenigvuldiging door een constante

Variantie is onveranderbaar met betrekking tot veranderingen in een Locatieparameter. Dat wil zeggen, als een constante wordt toegevoegd aan alle waarden van de variabele, is de variantie ongewijzigd:

Als alle waarden worden geschaald door een constante, wordt de variantie geschaald door het kwadraat van die constante:

De variantie van een som van twee willekeurige variabelen wordt gegeven door

waar is de covariantie.

Lineaire combinaties

In het algemeen, voor de som van willekeurige variabelen , de variantie wordt:

Zie ook Algemeen Bienaymé's identiteit.

Deze resultaten leiden tot de variantie van een lineaire combinatie net zo:

Als de willekeurige variabelen zijn zodanig dat

dan wordt van hen gezegd dat ze zijn niet gecorrigeerd. Het volgt onmiddellijk uit de eerder gegeven uitdrukking dat als de willekeurige variabelen zijn niet gecorreleerd, dan is de variantie van hun som gelijk aan de som van hun varianties, of, symbolisch uitgedrukt:

Omdat onafhankelijke willekeurige variabelen altijd niet gecorreleerd zijn (zie Covariantie § Niet gecorreleerdheid en onafhankelijkheid), de bovenstaande vergelijking geldt met name wanneer de willekeurige variabelen zijn onafhankelijk. Onafhankelijkheid is dus voldoende maar niet noodzakelijk voor de variantie van de som om de som van de varianties te evenaren.

Matrixnotatie voor de variantie van een lineaire combinatie

Definiëren Als kolomvector van willekeurige variabelen , en Als kolomvector van scalars . Daarom, is een lineaire combinatie van deze willekeurige variabelen, waar geeft de omzetten van . Laat ook toe wees de covariantiematrix van . De variantie van wordt dan gegeven door:[5]

Dit houdt in dat de variantie van het gemiddelde kan worden geschreven als (met een kolomvector van die)

Som van variabelen

Som van niet -gecorreleerde variabelen

Een reden voor het gebruik van de variantie in voorkeur aan andere dispersiemaatregelen is dat de variantie van de som (of het verschil) van niet gecorrigeerd Willekeurige variabelen is de som van hun varianties:

Deze verklaring wordt de Bienaymé formule[6] en werd ontdekt in 1853.[7][8] Het wordt vaak gemaakt met de sterkere toestand die de variabelen zijn onafhankelijk, maar niet gecorreleerd zijn. Dus als alle variabelen dezelfde variantie hebben σ2, dan, sinds divisie door n is een lineaire transformatie, deze formule impliceert onmiddellijk dat de variantie van hun gemiddelde is

Dat wil zeggen, de variantie van het gemiddelde neemt af wanneer n verhoogt. Deze formule voor de variantie van het gemiddelde wordt gebruikt in de definitie van de standaardfout van het monstergemiddelde, dat wordt gebruikt in de centrale limietstelling.

Om de eerste verklaring te bewijzen, volstaat het om dat aan te tonen

Het algemene resultaat volgt vervolgens door inductie. Beginnend met de definitie,

Met behulp van de lineariteit van de verwachtingoperator en de veronderstelling van onafhankelijkheid (of niet -gecorreleerde) van X en Y, dit vereenvoudigt verder als volgt:

Som van gecorreleerde variabelen

Som van gecorreleerde variabelen met een vaste steekproefgrootte

In het algemeen, de variantie van de som van n variabelen is de som van hun covarianties:

(Opmerking: de tweede gelijkheid komt van het feit dat Cov (Xi,Xi) = Var (Xi).)

Hier, is de covariantie, die nul is voor onafhankelijke willekeurige variabelen (als het bestaat). De formule stelt dat de variantie van een som gelijk is aan de som van alle elementen in de covariantiematrix van de componenten. De volgende uitdrukking stelt gelijkwaardig dat de variantie van de som de som is van de diagonaal van covariantiematrix plus twee keer de som van zijn bovenste driehoekige elementen (of zijn lagere driehoekige elementen); Dit benadrukt dat de covariantiematrix symmetrisch is. Deze formule wordt gebruikt in de theorie van Cronbach's Alpha in klassieke testtheorie.

Dus als de variabelen gelijke variantie hebben σ2 en het gemiddelde correlatie van verschillende variabelen is ρ, dan is de variantie van hun gemiddelde

Dit houdt in dat de variantie van het gemiddelde toeneemt met het gemiddelde van de correlaties. Met andere woorden, aanvullende gecorreleerde waarnemingen zijn niet zo effectief als aanvullende onafhankelijke waarnemingen bij het verminderen van de onzekerheid van de gemiddelde. Bovendien, als de variabelen eenheidsvariantie hebben, bijvoorbeeld als ze gestandaardiseerd zijn, vereenvoudigt dit zich

Deze formule wordt gebruikt in de Spearman -Brown Prediction Formula van de klassieke testtheorie. Dit convergeert naar ρ als n gaat naar oneindig, op voorwaarde dat de gemiddelde correlatie constant blijft of convergeert. Dus voor de variantie van het gemiddelde van gestandaardiseerde variabelen met gelijke correlaties of convergerende gemiddelde correlatie die we hebben

Daarom is de variantie van het gemiddelde van een groot aantal gestandaardiseerde variabelen ongeveer gelijk aan hun gemiddelde correlatie. Dit maakt duidelijk dat het steekproefgemiddelde van gecorreleerde variabelen in het algemeen niet overeenkomt met het populatiegemiddelde, hoewel de Wet van grote aantallen stelt dat het monstergemiddelde zal samenkomen voor onafhankelijke variabelen.

Som van niet -gecorreleerde variabelen met willekeurige steekproefgrootte

Er zijn gevallen waarin een monster wordt genomen zonder te weten, hoeveel observaties volgens een criterium acceptabel zullen zijn. In dergelijke gevallen is de steekproefomvang N is een willekeurige variabele waarvan de variatie bijdraagt ​​aan de variatie van X, zoals dat,

[9]

die volgt uit de Wet van totale variantie.

Als N heeft een Poisson -verdeling, dan met schatter N = n. Dus de schatter van wordt geven

Gewogen som van variabelen

De schaalbezit en de Bienaymé -formule, samen met het eigendom van de covariantie Cov (bijl,,door) = abs Cov (X,,Y) Gezamenlijk impliceren dat

Dit houdt in dat in een gewogen som van variabelen de variabele met het grootste gewicht een onevenredig groot gewicht zal hebben in de variantie van het totaal. Bijvoorbeeld, als X en Y zijn niet gecorreleerd en het gewicht van X is twee keer het gewicht van Y, dan het gewicht van de variantie van X zal vier keer het gewicht zijn van de variantie van Y.

De bovenstaande uitdrukking kan worden uitgebreid tot een gewogen som van meerdere variabelen:

Product van variabelen

Product van onafhankelijke variabelen

Als twee variabelen x en y zijn onafhankelijk, de variantie van hun product wordt gegeven door[10]

Gelijkwaardig, met behulp van de basiseigenschappen van verwachting, wordt het gegeven door

Product van statistisch afhankelijke variabelen

In het algemeen, als twee variabelen statistisch afhankelijk zijn, wordt de variantie van hun product gegeven door:

Willekeurige functies

De Delta -methode Gebruikt tweede-orde Taylor -uitbreidingen Om de variantie van een functie van een of meer willekeurige variabelen te benaderen: zie Taylor -uitbreidingen voor de momenten van functies van willekeurige variabelen. De geschatte variantie van een functie van één variabele wordt bijvoorbeeld gegeven door

mits f is twee keer onderscheidbaar en dat het gemiddelde en de variantie van X zijn eindig.

Populatievariantie en steekproefvariantie

Real-world observaties zoals de metingen van de regen van gisteren gedurende de dag kunnen meestal geen complete sets zijn van alle mogelijke waarnemingen die kunnen worden gedaan. Als zodanig zal de variantie berekend uit de eindige set in het algemeen niet overeenkomen met de variantie die zou zijn berekend uit de volledige populatie van mogelijke waarnemingen. Dit betekent dat die schattingen het gemiddelde en de variantie van een beperkte reeks observaties met behulp van een schatter vergelijking. De schatter is een functie van de steekproef van n waarnemingen getrokken zonder observationele vooringenomenheid van het geheel bevolking van mogelijke waarnemingen. In dit voorbeeld zou dat monster de set van werkelijke metingen zijn van de regenval van gisteren door beschikbare regenmeters binnen de geografie van interesse.

De eenvoudigste schatters voor populatiegemiddelde en populatievariantie zijn gewoon het gemiddelde en de variantie van de steekproef, de monstergemiddelde en (niet gecorrigeerd) Voorbeeldvariantie - dit zijn Consistente schatters (Ze convergeren naar de juiste waarde naarmate het aantal monsters toeneemt), maar kunnen worden verbeterd. Het schatten van de populatievariantie door de variantie van de steekproef te nemen, is in het algemeen bijna optimaal, maar kan op twee manieren worden verbeterd. Het meest eenvoudig, de monstervariantie wordt berekend als een gemiddelde van Vierkant afwijkingen over het (monster) gemiddelde, door te delen door n. Het gebruik van andere waarden dan n verbetert de schatter op verschillende manieren. Vier gemeenschappelijke waarden voor de noemer zijn n, n- 1, n+1, en n- 1.5: n is de eenvoudigste (populatievariantie van de steekproef), n- 1 elimineert bias, n+1 minimaliseert Gemiddelde vierkante fout voor de normale verdeling, en n- 1.5 elimineert meestal bias in onpartijdige schatting van standaardafwijking voor de normale verdeling.

Ten eerste, als het ware populatiegemiddelde onbekend is, is de steekproefvariantie (die het steekproefgemiddelde gebruikt in plaats van het ware gemiddelde) een bevooroordeelde schatter: het onderschat de variantie met een factor (n- 1) / n; corrigeren door deze factor (delen door n- 1 in plaats van n) wordt genoemd Bessel's correctie. De resulterende schatter is onbevooroordeeld en wordt de (Gecorrigeerd) Voorbeeldvariantie of Onbevorderde steekproefvariantie. Bijvoorbeeld wanneer n= 1 De variantie van een enkele observatie over het steekproefgemiddelde (zichzelf) is duidelijk nul, ongeacht de populatievariantie. Als het gemiddelde op een andere manier wordt bepaald dan van dezelfde monsters die worden gebruikt om de variantie te schatten, ontstaat deze bias niet en kan de variantie veilig worden geschat als die van de monsters over het (onafhankelijk bekende) gemiddelde.

Ten tweede minimaliseert de steekproefvariantie niet in het algemeen Gemiddelde vierkante fout tussen steekproefvariantie en populatievariantie. Corrigeren voor bias maakt dit vaak erger: men kan altijd een schaalfactor kiezen die beter presteert dan de gecorrigeerde monstervariantie, hoewel de optimale schaalfactor afhangt van de overtollige kurtosis van de bevolking (zie Gemiddelde vierkante fout: variantie), en introduceert vooringenomenheid. Dit bestaat altijd uit het verkleinen van de onpartijdige schatter (delen door een aantal groter dan n- 1), en is een eenvoudig voorbeeld van een krimpschatter: Men "krimpt" de onbevooroordeelde schatter naar nul. Voor de normale verdeling, delen door n+1 (in plaats van n- 1 of n) Minimaliseert de gemiddelde kwadratische fout. De resulterende schatter is echter bevooroordeeld en staat bekend als de bevooroordeelde steekproefvariatie.

Bevolkingsvariantie

In het algemeen, de bevolkingsvariantie van een eindig bevolking van grootte N met waarden xi is gegeven door

waar het bevolking betekent

De populatievariantie kan ook worden berekend met behulp van

Dit is waar omdat

De populatievariantie komt overeen met de variantie van de genererende waarschijnlijkheidsverdeling. In deze zin kan het concept van populatie worden uitgebreid tot continue willekeurige variabelen met oneindige populaties.

Steekproefvariantie

Bevooroordeelde steekproefvariantie

In veel praktische situaties is de ware variantie van een populatie niet bekend a priori en moet op de een of andere manier worden berekend. Bij het omgaan met extreem grote populaties is het niet mogelijk om elk object in de populatie te tellen, dus de berekening moet worden uitgevoerd op een steekproef van de populatie.[11] Sample -variantie kan ook worden toegepast op de schatting van de variantie van een continue verdeling van een steekproef van die verdeling.

We nemen een monster met vervanging van n waarden Y1, ...,Yn van de bevolking, waar n<<Nen schatting de variantie op basis van deze steekproef.[12] Het direct nemen van de variantie van de steekproefgegevens geeft het gemiddelde van de Vierkant afwijkingen:

Hier, geeft de monstergemiddelde:

Sinds de Yi zijn willekeurig geselecteerd, beide en zijn willekeurige variabelen. Hun verwachte waarden kunnen worden geëvalueerd door gemiddeld over het ensemble van alle mogelijke monsters {Yi} van maat n van de bevolking. Voor dit geeft:

Vandaar geeft een schatting van de populatievariantie die wordt bevooroordeeld door een factor . Om deze reden, wordt de bevooroordeelde steekproefvariantie.

Onbevorderde steekproefvariantie

Corrigeren voor deze bias levert de Onbevorderde steekproefvariantie, aangeduid :

Beide schatter kan eenvoudig worden genoemd als de steekproefvariantie Wanneer de versie kan worden bepaald door context. Hetzelfde bewijs is ook van toepassing op monsters die zijn genomen uit een continue waarschijnlijkheidsverdeling.

Het gebruik van de term n- 1 wordt genoemd Bessel's correctie, en het wordt ook gebruikt in Proef covariantie en de Voorbeeld van standaardafwijking (De vierkantswortel van variantie). De vierkantswortel is een concave functie en introduceert dus negatieve vertekening (door Jensen's ongelijkheid), die afhankelijk is van de verdeling, en dus is de gecorrigeerde standaarddeviatie (met behulp van de correctie van Bessel) bevooroordeeld. De onpartijdige schatting van standaardafwijking is een technisch betrokken probleem, hoewel voor de normale verdeling met behulp van de term n- 1,5 levert een bijna onbevooroordeelde schatter op.

De onpartijdige steekproefvariantie is een U-statistisch voor de functie ƒ(y1,,y2) = (y1-y2)2/2, wat betekent dat het wordt verkregen door het gemiddelde te nemen van een 2-steekproefstatistiek over subsets van 2 elementen van de bevolking.

Verdeling van de steekproefvariantie

Distributie en cumulatieve verdeling van S22, voor verschillende waarden van ν = n - 1, wanneer de yi zijn onafhankelijk normaal verdeeld.

Een functie zijn van willekeurige variabelen, de steekproefvariantie is zelf een willekeurige variabele en het is natuurlijk om de verdeling ervan te bestuderen. In het geval dat Yi zijn onafhankelijke observaties van een normale verdeling, Cochran's stelling laat zien dat S2 volgt een geschaalde Chi-kwadraatverdeling (zie ook: asymptotische eigenschappen):[13]

Als een direct gevolg daaruit volgt dat dat

en[14]

Als de Yi zijn onafhankelijk en identiek verdeeld, maar dan niet noodzakelijkerwijs normaal verdeeld[15]

waar κ is de kurtosis van de verdeling en μ4 is de vierde centraal moment.

Als de voorwaarden van de Wet van grote aantallen houd vast voor de vierkante observaties, S2 is een consistente schatter vanσ2. Men kan inderdaad zien dat de variantie van de schatter asymptotisch naar nul neigt. Een asymptotisch equivalente formule werd gegeven in Kenney en Keeping (1951: 164), Rose en Smith (2002: 264) en Weisstein (n.d.).[16][17][18]

Samuelsons ongelijkheid

Samuelsons ongelijkheid is een resultaat dat de grenzen op de waarden staat die individuele waarnemingen in een monster kunnen nemen, aangezien het monstergemiddelde en (bevooroordeelde) variantie zijn berekend.[19] Waarden moeten binnen de grenzen liggen

Relaties met de harmonische en rekenkundige middelen

Het is aangetoond[20] dat voor een voorbeeld {yi} van positieve reële getallen,

waar ymaximaal is het maximum van het monster, A is het rekenkundige gemiddelde, H is de harmonisch gemiddelde van het monster en is de (bevooroordeelde) variantie van het monster.

Deze gebonden is verbeterd en het is bekend dat variantie wordt begrensd door

waar ymin is het minimum van het monster.[21]

Gelijkheidstests van varianties

De F-test van gelijkheid van varianties en de Chi square tests zijn voldoende wanneer het monster normaal wordt verdeeld. Niet-normaliteit maakt het testen op de gelijkheid van twee of meer varianties moeilijker.

Verschillende niet -parametrische tests zijn voorgesteld: deze omvatten de Barton - David - Ansari - Freund - Siegel - Tukey -test, de Capon -test, Stemmingstest, de Klotz -test en de SukhatMe -test. De Sukhatme -test is van toepassing op twee varianties en vereist dat beide medianen bekend zijn en gelijk aan nul. De stemming, Klotz, Capon en Barton - David - Ansari - Freund - Siegel - Tukey -tests zijn ook van toepassing op twee varianties. Ze laten de mediaan onbekend zijn, maar vereisen wel dat de twee mediaan gelijk zijn.

De Lehmann -test is een parametrische test van twee varianties. Van deze test zijn er verschillende varianten bekend. Andere tests van de gelijkheid van varianties omvatten de boxtest, de Box -Anderson -test en de Mozes -test.

Resampling -methoden, waaronder de bootstrap en de kwijt, kan worden gebruikt om de gelijkheid van varianties te testen.

Traagheidsmoment

De variantie van een waarschijnlijkheidsverdeling is analoog aan de traagheidsmoment in klassieke mechanica van een overeenkomstige massadistributie langs een lijn, met betrekking tot rotatie rond het massamiddelpunt. Het is vanwege deze analogie dat dingen als de variantie worden genoemd momenten van waarschijnlijkheidsverdelingen. De covariantiematrix is ​​gerelateerd aan de Moment van traagheid tensor voor multivariate distributies. Het moment van traagheid van een wolk van n punten met een covariantiematrix van is gegeven door

Dit verschil tussen traagheidsmoment in de natuurkunde en in statistieken is duidelijk voor punten die langs een lijn worden verzameld. Stel dat veel punten dicht bij de x as en verdeeld. De covariantiematrix ziet er misschien uit

Dat wil zeggen, er is de meeste variantie in de x richting. Natuurkundigen zouden dit als een laag moment beschouwen over de x as dus het moment van onertie tensor is

Semivariantie

De semivariantie wordt berekend op dezelfde manier als de variantie, maar alleen die waarnemingen die onder het gemiddelde vallen, zijn opgenomen in de berekening:

Het wordt ook beschreven als een specifieke maatregel in verschillende toepassingsgebieden. Voor scheve distributies kan de semivariantie aanvullende informatie verstrekken die een variantie niet doet.[22]

Zie voor ongelijkheden geassocieerd met de semivariantie Chebyshev's ongelijkheid § semivarianties.

Generalisaties

Voor complexe variabelen

Als is een scalair complex-Valueerde willekeurige variabele, met waarden in dan is de variantie waar is de complex vervoeging van Deze variantie is een echte scalair.

Voor willekeurige vector-gewaardeerde willekeurige variabelen

Als matrix

Als is een vector-Valueerde willekeurige variabele, met waarden in en beschouwd als een kolomvector, dan is een natuurlijke generalisatie van variantie waar en is het transponeren van En dat geldt ook voor een rijvector. Het resultaat is een Positieve semi-definitieve vierkante matrix, gewoonlijk aangeduid als de variantie-covariantiematrix (of gewoon als de covariantiematrix).

Als is een willekeurige vector- en complex gewaardeerde willekeurige variabele, met waarden in dan de covariantiematrix is waar is de conjugaat transponeren van Deze matrix is ​​ook positief semi-definitief en vierkant.

Als scalair

Een andere generalisatie van variantie voor willekeurige vector-gewaardeerde willekeurige variabelen , wat resulteert in een scalaire waarde in plaats van in een matrix, is de Gegeneraliseerde variantie , de bepalend van de covariantiematrix. De gegeneraliseerde variantie kan worden aangetoond gerelateerd te zijn aan de multidimensionale spreiding van punten rond hun gemiddelde.[23]

Een andere generalisatie wordt verkregen door rekening te houden met de Euclidische afstand tussen de willekeurige variabele en het gemiddelde ervan. Dit resulteert in welke is de spoor van de covariantiematrix.

Zie ook

Soorten variantie

Referenties

  1. ^ Wasserman, Larry (2005). Alle statistieken: een beknopte cursus in statistische inferentie. Springer -teksten in statistieken. p. 51. ISBN 9781441923226.
  2. ^ Ronald Fisher (1918) De correlatie tussen familieleden op de veronderstelling van Mendeliaanse erfenis
  3. ^ Yuli Zhang, Huaiyu Wu, Lei Cheng (juni 2012). Enkele nieuwe vervormingsformules over variantie en covariantie. Proceedings of 4th International Conference on Modellering, Identification and Control (ICMIC2012). pp. 987–992.{{}}: CS1 onderhoud: gebruikt auteursparameter (link)
  4. ^ Kagan, A.; Shepp, L. A. (1998). "Waarom de variantie?". Statistieken en waarschijnlijkheidsbrieven. 38 (4): 329–333. doen:10.1016/s0167-7152 (98) 00041-8.
  5. ^ Johnson, Richard; Wichern, Dean (2001). Multivariate statistische analyse toegepast. Prentice Hall. p.76. ISBN 0-13-187715-1.
  6. ^ Loève, M. (1977) "waarschijnlijkheidstheorie", Afgestudeerde teksten in wiskunde, Volume 45, 4e editie, Springer-Verlag, p. 12.
  7. ^ Bienaymé, I.-J. (1853) "Considérations à l'appui de la découverte de laplace sur la loi de probabilité dans la méthode des moindres carrés", Comptes Rendus de l'Académie des Sciences Paris Paris, 37, p. 309–317; Digitale kopie beschikbaar [1]
  8. ^ Bienaymé, I.-J. (1867) "Considérations à l'appui de la découverte de laplace sur la loi de probabilité dans la méthode des moindres carrés", Journal de Mathématiques Pures et Appliquées, Série 2, Tome 12, p. 158–167; Digitale kopie beschikbaar [2][3]
  9. ^ Cornell, J R en Benjamin, C A, Waarschijnlijkheid, statistieken en beslissingen voor civiel ingenieurs, McGraw-Hill, NY, 1970, pp.178-9.
  10. ^ Goodman, Leo A. (December 1960). "Over de exacte variantie van producten". Journal of the American Statistical Association. 55 (292): 708–713. doen:10.2307/2281592. Jstor 2281592.
  11. ^ Navidi, William (2006) Statistieken voor ingenieurs en wetenschappers, McGraw-Hill, pg 14.
  12. ^ Montgomery, D. C. en Runger, G. C. (1994) Toegepaste statistieken en waarschijnlijkheid voor ingenieurs, pagina 201. John Wiley & Sons New York
  13. ^ Knight K. (2000), Wiskundige statistieken, Chapman en Hall, New York. (Propositie 2.11)
  14. ^ Casella en Berger (2002) Statistische inferentie, Voorbeeld 7.3.3, p. 331[Volledig citaat nodig]
  15. ^ Mood, A. M., Graybill, F. A. en Boe, D.C. (1974) Inleiding tot de statistische theorie, 3e editie, McGraw-Hill, New York, p. 229
  16. ^ Kenney, John F.; Behouden, E.S. (1951) Wiskunde van statistieken. Deel twee. 2e ed. D. Van Nostrand Company, Inc. Princeton: New Jersey. http://krishikosh.egranth.ac.in/bitstream/1/2025521/1/g2257.pdf
  17. ^ Rose, Colin; Smith, Murray D. (2002) Wiskundige statistieken met Mathematica. Springer-Verlag, New York. http://www.mathstatica.com/book/mathematical_statistics_with_mathematica.pdf
  18. ^ Weisstein, Eric W. (n.d.) Sample Variance -verdeling. Mathworld - Een Wolfram -webbron. http://mathworld.wolfram.com/sampleVarianCedistribution.html
  19. ^ Samuelson, Paul (1968). "Hoe afwijkend kun je zijn?". Journal of the American Statistical Association. 63 (324): 1522–1525. doen:10.1080/01621459.1968.10480944. Jstor 2285901.
  20. ^ Mercer, A. McD. (2000). "Bounds voor A - G, A - H, G - H en een familie van ongelijkheden van het type KY Fan, met behulp van een algemene methode". J. Math. Anaal. Toepassing. 243 (1): 163–173. doen:10.1006/JMAA.1999.6688.
  21. ^ Sharma, R. (2008). "Sommige meer ongelijkheden voor rekenkundig gemiddelde, harmonisch gemiddelde en variantie". Journal of Mathematical ongelijkheden. 2 (1): 109–114. Citeseerx 10.1.1.551.9397. doen:10.7153/JMI-02-11.
  22. ^ Fama, Eugene F.; French, Kenneth R. (2010-04-21). "Q&A: Semi-variantie: een betere risicomaatregel?". Fama/Frans forum.
  23. ^ Kocherlakota, S.; Kocherlakota, K. (2004). "Gegeneraliseerde variantie". Encyclopedie van statistische wetenschappen. Wiley online bibliotheek. doen:10.1002/0471667196.ess0869. ISBN 0471667196.