Exponentiële familie

In waarschijnlijkheid en statistieken, een exponentiële familie is een parametrisch set van waarschijnlijkheidsverdelingen van een bepaalde vorm, hieronder gespecificeerd. Deze speciale vorm wordt gekozen voor wiskundig gemak, inclusief het mogelijk maken van de gebruiker om verwachtingen te berekenen, covarianties die differentiatie gebruiken op basis van enkele nuttige algebraïsche eigenschappen, evenals voor algemeenheid, omdat exponentiële families in zekere zin zeer natuurlijke sets van verdelingen zijn om te overwegen. De voorwaarde exponentiële klas wordt soms gebruikt in plaats van "exponentiële familie",[1] of de oudere termijn Koopman - Darmois Family. De termen "distributie" en "familie" worden vaak losjes gebruikt: specifiek, een exponentiële familie is een set van verdelingen, waarbij de specifieke verdeling varieert met de parameter;[a] Echter, een parametrisch familie van distributies wordt vaak aangeduid als "a Distributie "(zoals" de normale verdeling ", wat betekent" de familie van normale verdelingen "), en de set van alle exponentiële families wordt soms losjes aangeduid als" de "exponentiële familie. Ze zijn verschillend omdat ze een verscheidenheid aan gewenste eigenschappen bezitten , het belangrijkste is het bestaan ​​van een voldoende statistiek.

Het concept van exponentiële gezinnen wordt gecrediteerd[2] E. J. G. Pitman,[3] G. Darmois,[4] en B. O. Koopman[5] in 1935-1936. Exponentiële families van distributies bieden een algemeen kader voor het selecteren van een mogelijke alternatieve parameterisatie van een parametrische familie van distributies, in termen van Natuurlijke parameters, en voor het definiëren van nuttig steekproefstatistieken, genaamd de natuurlijk voldoende statistieken van de familie.

Definitie

De meeste veelgebruikte distributies vormen een exponentiële familie of subset van een exponentiële familie, vermeld in de onderstaande paragraaf. De subsecties die het volgen, zijn een volgorde van steeds meer algemene wiskundige definities van een exponentiële familie. Een informele lezer wil misschien de aandacht beperken tot de eerste en eenvoudigste definitie, die overeenkomt met een familie van één parameter van discreet of continu waarschijnlijkheidsverdelingen.

Voorbeelden van exponentiële gezinsdistributies

Exponentiële families omvatten veel van de meest voorkomende distributies. Onder vele anderen omvatten exponentiële families het volgende:[6]

Een aantal gemeenschappelijke distributies zijn exponentiële families, maar alleen wanneer bepaalde parameters vast en bekend zijn. Bijvoorbeeld:

Merk op dat in elk geval de parameters die moeten worden vastgesteld, een limiet bepalen op de grootte van observatiewaarden.

Voorbeelden van veel voorkomende distributies die zijn niet Exponentiële gezinnen zijn Student t, meest mengselverdelingen, en zelfs de familie van uniforme verdelingen Wanneer de grenzen niet zijn vastgesteld. Zie het onderstaande gedeelte op voorbeelden Voor meer discussie.

Scalaire parameter

Een exponentiële familie met één parameter is een reeks waarschijnlijkheidsverdelingen waarvan waarschijnlijkheidsdichtheidsfunctie (of kansdichtheidsfunctie, voor het geval van een Discrete verdeling) kan in de vorm worden uitgedrukt

waar T(x), h(x), η(θ), en A(θ) zijn bekende functies. De functie h(x) moet natuurlijk niet-negatief zijn.

Een alternatief, equivalente vorm die vaak wordt gegeven, is

of gelijkwaardig

De waarde θ wordt de parameter van het gezin genoemd.

tevens de steun van (d.w.z. de set van allemaal waarvoor is groter dan 0) hangt niet af van .[7] Dit kan worden gebruikt om een ​​parametrische familieverdeling uit te sluiten van een exponentiële familie. Bijvoorbeeld de Pareto -verdeling heeft een PDF die is gedefinieerd voor ( zijnde de schaalparameter) en de ondersteuning ervan heeft daarom een ​​ondergrens van . Sinds de steun van is afhankelijk van de waarde van de parameter, de familie van Pareto -distributies vormt geen exponentiële familie van distributies (althans wanneer is onbekend).

Vaak x is een vector van metingen, in welk geval T(x) kan een functie zijn vanuit de ruimte met mogelijke waarden van x naar de reële getallen. Algemener, η(θ) en T(x) kunnen elk zo vector worden gewaardeerd is echt gewaardeerd. Zie echter de onderstaande discussie op vectorparameters, betreffende de gebogen exponentiële familie.

Als η(θ) =θ, dan zou de exponentiële familie binnen zijn canonieke vorm. Door een getransformeerde parameter te definiëren η=η(θ), het is altijd mogelijk om een ​​exponentiële familie om te zetten in canonieke vorm. De canonieke vorm is niet uniek, sindsdien η(θ) kan worden vermenigvuldigd met elke niet -nul constante, op voorwaarde dat T(x) wordt vermenigvuldigd door de wederzijdse of een constante van die constante c kan worden toegevoegd aan η(θ) en h(x) vermenigvuldigd met om het te compenseren. In het speciale geval dat η(θ) =θ en T(x) =x Dan wordt de familie een Natuurlijke exponentiële familie.

Zelfs wanneer x is een scalair, en er is slechts een enkele parameter, de functies η(θ) en T(x) kunnen nog steeds vectoren zijn, zoals hieronder beschreven.

De functie A(θ), of gelijkwaardig g(θ), wordt automatisch bepaald zodra de andere functies zijn gekozen, omdat deze een vorm moet aannemen die ervoor zorgt dat de verdeling is genormaliseerd (som of integreer met één over het hele domein). Bovendien kunnen beide functies altijd worden geschreven als functies van η, zelfs wanneer η(θ) is geen een op een functie, d.w.z. twee of meer verschillende waarden van θ kaart naar dezelfde waarde als η(θ), en daarom η(θ) kan niet worden omgekeerd. In een dergelijk geval alle waarden van θ Mapping naar hetzelfde η(θ) zal ook dezelfde waarde hebben voor A(θ) en g(θ).

Factorisatie van de betrokken variabelen

Wat belangrijk is om op te merken, en wat alle exponentiële familievarianten kenmerkt, is dat de parameter (s) en de observatievariabele (s) moeten factureren (kan worden gescheiden in producten die elk slechts één type variabele omvatten), direct of binnen een deel van het deel (de basis of exponent) van een exponentiatie operatie. Over het algemeen betekent dit dat alle factoren die de dichtheid of massafunctie vormen van een van de volgende vormen moeten zijn:

waar f en h zijn willekeurige functies van x; g en j zijn willekeurige functies van θ; en c is een willekeurige "constante" uitdrukking (d.w.z. een uitdrukking die niet betrokken is x of θ).

Er zijn verdere beperkingen op hoeveel van dergelijke factoren kunnen optreden. Bijvoorbeeld de twee uitdrukkingen:

zijn hetzelfde, d.w.z. een product van twee "toegestane" factoren. Wanneer echter herschreven in de gefactoriseerde vorm,

Het is te zien dat het niet in de vereiste vorm kan worden uitgedrukt. (Dit soort vorm is echter lid van een gebogen exponentiële familie, waarmee meerdere gefactoriseerde termen in de exponent kunnen worden.)

Om te zien waarom een ​​uitdrukking van de vorm

kwalificeert,

en dus factoriseert de binnenkant van de exponent. Evenzo,

en opnieuw factoren in de binnenkant van de exponent.

Een factor bestaande uit een som waarbij beide soorten variabelen betrokken zijn (bijvoorbeeld een factor van de vorm ) kan op deze manier niet worden gefactureerd (behalve in sommige gevallen waarin rechtstreeks in een exponent plaatsvindt); Dit is de reden waarom bijvoorbeeld de Cauchy -verdeling en Student t verdeling zijn geen exponentiële gezinnen.

Vectorparameter

De definitie in termen van één echt nummer parameter kan worden uitgebreid tot één real-vector parameter

Van een familie van verdelingen wordt gezegd dat het tot een exponentiële familie van vector behoort als de waarschijnlijkheidsdichtheidsfunctie (of waarschijnlijkheidsmassafunctie, voor discrete distributies) kan worden geschreven als

of in een meer compacte vorm,

Deze vorm schrijft de som als een punt product van vector-gewaardeerde functies en .

Een alternatief, equivalente vorm die vaak wordt gezien, is

Net als in de scalar gewaardeerde zaak, zou de exponentiële familie in zijn canonieke vorm als

Er wordt gezegd dat een exponentiële vector -exponentiële familie is gebogen Als de dimensie van

is minder dan de dimensie van de vector

Dat wil zeggen, als de dimensie, d, van de parametervector is minder dan de Aantal functies, s, van de parametervector in de bovenstaande weergave van de waarschijnlijkheidsdichtheidsfunctie. Meest voorkomende distributies in de exponentiële familie zijn niet Gebogen, en veel algoritmen die zijn ontworpen om met een exponentiële familie te werken impliciet of expliciet aannemen dat de verdeling niet is gebogen.

Zoals in het bovenstaande geval van een scalaire waarde parameter, de functie of gelijkwaardig wordt automatisch bepaald zodra de andere functies zijn gekozen, zodat de gehele verdeling wordt genormaliseerd. Bovendien kunnen beide functies zoals hierboven altijd worden geschreven als functies van , ongeacht de vorm van de transformatie die genereert van . Daarom ziet een exponentiële familie in zijn "natuurlijke vorm" (geparametriseerd door zijn natuurlijke parameter) eruit

of gelijkwaardig

De bovenstaande vormen kunnen soms worden gezien in plaats van . Dit zijn exact equivalente formuleringen, alleen het gebruik van verschillende notatie voor de punt product.

Vectorparameter, vectorvariabele

De vector-parametervorm over een enkele scalaire gewaardeerde willekeurige variabele kan triviaal worden uitgebreid om een ​​gezamenlijke verdeling over een vector van willekeurige variabelen te dekken. De resulterende verdeling is eenvoudig hetzelfde als de bovenstaande verdeling voor een willekeurige variabele met scalaire waarde bij elk optreden van de scalair x vervangen door de vector

De dimensies k van de willekeurige variabele hoeft niet overeen te komen met de dimensie d van de parametervector, noch (in het geval van een gebogen exponentiële functie) de dimensie s van de natuurlijke parameter en voldoende statistiek T(x).

De verdeling is in dit geval geschreven als

Of compacter als

Of alternatief als

Meet-theoretische formulering

We gebruiken Cumulatieve distributiefuncties (CDF) om zowel discrete als continue distributies te omvatten.

Veronderstellen H is een niet-afnemende functie van een echte variabele. Dan Lebesgue - Stieltjes Integrals rekeninghoudend met zijn integralen met betrekking tot de referentiemaatregel van de exponentiële familie gegenereerd door H.

Elk lid van die exponentiële familie heeft de cumulatieve distributiefunctie

H(x) is een Lebesgue - Stieltjes Integrator voor de referentiemaatregel. Wanneer de referentiemaat eindig is, kan deze worden genormaliseerd en H is eigenlijk de cumulatieve distributiefunctie van een waarschijnlijkheidsverdeling. Als F is absoluut continu met een dichtheid Met betrekking tot een referentiemaatregel (typisch Lebesgue -maatregel), men kan schrijven . In dit geval, H is ook absoluut continu en kan worden geschreven Dus de formules verminderen tot die van de vorige paragrafen. Als F is dan discreet H is een stapfunctie (met stappen op de steun van F).

Als alternatief kunnen we de waarschijnlijkheidsmaat direct schrijven als

Voor een referentiemaatregel .

Interpretatie

In de bovenstaande definities zijn de functies T(x), η(θ), en A(η) waren blijkbaar willekeurig gedefinieerd. Deze functies spelen echter een belangrijke rol in de resulterende waarschijnlijkheidsverdeling.

  • T(x) is een voldoende statistiek van de verdeling. Voor exponentiële families is de voldoende statistiek een functie van de gegevens die alle informatie de gegevens bevatten x biedt met betrekking tot de onbekende parameterwaarden. Dit betekent dat voor alle gegevenssets en , de waarschijnlijkheidsratio is hetzelfde, dat wil zeggen als  T(x) = T(y)). Dit is waar zelfs als x en y zijn heel verschillend - dat wil zeggen, zelfs als . De dimensie van T(x) is gelijk aan het aantal parameters van θ en omvat alle informatie over de gegevens met betrekking tot de parameter θ. De voldoende statistiek van een set van onafhankelijk identiek verdeeld Gegevensobservaties zijn eenvoudigweg de som van individuele voldoende statistieken en bevat alle informatie die nodig is om de achterste verdeling van de parameters, gegeven de gegevens (en dus om een ​​gewenste schatting van de parameters af te leiden). (Deze belangrijke eigenschap wordt verder besproken onderstaand.)
  • η wordt de natuurlijke parameter. De set waarden van η waarvoor de functie is integreerbaar wordt de Natuurlijke parameterruimte. Er kan worden aangetoond dat de natuurlijke parameterruimte altijd is convex.
  • A(η) wordt de log-partitiefunctie[b] Omdat het de logaritme van een normalisatiefactor, zonder welke zou geen waarschijnlijkheidsverdeling zijn:

De functie A is op zichzelf gemeen, variantie en andere momenten van de voldoende statistiek T(x) kan eenvoudig worden afgeleid door te differentiëren A(η). Bijvoorbeeld, omdat log (x) is een van de componenten van de voldoende statistiek van de gamma -verdeling, kan gemakkelijk worden bepaald voor deze verdeling met behulp van A(η). Technisch gezien is dit waar omdat

is de Cumulant genererende functie van de voldoende statistiek.

Eigendommen

Exponentiële families hebben een groot aantal eigenschappen die ze uiterst nuttig maken voor statistische analyse. In veel gevallen kan dat worden aangetoond enkel en alleen Exponentiële families hebben deze eigenschappen. Voorbeelden:

Gegeven een exponentiële familie gedefinieerd door , waar is de parameterruimte, zodat dat . Dan

  • Als heeft niet -lege interieur in , dan een IID -monsters , de statistiek is een complete statistiek voor .[9][10]
  • is een minimale statistiek voor iff voor iedereen , en bij de steun van , als , dan of .[11]

Voorbeelden

Het is van cruciaal belang, bij het overwegen van de voorbeelden in deze sectie, om de discussie hierboven te onthouden over wat het betekent om te zeggen dat een "distributie" een exponentiële familie is, en met name om te onthouden dat de set parameters die mogen variëren is van cruciaal belang om te bepalen of een "distributie" al dan niet een exponentieel gezin is.

De normaal, exponentieel, log-normaal, gamma, chi-kwadraat, bèta, Dirichlet, Bernoulli, categorisch, vergif, geometrisch, Inverse Gaussiaans, Von Mises en Von Mises-Fisher Distributies zijn allemaal exponentiële families.

Sommige distributies zijn alleen exponentiële families als sommige van hun parameters worden vastgehouden. De familie van Pareto -distributies met een vast minimumgebonden xm vormen een exponentiële familie. De families van binomiaal en multinomiaal uitkeringen met een vast aantal proeven n Maar onbekende waarschijnlijkheidsparameter (s) zijn exponentiële families. De familie van Negatieve binomiale verdelingen met vast aantal storingen (ook bekend als stoptijdparameter) r is een exponentiële familie. Wanneer een van de bovengenoemde vaste vaste parameters echter mag variëren, is de resulterende familie geen exponentiële familie.

Zoals hierboven vermeld, als algemene regel, de steun van een exponentiële familie moet hetzelfde blijven in alle parameterinstellingen in de familie. Dit is de reden waarom de bovenstaande gevallen (bijv. Binomiaal met een variërend aantal proeven, Pareto met variërende minimumgebonden) geen exponentiële families zijn - in alle gevallen beïnvloedt de parameter in kwestie de ondersteuning (met name het wijzigen van het minimum of maximale mogelijke waarde) . Om soortgelijke redenen, noch de Discrete uniforme verdeling noch Continue uniforme verdeling zijn exponentiële families als een of beide grenzen variëren.

De Weibull -verdeling met een vaste vormparameter k is een exponentiële familie. In tegenstelling tot in de vorige voorbeelden heeft de vormparameter geen invloed op de ondersteuning; Het feit dat het toestaan ​​dat het kan variëren, maakt dat het niet-exponentiële Weibull eerder te wijten is aan de specifieke vorm van de Weibull's waarschijnlijkheidsdichtheidsfunctie (k verschijnt in de exponent van een exponent).

In het algemeen, verdelingen die voortvloeien uit een eindige of oneindige mengsel van andere distributies, b.v. mengselmodel dichtheden en samengestelde waarschijnlijkheidsverdelingen, zijn niet exponentiële gezinnen. Voorbeelden zijn typisch Gaussiaans mengselmodellen net als veel zware distributies dat het gevolg is van het samenstellen (d.w.z. oneindig mengen) Een verdeling met een eerdere verdeling Over een van de parameters, b.v. de Student t-verdeling (Vergelijking a normale verdeling over een gamma-verdeeld precisie prior), en de bèta-binomiaal en Dirichlet-Multinomial distributies. Andere voorbeelden van distributies die geen exponentiële families zijn, zijn de F-verdeling, Cauchy -verdeling, hypergeometrische verdeling en logistieke verdeling.

Hierna volgen enkele gedetailleerde voorbeelden van de weergave van een bruikbare verdeling als exponentiële families.

Normale verdeling: onbekend gemiddelde, bekende variantie

Als een eerste voorbeeld, overweeg een willekeurige variabele die normaal wordt verdeeld met onbekend gemiddelde μ en bekend variantie σ2. De waarschijnlijkheidsdichtheidsfunctie is dan

Dit is een exponentiële familie met één parameter, zoals te zien is door in te stellen

Als σ = 1 Dit is in canonieke vorm, zoals danη(μ) =μ.

Normale verdeling: onbekende gemiddelde en onbekende variantie

Overweeg vervolgens het geval van een normale verdeling met onbekende gemiddelde en onbekende variantie. De waarschijnlijkheidsdichtheidsfunctie is dan

Dit is een exponentiële familie die in canonieke vorm kan worden geschreven door te definiëren

Binomiale verdeling

Overweeg als een voorbeeld van een discrete exponentiële familie binomiale verdeling met bekend Aantal proeven n. De kansdichtheidsfunctie want deze verdeling is

Dit kan gelijkwaardig worden geschreven als

waaruit laat zien dat de binomiale verdeling een exponentiële familie is, waarvan de natuurlijke parameter is

Deze functie van p staat bekend als logit.

Tabel met verdelingen

De volgende tabel laat zien hoe u een aantal gemeenschappelijke distributies kunt herschrijven als exponentiële familie-distributies met natuurlijke parameters. Raadpleeg de flashcards[12] voor belangrijkste exponentiële families.

Voor een scalaire variabele en scalaire parameter is de vorm als volgt:

Voor een scalaire variabele en vectorparameter:

Voor een vectorvariabele en vectorparameter:

De bovenstaande formules kiezen de functionele vorm van de exponentiële familie met een log-partitiefunctie . De reden hiervoor is zodat de Momenten van de voldoende statistieken kan eenvoudig worden berekend, eenvoudig door deze functie te differentiëren. Alternatieve formulieren omvatten ofwel deze functie parametreren in termen van de normale parameter in plaats van de natuurlijke parameter, en/of een factor gebruiken buiten de exponentiële. De relatie tussen de laatste en de eerste is:

Gebruik de onderstaande formules voor het schrijven van het ene type parameter in termen van het andere om converteren tussen de representaties met de twee soorten parameter.

Verdeling Parameter (s) Natuurlijke parameter (s) Inverse parametermapping Basismaatregel Voldoende statistiek Log-partitie Log-partitie
Bernoulli -verdeling
binomiale verdeling
met een bekend aantal proeven
Poisson -verdeling
Negatieve binomiale verdeling
met een bekend aantal mislukkingen
exponentiële verdeling
Pareto -verdeling
met een bekende minimumwaarde
Weibull -verdeling
met bekende vorm k
Laplace -verdeling
met bekende gemiddelde
Chi-kwadraatverdeling
normale verdeling
Bekende variantie
Continue Bernoulli -verdeling
normale verdeling
log-normale verdeling
Inverse Gaussiaanse verdeling
gamma -verdeling
omgekeerde gamma -verdeling
Gegeneraliseerde omgekeerde Gaussiaanse verdeling
Geschaalde omgekeerde chi-kwadraatverdeling
Beta -verdeling

(Variant 1)
Beta -verdeling

(Variant 2)
multivariate normale verdeling
categorische verdeling

(Variant 1)


waar


waar
categorische verdeling

(Variant 2)


waar

waar

categorische verdeling

(Variant 3)


waar




multinomiale verdeling

(Variant 1)
met een bekend aantal proeven


waar


waar
multinomiale verdeling

(Variant 2)
met een bekend aantal proeven


waar

waar

multinomiale verdeling

(Variant 3)
met een bekend aantal proeven


waar




Dirichlet -verdeling

(Variant 1)
Dirichlet -verdeling

(Variant 2)
Wantart -verdeling

      


      

  • Er worden drie varianten met verschillende parameterinstellingen gegeven om computermomenten van de voldoende statistieken te vergemakkelijken.
Opmerking: Gebruikt het feit dat d.w.z. de spoor van een matrixproduct lijkt veel op een punt product. De matrixparameters worden verondersteld te zijn vectorediseerd (ingedeeld in een vector) wanneer ingevoegd in de exponentiële vorm. Ook, en zijn symmetrisch, dus b.v.
Inverse Wishart Distributie

      


      

normale gamma-verdeling

      

* De Iverson -beugel is een generalisatie van de discrete delta-functie: als de bracketed-uitdrukking waar is, heeft de beugel waarde 1; Als de ingesloten verklaring onjuist is, is de Iverson -beugel nul. Er zijn veel variantnotaties, b.v. Wavey -beugels: a=b is gelijk aan de [a=b] Notatie hierboven gebruikt.

De drie varianten van de categorische verdeling en multinomiale verdeling zijn te wijten aan het feit dat de parameters zijn beperkt, zodanig dat

Er zijn dus alleen onafhankelijke parameters.

  • Variant 1 gebruikt Natuurlijke parameters met een eenvoudige relatie tussen de standaard en natuurlijke parameters; Maar alleen van de natuurlijke parameters zijn onafhankelijk en de set van Natuurlijke parameters is niet -identificeerbaar. De beperking op de gebruikelijke parameters vertaalt zich in een vergelijkbare beperking op de natuurlijke parameters.
  • Variant 2 toont het feit dat de gehele set natuurlijke parameters niet -identificeerbaar is: het toevoegen van een constante waarde aan de natuurlijke parameters heeft geen effect op de resulterende verdeling. Door de beperking op de natuurlijke parameters te gebruiken, kan de formule voor de normale parameters echter in termen van de natuurlijke parameters worden geschreven op een manier die onafhankelijk is op de constante die wordt toegevoegd.
  • Variant 3 laat zien hoe de parameters op een handige manier kunnen worden geïdentificeerd door in te stellen Dit "draait" dit effectief en zorgt ervoor dat de laatste natuurlijke parameter de constante waarde van 0 heeft. Alle resterende formules zijn geschreven op een manier die geen toegang heeft , zodat het model effectief alleen heeft Parameters, zowel van de gebruikelijke als van de natuurlijke soort.

Varianten 1 en 2 zijn eigenlijk helemaal geen standaard exponentiële families. Ze zijn eerder gebogen exponentiële families, d.w.z. er zijn onafhankelijke parameters ingebed in een -Dimensionale parameterruimte.[13] Veel van de standaardresultaten voor exponentiële gezinnen zijn niet van toepassing op gebogen exponentiële families. Een voorbeeld is de log-partitiefunctie , die de waarde van 0 heeft in de gebogen gevallen. In standaard exponentiële families komen de derivaten van deze functie overeen met de momenten (technischer, de cumulanten) van de voldoende statistieken, b.v. het gemiddelde en de variantie. Een waarde van 0 suggereert echter dat het gemiddelde en de variantie van alle voldoende statistieken uniform 0 zijn, terwijl in feite het gemiddelde van de de voldoende statistiek zou moeten zijn . (Dit komt correct naar voren bij het gebruik van de vorm van getoond in Variant 3.)

Momenten en cumulanten van de voldoende statistiek

Normalisatie van de verdeling

We beginnen met de normalisatie van de waarschijnlijkheidsverdeling. In het algemeen, elke niet-negatieve functie f(x) dat dient als de kernel van een waarschijnlijkheidsverdeling (het deel dat codeert voor alle afhankelijkheid van x) kan door een juiste verdeling worden gemaakt door normaal: d.w.z.

waar

De factor Z wordt soms de normaal of partitiefunctie, gebaseerd op een analogie met statistische fysica.

In het geval van een exponentiële familie waar

De kernel is

en de partitiefunctie is

Omdat de verdeling moet worden genormaliseerd, hebben we dat

Met andere woorden,

of gelijkwaardig

Dit rechtvaardigt roepen A de log-formalizer of Log-partitiefunctie.

Moment-genererende functie van de voldoende statistiek

Nu de Moment-genererende functie van T(x) is

het bewijzen van de eerdere verklaring dat

is de Cumulant genererende functie voor T.

Een belangrijke subklasse van exponentiële gezinnen zijn de Natuurlijke exponentiële families, die een vergelijkbare vorm hebben voor de moment-genererende functie voor de verdeling van x.

Differentiële identiteiten voor cumulantia

In het bijzonder, met behulp van de eigenschappen van de cumulant -genererende functie,

en

De eerste twee ruwe momenten en alle gemengde tweede momenten kunnen worden hersteld uit deze twee identiteiten. Momenten van hogere orde en cumulanten worden verkregen door hogere derivaten. Deze techniek is vaak nuttig wanneer T is een gecompliceerde functie van de gegevens, waarvan de momenten moeilijk te berekenen zijn door integratie.

Een andere manier om dit te zien die niet afhankelijk is van de theorie van cumulanten is om te beginnen met het feit dat de verdeling van een exponentiële familie moet worden genormaliseerd en onderscheid moet worden gemaakt. We illustreren het gebruik van het eenvoudige geval van een eendimensionale parameter, maar een analoge afleiding geldt meer in het algemeen.

In het eendimensionale geval hebben we

Dit moet worden genormaliseerd, dus

Neem de derivaat van beide kanten met betrekking tot η:

Daarom,

voorbeeld 1

Overweeg als een inleidend voorbeeld de gamma -verdeling, wiens verdeling wordt gedefinieerd door

Verwijzend naar de bovenstaande tabel, kunnen we zien dat de natuurlijke parameter wordt gegeven door

De omgekeerde substituties zijn

De voldoende statistieken zijn en de log-partitiefunctie is

We kunnen het gemiddelde van de voldoende statistieken als volgt vinden. Ten eerste voor η1:

Waar is de Digamma -functie (afgeleide van loggamma), en we hebben de omgekeerde substituties in de laatste stap gebruikt.

Nu voor η2:

Wederom de omgekeerde vervanging maken in de laatste stap.

Om de variantie van te berekenen x, we onderscheiden gewoon weer:

Al deze berekeningen kunnen worden gedaan met behulp van integratie, waardoor verschillende eigenschappen van de Gamma -functie, maar dit vereist aanzienlijk meer werk.

Voorbeeld 2

Als een ander voorbeeld beschouw een echte gewaardeerde willekeurige variabele X met dichtheid

geïndexeerd door vormparameter (Dit wordt de Skew-logistische verdeling). De dichtheid kan worden herschreven als

Merk op dat dit een exponentiële familie is met een natuurlijke parameter

voldoende statistiek

en log-partitiefunctie

Dus het gebruik van de eerste identiteit,

en het gebruik van de tweede identiteit

Dit voorbeeld illustreert een geval waarin het gebruik van deze methode heel eenvoudig is, maar de directe berekening zou bijna onmogelijk zijn.

Voorbeeld 3

Het laatste voorbeeld is er een waar integratie uiterst moeilijk zou zijn. Dit is het geval van de Wantart -verdeling, die wordt gedefinieerd over matrices. Zelfs het nemen van derivaten is een beetje lastig, zoals het gaat om matrixcalculus, maar de respectieve identiteiten worden in dat artikel vermeld.

Uit de bovenstaande tabel kunnen we zien dat de natuurlijke parameter wordt gegeven door

De omgekeerde substituties zijn

en de voldoende statistieken zijn

De log-partitiefunctie is in verschillende vormen in de tabel geschreven om differentiatie en back-substitutie te vergemakkelijken. We gebruiken de volgende formulieren:

Verwachting van X (geassocieerd met η1)

Om te onderscheiden met betrekking tot η1, we hebben het volgende nodig matrixcalculus identiteit:

Dan:

De laatste regel gebruikt het feit dat V is symmetrisch en daarom is het hetzelfde wanneer het wordt getransponeerd.

Verwachting van log |X| (geassocieerd met η2)

Nu voor η2, we moeten eerst het deel van de log-partitiefunctie uitbreiden waarbij de multivariate gamma -functie:

We hebben ook de Digamma -functie:

Dan:

Deze laatste formule wordt vermeld in de Wantart -verdeling artikel. Beide verwachtingen zijn nodig bij het afleiden van de variabele Bayes Update vergelijkingen in een Bayes Network met een Wiskart -verdeling (dat is de geconjugeerd prior van de multivariate normale verdeling).

Het berekenen van deze formules met behulp van integratie zou veel moeilijker zijn. De eerste zou bijvoorbeeld matrixintegratie vereisen.

Entropie

Relatieve entropie

De relatieve entropie (Kullback - leibler divergentie, KL divergentie) van twee distributies in een exponentiële familie heeft een eenvoudige uitdrukking als de Bregman Divergence tussen de natuurlijke parameters met betrekking tot de log-normalizer.[14] De relatieve entropie is gedefinieerd in termen van een integraal, terwijl de Bregman -divergentie wordt gedefinieerd in termen van een derivaat en innerlijk product, en dus gemakkelijker te berekenen is en heeft een gesloten vorm expressie (uitgaande van de afgeleide heeft een gesloten-vorm-uitdrukking). Verder is de Bregman-divergentie in termen van de natuurlijke parameters en de log-normalizer gelijk convex conjugaat functie.[15]

Een exponentiële familie repareren met log-normalizer (met convex conjugaat ), schrijven Voor de verdeling in deze familie die overeenkomt met een vaste waarde van de natuurlijke parameter (schrijven voor een andere waarde, en met Voor de overeenkomstige dubbele verwachting/momentparameters), schrijven KL voor de KL -divergentie, en Voor de Bregman -divergentie zijn de verschillen gerelateerd als:

De KL -divergentie is conventioneel geschreven met betrekking tot de eerst parameter, terwijl de Bregman -divergentie conventioneel is geschreven met betrekking tot de seconde Parameter, en dus kan dit worden gelezen als "de relatieve entropie is gelijk aan de Bregman-divergentie die wordt gedefinieerd door de log-normalizer op de verwisselde natuurlijke parameters", of gelijkwaardig als "gelijk aan de Bregman-divergentie gedefinieerd door de dubbele van de log-normalizer over de verwachtingparameters ".

Maximale entropie-afleiding

Exponentiële families komen op natuurlijke wijze op als antwoord op de volgende vraag: wat is de maximale entropie Verdeling consistent met gegeven beperkingen op verwachte waarden?

De Informatie -entropie van een waarschijnlijkheidsverdeling DF(x) kan alleen worden berekend met betrekking tot een andere waarschijnlijkheidsverdeling (of, meer in het algemeen, een positieve maatregel), en beide maatregelen moet wederzijds zijn Absoluut continu. Dienovereenkomstig moeten we een referentiemaatregel Dh(x) met dezelfde ondersteuning als DF(x).

De entropie van DF(x) ten opzichte van Dh(x) is

of

waar DF/Dh en Dh/DF zijn Radon -nikodymderivaten. De gewone definitie van entropie voor een discrete verdeling die op een set wordt ondersteund I, namelijk

gaat uit van, hoewel dit zelden wordt opgemerkt, dat Dh wordt gekozen om de tellen maatregel Aan I.

Overweeg nu een verzameling waarneembare hoeveelheden (willekeurige variabelen) Ti. De waarschijnlijkheidsverdeling DF wiens entropie met betrekking tot Dh is het grootst, afhankelijk van de voorwaarden die de verwachte waarde van Ti gelijk zijn aan ti, is een exponentiële familie met Dh als referentiemaatregel en (T1, ..., Tn) als voldoende statistiek.

De afleiding is een simpele variabele berekening gebruik makend van Lagrange -vermenigvuldigers. Normalisatie wordt opgelegd door te verhuren T0 = 1 zijn een van de beperkingen. De natuurlijke parameters van de verdeling zijn de Lagrange -multiplicatoren, en de normalisatiefactor is de Lagrange -multiplier geassocieerd met T0.

Zie voor voorbeelden van dergelijke afleidingen Maximale entropie waarschijnlijkheidsverdeling.

Rol in statistieken

Klassieke schatting: toereikendheid

Volgens de PitmanKoopmanDarmois stelling, onder families van waarschijnlijkheidsverdelingen waarvan het domein niet varieert met de geschatte parameter, alleen in exponentiële families is er een voldoende statistiek waarvan de dimensie begrensd blijft naarmate de steekproefomvang toeneemt.

Minder veronderstel Xk, (waar k = 1, 2, 3, ... n) zijn onafhankelijk, identiek verdeelde willekeurige variabelen. Alleen als hun verdeling een van de exponentiële familie van distributies is er een voldoende statistiek T(X1, ..., Xn) van wie nummer van scalaire componenten neemt niet toe als de steekproefomvang n verhoogt; de statistiek T misschien een vector of een enkel scalair nummer, maar wat het ook is, het is maat Zal niet groeien of krimpen wanneer meer gegevens worden verkregen.

Als een tegenvoorbeeld Als deze voorwaarden ontspannen zijn, is de familie van uniforme verdelingen (of discreet of continu, met een of beide grenzen onbekend) heeft een voldoende statistiek, namelijk het monstermaximum, het monsterminimum en de steekproefomvang, maar vormt geen exponentiële familie, omdat het domein varieert met de parameters.

Bayesiaanse schatting: conjugaatverdelingen

Exponentiële gezinnen zijn ook belangrijk in Bayesiaanse statistieken. In Bayesiaanse statistieken a eerdere verdeling wordt vermenigvuldigd door een waarschijnlijkheidsfunctie en vervolgens genormaliseerd om een ​​te produceren achterste verdeling. In het geval van een waarschijnlijkheid die tot een exponentieel gezin is, bestaat er een geconjugeerd prior, die vaak ook in een exponentiële familie is. Een geconjugeerde eerdere π voor de parameter van een exponentieel gezin

is gegeven door

of gelijkwaardig

waar s is de dimensie van en en zijn hyperparameters (parameters die parameters besturen). komt overeen met het effectieve aantal waarnemingen dat de eerdere verdeling bijdraagt, en komt overeen met het totale bedrag dat deze pseudo-observaties bijdragen aan de voldoende statistiek over alle observaties en pseudo-observaties. is een normalisatieconstante die automatisch wordt bepaald door de resterende functies en dient om ervoor te zorgen dat de gegeven functie een is waarschijnlijkheidsdichtheidsfunctie (d.w.z. het is genormaliseerd). en gelijkwaardig zijn dezelfde functies als in de definitie van de verdeling waarover π de conjugaat vooraf is.

Een geconjugeerde prior is er een die, in combinatie met de waarschijnlijkheid en genormaliseerd, een posterieure verdeling produceert die van hetzelfde type is als de prior. Als men bijvoorbeeld de succeskans van een binomiale verdeling schat, dan is de posterior een andere bèta -verdeling als men ervoor kiest om een ​​bètaverdeling als iemands te gebruiken. Dit maakt de berekening van het achterste bijzonder eenvoudig. Evenzo, als men de parameter van een Poisson -verdeling Het gebruik van een gamma -prior zal leiden tot een andere gamma -posterior. Conjugaatpriors zijn vaak erg flexibel en kunnen erg handig zijn. Als iemands geloof over de waarschijnlijke waarde van de theta-parameter van een binomiale echter wordt weergegeven door (zeg) een bimodale (twee-hpped) eerdere verdeling, dan kan dit niet worden weergegeven door een bèta-verdeling. Het kan echter worden weergegeven door een mengseldichtheid Als de voorgaande, hier een combinatie van twee bèta -distributies; Dit is een vorm van hyperprior.

Een willekeurige kans zal niet tot een exponentiële familie behoren, en dus in het algemeen bestaat er in het algemeen geen conjugaat prior. De achterste zal dan moeten worden berekend met numerieke methoden.

Om aan te tonen dat de bovenstaande voorafgaande verdeling een geconjugeerde eerder is, kunnen we de posterior afleiden.

Neem eerst aan dat de waarschijnlijkheid van een enkele observatie een exponentiële familie volgt, geparametreerd met behulp van de natuurlijke parameter ervan:

Vervolgens voor gegevens , de kans wordt als volgt berekend:

Dan, voor de bovenstaande conjugaat vooraf:

We kunnen vervolgens de achterste berekenen als volgt:

De laatste regel is de kernel van de achterste verdeling, d.w.z.

Dit laat zien dat de achterste dezelfde vorm heeft als de prior.

De data X komt in deze vergelijking enkel en alleen in de uitdrukking

die wordt genoemd voldoende statistiek van de gegevens. Dat wil zeggen dat de waarde van de voldoende statistiek voldoende is om de achterste verdeling volledig te bepalen. De werkelijke gegevenspunten zelf zijn niet nodig en alle sets gegevenspunten met dezelfde voldoende statistiek hebben dezelfde verdeling. Dit is belangrijk omdat de dimensie van de voldoende statistiek niet groeit met de gegevensgrootte - het heeft slechts zoveel componenten als de componenten van (gelijkwaardig, het aantal parameters van de verdeling van een enkel gegevenspunt).

De updatevergelijkingen zijn als volgt:

Dit laat zien dat de updatevergelijkingen eenvoudig kunnen worden geschreven in termen van het aantal gegevenspunten en de voldoende statistiek van de gegevens. Dit is duidelijk te zien in de verschillende voorbeelden van updatevergelijkingen die worden getoond in de geconjugeerd prior bladzijde. Vanwege de manier waarop de voldoende statistiek wordt berekend, omvat het noodzakelijkerwijs bedragen van componenten van de gegevens (in sommige gevallen vermomd als producten of andere vormen - kan een product worden geschreven in termen van een som van logaritmen). De gevallen waarin de updatevergelijkingen voor bepaalde distributies niet precies overeenkomen met de bovenstaande formulieren, zijn gevallen waarin de geconjugeerde prior is uitgedrukt met een andere parametrering dan degene die een geconjugeerde prior van de bovenstaande vorm produceert - vaak specifiek omdat de bovenstaande vorm is gedefinieerd over de natuurlijke parameter Terwijl conjugaatpriors meestal worden gedefinieerd over de werkelijke parameter

Hypothesetesten: uniform meest krachtige tests

Een exponentiële familie van één parameter heeft een monotone niet-afnemende waarschijnlijkheidsratio in de voldoende statistiek T(x), op voorwaarde dat η(θ) is niet afleverend. Als gevolg hiervan bestaat er een uniform meest krachtige test voor De hypothese testen H0: θθ0 VS. H1: θ < θ0.

Gegeneraliseerde lineaire modellen

Exponentiële families vormen de basis voor de distributiefuncties die worden gebruikt in Gegeneraliseerde lineaire modellen, een klasse van model die veel van de veelgebruikte regressiemodellen in statistieken omvat.

Zie ook

Voetnoten

  1. ^ De familie van normale verdelingen bevat bijvoorbeeld de standaard normale verdeling N(0, 1) met gemiddelde 0 en variantie 1, evenals andere normale verdelingen met verschillende gemiddelde en variantie.
  2. ^ "Partitiefunctie" wordt vaak gebruikt in statistieken als synoniem van "normalisatiefactor".
  3. ^ Deze distributies zijn vaak geen exponentiële families. Veel voorkomende voorbeelden van niet-exponentiële families die voortvloeien uit exponentiële Student t-verdeling, Beta-binomiale verdeling en Dirichlet-multinomiale verdeling.

Referenties

Citaten

  1. ^ Kupperman, M. (1958). "Kansen van hypothesen en informatie-statistieken bij het bemonsteren van exponentiële klasse populaties". Annals of Mathematical Statistics. 9 (2): 571–575. doen:10.1214/AOMS/1177706633. Jstor 2237349.
  2. ^ Andersen, Erling (september 1970). "Ai voorziening en exponentiële gezinnen voor discrete steekproefruimtes". Journal of the American Statistical Association. Journal of the American Statistical Association. 65 (331): 1248–1255. doen:10.2307/2284291. Jstor 2284291. DHR 0268992.
  3. ^ Pitman, E.; Wantart, J. (1936). "Voldoende statistieken en intrinsieke nauwkeurigheid". Wiskundige procedures van de Cambridge Philosophical Society. 32 (4): 567–579. Bibcode:1936pcps ... 32..567p. doen:10.1017/s0305004100019307.
  4. ^ Darmois, G. (1935). "Sur Les Lois de probabilites een uitputtende schatting". C. R. Acad. Sci. Parijs (in het Frans). 200: 1265–1266.
  5. ^ Koopman, B. (1936). "Over distributie die een voldoende statistiek toelaat". Transacties van de American Mathematical Society. American Mathematical Society. 39 (3): 399–409. doen:10.2307/1989758. Jstor 1989758. DHR 1501854.
  6. ^ "Algemene exponentiële families". www.randomservices.org. Opgehaald 2022-08-30.
  7. ^ Abramovich & Ritov (2013). Statistische theorie: een beknopte introductie. Chapman & Hall. ISBN 978-1439851845.
  8. ^ Blei, David. "Variabele gevolgtrekking" (PDF). Princeton U.
  9. ^ Casella, George (2002). Statistische inferentie. Roger L. Berger (2e ed.). Australië: Thomson Learning. Stelling 6.2.25. ISBN 0-534-24312-6. Oclc 46538638.
  10. ^ Brown, Lawrence D. (1986). Fundamentals van statistische exponentiële families: met aanvragen in de statistische beslissingstheorie. Hayward, Calif.: Institute of Mathematical Statistics. Stelling 2.12. ISBN 0-940600-10-2. Oclc 15986663.
  11. ^ Keener, Robert W. (2010). Theoretische statistieken: onderwerpen voor een kerncursus. New York. pp. 47, Voorbeeld 3.12. ISBN 978-0-387-93839-4. Oclc 676700036.
  12. ^ Nielsen, Frank; Garcia, Vincent (2009). "Statistische exponentiële families: een digest met flash -kaarten". arxiv:0911.4863 [Cs.lg].
  13. ^ Van Garden, Kees Jan (1997). "Gebogen exponentiële modellen in econometrie". Econometrische theorie. 13 (6): 771–790. doen:10.1017/S0266466600006253.
  14. ^ Nielsen & Nock 2010, 4. Bregman -afwijkingen en relatieve entropie van exponentiële families.
  15. ^ Barndorff-Nielsen 1978, 9.1 Convex dualiteit en exponentiële families.

Bronnen

Verder lezen

  • Fahrmeir, Ludwig; Tutz, G. (1994). Multivariate statistische modellering op basis van gegeneraliseerde lineaire modellen. Springer. pp. 18–22, 345–349. ISBN 0-387-94233-5.
  • Keener, Robert W. (2006). Theoretische statistieken: onderwerpen voor een kerncursus. Springer. pp. 27–28, 32–33. ISBN 978-0-387-93838-7.
  • Lehmann, E. L.; Casella, G. (1998). Theorie van puntschatting (2e ed.). Sec. 1.5. ISBN 0-387-98502-6.

Externe links