Poisson -regressie

In statistieken, Poisson -regressie is een Gegeneraliseerd lineair model soort van regressie analyse gebruikt om te modelleren Tel data en Rontingentafels. Poisson -regressie veronderstelt de responsvariabele Y heeft een Poisson -verdelingen neemt de logaritme van zijn verwachte waarde kan worden gemodelleerd door een lineaire combinatie van onbekend parameters. Een Poisson -regressiemodel wordt soms bekend als een log-lineair model, vooral wanneer gebruikt om contingentietabellen te modelleren.

Negatieve binomiale regressie is een populaire generalisatie van Poisson -regressie omdat het de zeer beperkende veronderstelling losmaakt dat de variantie gelijk is aan het gemiddelde dat wordt gemaakt door het Poisson -model. Het traditionele negatieve binomiale regressiemodel is gebaseerd op de verdeling van Poisson-Gamma-mengsel. Dit model is populair omdat het de Poisson -heterogeniteit modelleert met een gamma -verdeling.

Poisson -regressiemodellen zijn Gegeneraliseerde lineaire modellen met de logaritme als de (canonical) koppelingsfunctie, en de Poisson -verdeling Functie als de veronderstelde waarschijnlijkheidsverdeling van de respons.

Regressiemodellen

Als is een vector van onafhankelijke variabelen, dan neemt het model de vorm aan

waar en . Soms wordt dit compacter geschreven als

waar x is nu een (n+1) -dimensionale vector bestaande uit n Onafhankelijke variabelen zijn aangenomen aan de nummer één. Hier θ is eenvoudig α samengevoegd aan β.

Dus wanneer een Poisson -regressiemodel wordt gegeven θ en een invoervector x, het voorspelde gemiddelde van de bijbehorende Poisson -verdeling wordt gegeven door

Als Yi zijn onafhankelijk waarnemingen met overeenkomstige waarden xi van de voorspellende variabelen dan θ kan worden geschat door maximale kans. De schattingen van de maximale waarschijnlijkheid missen een gesloten vorm expressie en moet worden gevonden met numerieke methoden. Het waarschijnlijkheidsoppervlak voor maximaal-waarschijnlijkheid Poisson-regressie is altijd concaaf, waardoor Newton-Raphson of andere op gradiënt gebaseerde methoden geschikte schattingstechnieken maken.

Maximale op waarschijnlijkheid gebaseerde parameterschatting

Gegeven een set parameters θ en een invoervector x, het gemiddelde van de voorspelde Poisson -verdeling, zoals hierboven vermeld, wordt gegeven door

En dus, de Poisson -distributie kansdichtheidsfunctie is gegeven door

Stel nu dat we een gegevensset krijgen die uit bestaat uit m vectoren , samen met een set van m waarden . Vervolgens voor een bepaalde set parameters θ, de kans om deze specifieke set gegevens te bereiken wordt gegeven door

Door de methode van maximale kans, we willen de set parameters vinden θ Dat maakt deze waarschijnlijkheid zo groot mogelijk. Om dit te doen, wordt de vergelijking eerst herschreven als een waarschijnlijkheidsfunctie aangaande met θ:

Merk op dat de uitdrukking op de rechterzijde is eigenlijk niet veranderd. Een formule in deze vorm is meestal moeilijk om mee te werken; In plaats daarvan gebruikt men de log-waarschijnlijkheid:

Merk op dat de parameters θ verschijnen alleen in de eerste twee termen van elke term in de sommatie. Daarom, aangezien we alleen geïnteresseerd zijn in het vinden van de beste waarde voor θ We kunnen de yi! en schrijf gewoon

Om een ​​maximum te vinden, moeten we een vergelijking oplossen die geen oplossing met gesloten vorm heeft. De negatieve log-waarschijnlijkheid, echter, is een convexe functie, en dus standaard convexe optimalisatie technieken zoals gradiëntafkomst kan worden toegepast om de optimale waarde van te vinden θ.

Poisson -regressie in de praktijk

Poisson -regressie kan geschikt zijn wanneer de afhankelijke variabele een telling is, bijvoorbeeld van evenementen zoals de komst van een telefoongesprek in een callcenter.[1] De gebeurtenissen moeten onafhankelijk zijn in de zin dat de komst van de ene oproep niet meer of minder waarschijnlijk zal maken, maar de waarschijnlijkheid per tijdseenheid van gebeurtenissen wordt verondersteld gerelateerd te zijn aan covariaten zoals tijdstip van de dag.

"Belichting" en offset

Poisson -regressie kan ook geschikt zijn voor rentegegevens, waarbij de snelheid een telling is van gebeurtenissen gedeeld door een bepaalde maatregel van die eenheid blootstelling (een bepaalde observatie -eenheid). Biologen kunnen bijvoorbeeld het aantal boomsoorten in een bos tellen: gebeurtenissen zouden boomobservaties zijn, blootstelling zou eenheidsgebied zijn en de snelheid zou het aantal soorten per eenheidsgebied zijn. Demografen kunnen sterftecijfers in geografische gebieden modelleren, omdat het aantal sterfgevallen gedeeld door persoon -jaren. Meer in het algemeen kunnen gebeurtenispercentages worden berekend als gebeurtenissen per tijdseenheid, waardoor het observatieverslag voor elke eenheid kan variëren. In deze voorbeelden is blootstelling respectievelijk eenheidsgebied, persoon -jegen en eenheidstijd. In Poisson -regressie wordt dit behandeld als een compensatie. Als de snelheid tel/blootstelling is, vermenigvuldigt beide zijden van de vergelijking door blootstelling deze naar de rechterkant van de vergelijking. Wanneer beide zijden van de vergelijking vervolgens worden vastgelegd, bevat het uiteindelijke model log (belichting) als een term die wordt toegevoegd aan de regressiecoëfficiënten. Deze logged variabele, log (belichting), wordt de offset-variabele genoemd en komt aan de rechterkant van de vergelijking binnen met een parameterschatting (voor log (belichting)) beperkt tot 1.

wat impliceert

Offset in het geval van een GLM in R kan worden bereikt met behulp van de offset () functie:

GLM(y ~ compensatie(aanroepen(blootstelling)) + x, familie=vergif(koppeling=aanroepen) ) 

Overdispersie en nul inflatie

Een kenmerk van de Poisson -verdeling is dat zijn gemiddelde gelijk is aan zijn variantie. In bepaalde omstandigheden zal blijken dat de waargenomen variantie is groter dan het gemiddelde; Dit staat bekend als overdaad en geeft aan dat het model niet geschikt is. Een veel voorkomende reden is het weglaten van relevante verklarende variabelen of afhankelijke waarnemingen. Onder sommige omstandigheden kan het probleem van overdispersie worden opgelost door te gebruiken quasi-waarschijnlijkheid schatting of een Negatieve binomiale verdeling in plaats van.[2][3]

Ver hoef en Boveng beschreven het verschil tussen quasi-poisson (ook wel overdispersie genoemd met quasi-waarschijnlijkheid) en negatief binomiaal (gelijkwaardig aan gamma-poisson) als volgt: als E(Y) = μ, het quasi-poisson-model gaat uit van var (Y) = θμ Terwijl de gamma-poisson Var veronderstelt (Y) = μ(1+κμ), waar θ is de parameter quasi-poisson overdispersie, en κ is de vormparameter van de Negatieve binomiale verdeling. Voor beide modellen worden parameters geschat met behulp van Iteratief opnieuw gewogen kleinste vierkanten. Voor quasi-poisson zijn de gewichten μ/θ. Voor negatieve binomiale zijn de gewichten μ/(1+κμ). Met groot μ en substantiële extra-poisson variatie, de negatieve binomiale gewichten zijn afgedekt bij 1/κ. Ver Hoef en Boveng bespraken een voorbeeld waarbij ze tussen de twee selecteerden door gemiddelde kwadratische residuen te plotten versus het gemiddelde.[4]

Een ander veel voorkomend probleem met Poisson -regressie is overtollige nullen: als er twee processen op het werk zijn, één bepaalt of er nul gebeurtenissen of gebeurtenissen zijn, en een Poisson -proces dat bepaalt hoeveel gebeurtenissen er zijn, zal er meer nullen zijn dan een Poisson -regressie zou zijn voorspellen. Een voorbeeld zou de verdeling zijn van sigaretten die binnen een uur worden gerookt door leden van een groep waar sommige personen niet-rokers zijn.

Ander Gegeneraliseerde lineaire modellen zoals de negatief binomiaal model of Zero-opgeblazen model kan in deze gevallen beter functioneren.

Integendeel, onderdispersie kan een probleem vormen voor parameterschatting.[5]

Gebruik in overlevingsanalyse

Poisson -regressie creëert proportionele gevarenmodellen, een klasse van Overlevingsanalyse: zien Proportionele gevarenmodellen Voor beschrijvingen van Cox -modellen.

Extensies

Geregulariseerde Poisson -regressie

Bij het schatten van de parameters voor Poisson -regressie probeert men meestal waarden te vinden voor θ die de waarschijnlijkheid van een uitdrukking van de vorm maximaliseren

waar m is het aantal voorbeelden in de gegevensset, en is de kansdichtheidsfunctie van de Poisson -verdeling met de gemiddelde set naar . Regularisatie kan aan dit optimalisatieprobleem worden toegevoegd door in plaats daarvan te maximaliseren[6]

voor een positieve constante . Deze techniek, vergelijkbaar met Ridge -regressie, kan verminderen overfect.

Zie ook

Referenties

  1. ^ Greene, William H. (2003). Econometrische analyse (Vijfde ed.). Prentice-Hall. pp.740–752. ISBN 978-0130661890.
  2. ^ Paternoster R, Brame R (1997). "Meerdere routes naar delinquentie? Een test van ontwikkelings- en algemene criminaliteitstheorieën". Criminologie. 35: 45–84. doen:10.1111/j.1745-9125.1997.tb00870.x.
  3. ^ Berk R, MacDonald J (2008). "Overdispersie en Poisson -regressie". Journal of Quantitative Criminology. 24 (3): 269–284. doen:10.1007/s10940-008-9048-4.
  4. ^ Ver Hoef, Jay M.; Boveng, Peter L. (2007-01-01). "Quasi-Poisson versus negatieve binomiale regressie: hoe moeten we overdisperseerde telgegevens modelleren?". Ecologie. 88 (11): 2766–2772. doen:10.1890/07-0043.1. Opgehaald 2016-09-01.
  5. ^ Schwarzenegger, Rafael; Quigley, John; Walls, Lesley (23 november 2021). "Is het opwekken van afhankelijkheid de moeite waard? Een onderzoek voor het multivariate Poisson-Gamma-waarschijnlijkheidsmodel". Proceedings of the Institution of Mechanical Engineers, Part O: Journal of Risk and betrouwbaarheid: 5. doen:10.1177/1748006x211059417.
  6. ^ Perperoglou, ARIS (2011-09-08). "Pas overlevingsgegevens met bestraft Poisson -regressie". Statistische methoden en toepassingen. Springer -natuur. 20 (4): 451–462. doen:10.1007/s10260-011-0172-1. ISSN 1618-2510.

Verder lezen

  • Cameron, A. C.; Trivedi, P. K. (1998). Regressieanalyse van telgegevens. Cambridge University Press. ISBN 978-0-521-63201-0.
  • Christensen, Ronald (1997). Log-lineaire modellen en logistieke regressie. Springer -teksten in statistieken (tweede ed.). New York: Springer-Verlag. ISBN 978-0-387-98247-2. DHR 1633357.
  • Gouriéroux, christen (2000). "De econometrie van discrete positieve variabelen: het Poisson -model". Econometrie van kwalitatieve afhankelijke variabelen. New York: Cambridge University Press. pp. 270–83. ISBN 978-0-521-58985-7.
  • Greene, William H. (2008). "Modellen voor evenemententellingen en duur". Econometrische analyse (8e ed.). Upper Saddle River: Prentice Hall. pp.906–944. ISBN 978-0-13-600383-0.
  • Hilbe, J. M. (2007). Negatieve binomiale regressie. Cambridge University Press. ISBN 978-0-521-85772-7.
  • Jones, Andrew M.; et al. (2013). "Modellen voor telgegevens". Toegepaste gezondheidseconomie. Londen: Routledge. pp. 295–341. ISBN 978-0-415-67682-3.
  • Myers, Raymond H.; et al. (2010). "Logistische en Poisson -regressiemodellen". Gegeneraliseerde lineaire modellen met toepassingen in engineering en de wetenschappen (Tweede ed.). New Jersey: Wiley. pp. 176–183. ISBN 978-0-470-45463-3.