Overlevingsanalyse

Overlevingsanalyse is een tak van statistieken Voor het analyseren van de verwachte tijdsduur totdat er één gebeurtenis plaatsvindt, zoals de dood in biologische organismen en falen in mechanische systemen. Dit onderwerp wordt genoemd Betrouwbaarheidstheorie of betrouwbaarheidsanalyse in engineering, duuranalyse of duurmodellering in economie, en Evenementgeschiedenisanalyse in sociologie. Overlevingsanalyse probeert bepaalde vragen te beantwoorden, zoals wat is het aandeel van een bevolking die voorbij een bepaalde tijd zal overleven? Van degenen die overleven, in welke snelheid zullen ze sterven of falen? Kunnen meerdere doodsoorzaken of mislukking in aanmerking worden genomen? Hoe verhogen bepaalde omstandigheden of kenmerken de kans op of verminderen overleving?

Om dergelijke vragen te beantwoorden, is het noodzakelijk om "levenslang" te definiëren. In het geval van biologische overleving, dood is ondubbelzinnig, maar voor mechanische betrouwbaarheid, mislukking is mogelijk niet goed gedefinieerd, want er kunnen mechanische systemen zijn waarin falen gedeeltelijk is, een kwestie van graad of niet anderszins gelokaliseerd in tijd. Zelfs bij biologische problemen, sommige gebeurtenissen (bijvoorbeeld, bijvoorbeeld, hartaanval of andere orgaanfalen) kan dezelfde dubbelzinnigheid hebben. De theorie Hieronder wordt op specifieke tijdstippen uitgegeven, goed gedefinieerde gebeurtenissen; Andere gevallen kunnen beter worden behandeld door modellen die expliciet rekening houden met dubbelzinnige gebeurtenissen.

Meer in het algemeen omvat overlevingsanalyse het modelleren van tijd naar gebeurtenisgegevens; In deze context wordt dood of falen beschouwd als een "gebeurtenis" in de literatuur over de overlevingsanalyse - traditioneel vindt er slechts een enkele gebeurtenis plaats voor elk onderwerp, waarna het organisme of mechanisme dood of gebroken is. Terugkerende gebeurtenis of herhaalde gebeurtenis Modellen ontspannen die veronderstelling. De studie van terugkerende gebeurtenissen is relevant in Systeembetrouwbaarheiden op veel gebieden van sociale wetenschappen en medisch onderzoek.

Inleiding tot overlevingsanalyse

Overlevingsanalyse wordt op verschillende manieren gebruikt:

Definities van gemeenschappelijke termen bij overlevingsanalyse

De volgende termen worden vaak gebruikt in overlevingsanalyses:

  • Gebeurtenis: overlijden, optreden van ziekten, herhaling van ziekten, herstel of andere interesse -ervaring
  • Tijd: de tijd vanaf het begin van een observatieperiode (zoals chirurgie of beginnende behandeling) tot (i) een gebeurtenis, of (ii) einde van de studie, of (iii) contactverlies of terugtrekking uit het onderzoek.
  • Censurering / gecensureerde observatie: censurering treedt op wanneer we wat informatie hebben over individuele overlevingstijd, maar we kennen de overlevingstijd niet precies. Het onderwerp wordt gecensureerd in de zin dat niets wordt waargenomen of bekend over dat onderwerp na de tijd van censurering. Een gecensureerd onderwerp kan al dan niet een gebeurtenis hebben na het einde van de observatietijd.
  • Overlevingsfunctie S (t): de kans dat een onderwerp langer overleeft dan tijd t.

Voorbeeld: acute myelogene leukemie -overlevingsgegevens

Dit voorbeeld gebruikt het Acute myelogene leukemie Survival Data Set "AML" van het "Survival" -pakket in R. De gegevensset is van Miller (1997)[1] En de vraag is of de standaardcursus van chemotherapie moet worden uitgebreid ('onderhouden') voor extra cycli.

De AML -gegevensset gesorteerd op de overlevingstijd wordt in het vak weergegeven.

AML -gegevensset gesorteerd op overlevingstijd
  • Tijd wordt aangegeven door de variabele "tijd", wat de overleving of censuretijd is
  • Evenement (herhaling van AML -kanker) wordt aangegeven door de variabele "status". 0 = geen evenement (gecensureerd), 1 = gebeurtenis (herhaling)
  • Behandelingsgroep: de variabele "X" geeft aan of onderhoudschemotherapie is gegeven

De laatste observatie (11), na 161 weken, wordt gecensureerd. Censoring geeft aan dat de patiënt geen gebeurtenis had (geen herhaling van AML -kanker). Een ander onderwerp, observatie 3, werd gecensureerd na 13 weken (aangegeven door status = 0). Dit onderwerp was slechts 13 weken in het onderzoek en de AML -kanker is gedurende die 13 weken niet teruggekomen. Het is mogelijk dat deze patiënt aan het einde van het onderzoek is ingeschreven, zodat ze slechts 13 weken konden worden waargenomen. Het is ook mogelijk dat de patiënt vroeg in het onderzoek is ingeschreven, maar verloren is gegaan om de studie op te volgen of terug te trekken. De tabel laat zien dat andere proefpersonen werden gecensureerd na 16, 28 en 45 weken (observaties 17, 6, en 9 met status = 0). De overgebleven proefpersonen alle ervaren gebeurtenissen (herhaling van AML -kanker) in de studie. De vraag van belang is of herhaling later voorkomt bij onderhoudende patiënten dan bij niet-onderhouden patiënten.

Kaplan - Meier -plot voor de AML -gegevens

De overlevingsfunctie S(t), is de kans dat een onderwerp langer overleeft dan de tijd t. S(t) is theoretisch een soepele curve, maar het wordt meestal geschat met behulp van de Kaplan - Meier (Km) curve. De grafiek toont de KM -plot voor de AML -gegevens en kan als volgt worden geïnterpreteerd:

  • De x Axis is tijd, van nul (toen de observatie begon) tot het laatst waargenomen tijdstip.
  • De y Axis is het aandeel van onderwerpen die overleven. Op tijd nul leeft 100% van de onderwerpen zonder een gebeurtenis.
  • De ononderbroken lijn (vergelijkbaar met een trap) toont de voortgang van gebeurtenissen.
  • Een verticale druppel geeft een gebeurtenis aan. In de hierboven getoonde AML -tabel hadden twee proefpersonen evenementen op vijf weken, twee hadden evenementen na acht weken, één had een evenement om negen weken, enzovoort. Deze gebeurtenissen na vijf weken, acht weken enzovoort worden aangegeven door de verticale druppels in het KM -plot op die tijdstippen.
  • Aan de rechterkant van de km -plot is er een tekenmarkering na 161 weken. Het verticale tekenmerk geeft aan dat een patiënt op dit moment is gecensureerd. In de AML -gegevenstabel werden vijf proefpersonen gecensureerd, op 13, 16, 28, 45 en 161 weken. Er zijn vijf tekenmerken in de KM -plot, overeenkomend met deze gecensureerde waarnemingen.

Leventabel voor de AML -gegevens

A levenstafel Vat de overlevingsgegevens samen in termen van het aantal gebeurtenissen en het aandeel dat op elk tijdstip overleeft. De levensstabel voor de AML -gegevens, gemaakt met behulp van de R Software wordt getoond.

Leventabel voor de AML -gegevens

De Life Table vat de gebeurtenissen samen en het aandeel dat op elk tijdstip overleeft. De kolommen in de Life Tabel hebben de volgende interpretatie:

  • Tijd geeft de tijdstippen waarop gebeurtenissen plaatsvinden.
  • N.Risk is het aantal onderwerpen dat onmiddellijk vóór het tijdstip risico loopt, t. "In gevaar" betekent dat het onderwerp vóór Time T niet een gebeurtenis heeft gehad en niet is gecensureerd voor of op tijdstip t.
  • N.Event is het aantal onderwerpen dat evenementen op tijdstip t heeft.
  • Overleving is het overleven van het aandeel, zoals bepaald met behulp van de schatting van de Kaplan-Meier-product-limiet.
  • Std.err is de standaardfout van de geschatte overleving. De standaardfout van de schatting van Kaplan-Meier product-limiet wordt berekend met behulp van de formule van Greenwood en hangt af van het risico (n.risico in de tabel), het aantal sterfgevallen (N.Event in de tabel) en de verhouding overleven (overleven in de tabel).
  • Lagere 95% BI en bovenste 95% BI zijn de onderste en bovenste 95% betrouwbaarheidsgrenzen voor het overleven van het aandeel.

Log-rank-test: testen op verschillen in overleving in de AML-gegevens

De log-rank-test Vergelijkt de overlevingstijden van twee of meer groepen. Dit voorbeeld maakt gebruik van een log-rank-test voor een verschil in overleving in de onderhouden versus niet-onderhouden behandelingsgroepen in de AML-gegevens. De grafiek toont KM -plots voor de AML -gegevens die zijn uitgegeven door de behandelingsgroep, die worden aangegeven door de variabele "x" in de gegevens.

Kaplan - Meier -grafiek per behandelingsgroep in AML

De nulhypothese voor een log-rank-test is dat de groepen hetzelfde overleven hebben. Het verwachte aantal onderwerpen dat op elk tijdstip in elk overleeft, wordt aangepast voor het aantal proefpersonen in de groepen in elke gebeurtenistijd. De log-rank-test bepaalt of het waargenomen aantal gebeurtenissen in elke groep aanzienlijk verschilt van het verwachte aantal. De formele test is gebaseerd op een chi-kwadraat statistiek. Wanneer de log-rank statistiek groot is, is het een bewijs voor een verschil in de overlevingstijden tussen de groepen. De log-rank statistiek heeft ongeveer een Chi-kwadraatverdeling met één mate van vrijheid en de p-waarde wordt berekend met behulp van de chi-kwadraatverdeling.

Voor de voorbeeldgegevens geeft de log-rank-test voor verschil in overleving een p-waarde van p = 0,0653, wat aangeeft dat de behandelingsgroepen niet significant verschillen in overleving, uitgaande van een alfaniveau van 0,05. De steekproefgrootte van 23 proefpersonen is bescheiden, dus er is weinig vermogen om verschillen tussen de behandelingsgroepen te detecteren. De chi-kwadraatstest is gebaseerd op asymptotische benadering, dus de p-waarde moet worden beschouwd met voorzichtigheid voor kleine steekproefgroottes.

Cox proportionele gevaren (pH) regressieanalyse

Kaplan-Meier-curven en log-rank-tests zijn het meest nuttig wanneer de voorspellende variabele categorisch is (bijv. Drug versus placebo), of een klein aantal waarden heeft (bijv. Doses 0, 20, 50 en 100 mg/dag ) die als categorisch kunnen worden behandeld. De log-rank-test en KM-curven werken niet gemakkelijk met kwantitatieve voorspellers zoals genexpressie, witte bloedtelling of leeftijd. Voor kwantitatieve voorspellende variabelen is een alternatieve methode Cox proportionele gevarenregressie analyse. Cox pH -modellen werken ook met categorische voorspellende variabelen, die worden gecodeerd als {0,1} indicator of dummy -variabelen. De log-rank-test is een speciaal geval van een COX-pH-analyse en kan worden uitgevoerd met behulp van COX PH-software.

Voorbeeld: Cox proportionele gevarenregressieanalyse voor melanoom

Dit voorbeeld gebruikt de melanoomgegevensset van Dalgaard hoofdstuk 14.[2]

Gegevens staan ​​in het R -pakket iswr. De cox proportionele gevarenregressie met behulp van R geeft de resultaten weergegeven in het vak.

COX proportionele gevarenregressie -output voor melanoomgegevens. Voorspellingsvariabele is geslacht 1: vrouw, 2: mannelijk.

De Cox -regressieresultaten worden als volgt geïnterpreteerd.

  • Seks wordt gecodeerd als een numerieke vector (1: vrouw, 2: mannelijk). De r Samenvatting voor het Cox -model geeft de Hazard Ratio (HR) voor de tweede groep ten opzichte van de eerste groep, dat wil zeggen mannelijk versus vrouwelijk.
  • COEF = 0.662 is de geschatte logaritme van de hazard ratio voor mannen versus vrouwen.
  • Exp (COEF) = 1,94 = exp (0.662) - Het logboek van de hazard ratio (COEF = 0,662) wordt getransformeerd in de hazard ratio met behulp van EXP (COEF). De samenvatting voor het COX -model geeft de hazard ratio voor de tweede groep ten opzichte van de eerste groep, dat wil zeggen mannelijk versus vrouwelijk. De geschatte hazard ratio van 1,94 geeft aan dat mannen in deze gegevens een hoger risico op overlijden (lagere overlevingspercentages) hebben dan vrouwen.
  • SE (COEF) = 0,265 is de standaardfout van de log -hazard ratio.
  • Z = 2.5 = COEF/SE (COEF) = 0.662/0.265. Het verdelen van de coëffer door zijn standaardfout geeft de Z -score.
  • P = 0,013. De p-waarde die overeenkomt met z = 2,5 voor geslacht is p = 0,013, wat aangeeft dat er een significant verschil is in overleving als functie van seks.

De samenvattende uitgang geeft ook een bovenste en lagere 95% betrouwbaarheidsintervallen voor de hazard ratio: lagere 95% gebonden = 1,15; Bovenste 95% gebonden = 3,26.

Ten slotte geeft de output p-waarden voor drie alternatieve tests voor de algemene betekenis van het model:

  • Waarschijnlijkheidsverhoudingstest = 6,15 op 1 df, p = 0,0131
  • Wald -test = 6,24 op 1 df, p = 0,0125
  • Score (log-rank) test = 6,47 op 1 df, p = 0,0110

Deze drie tests zijn asymptotisch equivalent. Voor groot genoeg n zullen ze vergelijkbare resultaten geven. Voor kleine N kunnen ze enigszins verschillen. De laatste rij, "Score (logrank) test" is het resultaat voor de log-rank-test, met p = 0,011, hetzelfde resultaat als de log-rank-test, omdat de log-rank-test een speciaal geval is van een Cox-pH regressie. De waarschijnlijkheidsverhoudingstest heeft beter gedrag voor kleine steekproefgroottes, dus het heeft over het algemeen de voorkeur.

Cox -model met behulp van een covariate in de melanoomgegevens

Het COX-model breidt de log-rank-test uit door de opname van extra covariaten mogelijk te maken. Dit voorbeeld gebruikt de melanoomgegevensset waarbij de voorspellende variabelen een continu covariate bevatten, de dikte van de tumor (variabele naam = "dik").

Histogrammen van melanoomtumordikte

In de histogrammen zien de diktewaarden er niet normaal verdeeld uit. Regressiemodellen, inclusief het COX-model, geven over het algemeen betrouwbaardere resultaten met normaal verdeeld variabelen. Gebruik voor dit voorbeeld een log -transformatie. De logboek van de dikte van de tumor lijkt normaal verdeeld te zijn, zodat de Cox -modellen de logdikte gebruiken. De COX -pH -analyse geeft de resultaten in het doos.

Cox pH -uitvoer voor melanoomgegevensset met covariate log tumor dikte

De P-waarde voor alle drie de totale tests (waarschijnlijkheid, Wald en Score) is significant, wat aangeeft dat het model aanzienlijk is. De p-waarde voor log (dik) is 6,9E-07, met een hazard ratio HR = exp (COEF) = 2,18, wat duidt op een sterke relatie tussen de dikte van de tumor en een verhoogd risico op overlijden.

De p-waarde voor seks is daarentegen nu p = 0,088. De hazard ratio HR = exp (COEF) = 1,58, met een betrouwbaarheidsinterval van 95% van 0,934 tot 2,68. Omdat het betrouwbaarheidsinterval voor HR 1 omvat, geven deze resultaten aan dat geslacht een kleinere bijdrage levert aan het verschil in de HR na controle voor de dikte van de tumor en alleen trend naar significantie. Onderzoek van grafieken van log (dikte) door seks en een t-test van log (dikte) door seks geven beide aan dat er een significant verschil is tussen mannen en vrouwen in de dikte van de tumor wanneer ze de arts voor het eerst zien.

Het COX -model gaat ervan uit dat de gevaren evenredig zijn. De veronderstelling van het evenredige gevaren kan worden getest met behulp van de R functie cox.zph (). Een p-waarde is minder dan 0,05 geeft aan dat de gevaren niet evenredig zijn. Voor de melanoomgegevens, p = 0,222, wat aangeeft dat de gevaren ten minste ongeveer evenredig zijn. Aanvullende tests en grafieken voor het onderzoeken van een Cox -model worden beschreven in de aangehaalde leerboeken.

Extensies naar Cox -modellen

Cox -modellen kunnen worden uitgebreid om variaties op de eenvoudige analyse aan te pakken.

  • Stratificatie. De proefpersonen kunnen worden onderverdeeld in lagen, waar proefpersonen binnen een stratum naar verwachting relatief meer vergelijkbaar zijn met elkaar dan aan willekeurig gekozen onderwerpen van andere lagen. De regressieparameters worden verondersteld hetzelfde te zijn over de lagen, maar er kan een ander baseline gevaar voor elke laag bestaan. Stratificatie is nuttig voor analyses met behulp van gematchte proefpersonen, voor het omgaan met patiëntsubsets, zoals verschillende klinieken, en voor het omgaan met schendingen van de veronderstelling van de proportionele gevaren.
  • Tijd variërende covariaten. Sommige variabelen, zoals geslacht en behandelingsgroep, blijven over het algemeen hetzelfde in een klinische studie. Andere klinische variabelen, zoals serum -eiwitniveaus of dosis gelijktijdige medicijnen kunnen in de loop van een onderzoek veranderen. COX-modellen kunnen worden uitgebreid voor dergelijke tijd variërende covariaten.

Boom-gestructureerde overlevingsmodellen

Het Cox PH -regressiemodel is een lineair model. Het is vergelijkbaar met lineaire regressie en logistieke regressie. In het bijzonder gaan deze methoden ervan uit dat een enkele lijn, curve, vlak of oppervlak voldoende is om groepen te scheiden (levend, dood) of om een ​​kwantitatieve respons te schatten (overlevingstijd).

In sommige gevallen geven alternatieve partities een nauwkeuriger classificatie of kwantitatieve schattingen. Een set alternatieve methoden zijn boomgestructureerde overlevingsmodellen,[3][4][5] inclusief willekeurige overlevingsbossen.[6] Tree-gestructureerde overlevingsmodellen kunnen meer nauwkeurige voorspellingen geven dan Cox-modellen. Het onderzoeken van beide soorten modellen voor een bepaalde gegevensset is een redelijke strategie.

Voorbeeld Survival Tree Analysis

Dit voorbeeld van een overlevingsboomanalyse gebruikt de R Pakket "rpart".[7] Het voorbeeld is gebaseerd op 146 fase C prostaatkankerpatiënten in de gegevensset Stagec in RPART. RPART en het Stagec -voorbeeld worden beschreven in Atkinson en Erneau (1997),[8] die ook wordt verdeeld als een vignet van het RPART -pakket.[7]

De variabelen in fasen zijn:

  • pgtime: tijd tot progressie, of laatste follow-up vrij van progressie
  • pgstat: status bij de laatste follow-up (1 = gevorderd, 0 = gecensureerd)
  • leeftijd: Leeftijd bij diagnose
  • Eet: vroege endocriene therapie (1 = nee, 0 = ja)
  • plooi: diploïde/tetraploïde/aneuploïd DNA -patroon
  • G2:% Cellen in G2 -fase
  • cijfer: Tumorkwaliteit (1-4)
  • Gleason: Gleason Grade (3-10)

De overlevingsboom geproduceerd door de analyse wordt weergegeven in de figuur.

Overlevingsboom voor gegevensset voor prostaatkanker

Elke tak in de boom geeft een splitsing aan op de waarde van een variabele. De wortel van de boom splitst bijvoorbeeld proefpersonen met graad <2,5 versus proefpersonen met graad 2.5 of hoger. De terminale knooppunten geven het aantal proefpersonen in het knooppunt aan, het aantal onderwerpen dat gebeurtenissen heeft en de relatieve gebeurtenissnelheid in vergelijking met de root. In het knooppunt uiterst links geven de waarden 1/33 aan dat een van de 33 proefpersonen in het knooppunt een gebeurtenis had en dat de relatieve gebeurtenissnelheid 0,122 is. In het knooppunt rechtsboven geven de waarden 11/15 aan dat 11 van 15 proefpersonen in het knooppunt een gebeurtenis hadden en dat de relatieve gebeurtenispercentage 2,7 is.

Overleving willekeurige bossen

Een alternatief voor het bouwen van een enkele overlevingsboom is om veel overlevingsbomen te bouwen, waarbij elke boom wordt geconstrueerd met behulp van een monster van de gegevens, en gemiddeld de bomen om overleving te voorspellen.[6] Dit is de methode die ten grondslag ligt aan de Survival Random Forest -modellen. Survival Random Forest -analyse is beschikbaar in de r Pakket "RandomForestsrc".[9]

Het RandomForestSRC -pakket bevat een voorbeeld van willekeurige bosanalyse met betrekking tot de gegevensset PBC. Deze gegevens zijn afkomstig van de Mayo Clinic Primary Biliaire Cirrosis (PBC) studie van de lever uitgevoerd tussen 1974 en 1984. In het voorbeeld geeft het willekeurige bosoverlevingsmodel meer nauwkeurige overlevingsvoorspellingen dan het COX -pH -model. De voorspellingsfouten worden geschat door bootstrap herbemonstering.

Algemene formulering

Overlevingsfunctie

Het object van primair belang is de overlevingsfunctie, conventioneel aangeduid S, die wordt gedefinieerd als

waar t is enige tijd, T is een willekeurige variabele Het tijdstip van de dood aangeeft, en "PR" staat voor waarschijnlijkheid. Dat wil zeggen, de overlevingsfunctie is de kans dat het tijdstip van overlijden later is dan een bepaalde tijd t. De overlevingsfunctie wordt ook de overlevende functie of overlevingsfunctie in problemen van biologische overleving, en de Betrouwbaarheidsfunctie bij mechanische overlevingsproblemen. In het laatste geval wordt de betrouwbaarheidsfunctie aangegeven R(t).

Meestal neemt men aan S(0) = 1, hoewel het minder kan zijn dan 1 Als er de mogelijkheid is van onmiddellijke dood of mislukking.

De overlevingsfunctie moet niet toenemende zijn: S(u) ≤ S(t) als ut. Deze eigenschap volgt direct omdat T>u impliceert T>t. Dit weerspiegelt het idee dat de overleving naar een latere leeftijd alleen mogelijk is als alle jongere leeftijden worden bereikt. Gezien deze eigenschap, de levenslange distributiefunctie en gebeurtenisdichtheid (F en f hieronder) zijn goed gedefinieerd.

De overlevingsfunctie wordt meestal verondersteld nul te benaderen naarmate de leeftijd toeneemt zonder gebonden (d.w.z. S(t) → 0 As t → ∞), hoewel de limiet groter kan zijn dan nul als het eeuwige leven mogelijk is. We kunnen bijvoorbeeld overlevingsanalyse toepassen op een combinatie van stabiel en onstabiel Koolstofisotopen; Onstabiele isotopen zouden vroeg of laat vervallen, maar de stabiele isotopen zouden voor onbepaalde tijd duren.

Levenslange distributiefunctie en gebeurtenisdichtheid

Gerelateerde hoeveelheden worden gedefinieerd in termen van de overlevingsfunctie.

De levenslange distributiefunctie, conventioneel aangeduid F, wordt gedefinieerd als het complement van de overlevingsfunctie,

Als F is onderscheidbaar dan wordt de afgeleide, die de dichtheidsfunctie van de levenslange verdeling is, conventioneel aangeduid f,,

De functie f wordt soms de gebeurtenisdichtheid; Het is de snelheid van overlijden of fouten per tijdseenheid.

De overlevingsfunctie kan worden uitgedrukt in termen van waarschijnlijkheidsverdeling en waarschijnlijkheidsdichtheidsfuncties

Evenzo kan een overlevingsgebeurtenisdichtheidsfunctie worden gedefinieerd als

Op andere gebieden, zoals statistische fysica, staat de overlevingsgebeurtenisdichtheidsfunctie bekend als de Eerste doorgangstijd dikte.

Gevarenfunctie en cumulatieve gevarenfunctie

De gevarenfunctie, conventioneel aangeduid of , wordt gedefinieerd als het evenementpercentage op tijd Voorwaardelijk bij overleven tot de tijd of later (dat wil zeggen, ). Stel dat een item een ​​tijdje heeft overleefd En we wensen de kans dat het niet voor een extra tijd zal overleven :

Sterfte is een synoniem van gevarenfunctie die met name in wordt gebruikt demografie en actuariële Wetenschappen, waar het wordt aangeduid door . De voorwaarde gevarenpercentage is een ander synoniem.

De kracht van sterfte van de overlevingsfunctie wordt gedefinieerd als

De kracht van sterfte wordt ook de kracht van falen genoemd. Het is de waarschijnlijkheidsdichtheidsfunctie van de verdeling van mortaliteit.

In de actuariële wetenschap is het gevarenpercentage de doodsnelheid voor levens van levens . Voor een leven , de kracht van sterfelijkheid Jaren later is de kracht van sterfte voor een -jaar oud. Het gevarenpercentage wordt ook het faalpercentage genoemd. Gevaarstarief en faalpercentage zijn namen die worden gebruikt in de betrouwbaarheidstheorie.

Elke functie is een gevarenfunctie als en alleen als het voldoet aan de volgende eigenschappen:

  1. ,
  2. .

In feite is het gevarensnelheid meestal informatiever over het onderliggende faalmechanisme dan de andere representaties van een levenslange verdeling.

De gevarenfunctie moet niet-negatief zijn, , en zijn integraal over Moet oneindig zijn, maar is anders niet beperkt; Het kan toenemende of afnemende, niet-monotone of discontinu zijn. Een voorbeeld is het badkuipcurve gevarenfunctie, die groot is voor kleine waarden van , afnemen tot een minimum, en daarna weer toeneemt; Dit kan de eigenschap van sommige mechanische systemen modelleren om kort na de werking te mislukken, of veel later, naarmate het systeem ouder wordt.

De gevarenfunctie kan alternatief worden weergegeven in termen van de Cumulatieve gevarenfunctie, conventioneel aangeduid of :

Dus het omzetten van tekenen en exponentiveren

of differentiëren (met de kettingregel)

De naam "cumulatieve gevarenfunctie" is afgeleid van het feit dat

dat is de "accumulatie" van het gevaar in de loop van de tijd.

Van de definitie van , we zien dat het toeneemt zonder gebonden t neigt de neiging om oneindig te zijn (ervan uitgaande neigt naar nul). Dit betekent dat mag niet te snel afnemen, omdat per definitie het cumulatieve gevaar moet uiteenlopen. Bijvoorbeeld, is niet de gevarenfunctie van een overlevingsverdeling, omdat de integrale convergeert naar 1.

De overlevingsfunctie , de cumulatieve gevarenfunctie , de dichtheid , de gevarenfunctie en de levenslange distributiefunctie zijn gerelateerd door

Hoeveelheden afgeleid van de overlevingsverdeling

Toekomstige levensduur Op een gegeven moment is de tijd die overblijft tot de dood, gegeven overleven aan leeftijd . Het is dus In de huidige notatie. De Verwacht toekomstige levenslang is de verwachte waarde van toekomstige levensduur. De kans op overlijden op of voor leeftijd , gegeven overleven tot de leeftijd , is gewoon

Daarom is de waarschijnlijkheidsdichtheid van de toekomstige levensduur

en de verwachte toekomstige levensduur is

waarbij de tweede uitdrukking wordt verkregen met behulp van Integratie door onderdelen.

Voor , dat wil zeggen bij de geboorte, dit vermindert tot de verwachte levensduur.

Bij betrouwbaarheidsproblemen wordt de verwachte levensduur de gemiddelde tijd tot de fout, en de verwachte toekomstige levensduur wordt de Gemiddelde resterende levensduur.

Als de kans dat een individu tot de leeftijd overleeft t of later is S(t), per definitie, het verwachte aantal overlevenden op de leeftijd t uit een eerste bevolking van n pasgeborenen is n × S(t), uitgaande van dezelfde overlevingsfunctie voor alle individuen. Aldus is het verwachte aandeel van overlevenden S(t). Als het overleven van verschillende individuen onafhankelijk is, is het aantal overlevenden op de leeftijd t heeft een binomiale verdeling met parameters n en S(t), en de variantie van het aandeel van overlevenden is S(t) × (1-S(t))/n.

De leeftijd waarop een gespecificeerd deel van de overlevenden blijft, kan worden gevonden door de vergelijking op te lossen S(t) = q voor t, waar q is de kwantiel kwantiel. in kwestie. Meestal is men geïnteresseerd in de mediaan- levenslang, waarvoor q = 1/2, of andere kwantielen zoals q = 0,90 of q = 0,99.

Censurering

Censurering is een vorm van ontbrekend gegevensprobleem waarin tijdstip niet wordt waargenomen om redenen zoals beëindiging van de studie voordat alle aangeworven proefpersonen het evenement van interesse hebben aangetoond of het onderwerp de studie heeft verlaten voordat ze een evenement ervaren. Censurering is gebruikelijk bij overlevingsanalyse.

Als alleen de ondergrens l Voor de echte gebeurtenistijd T is zo bekend dat T > l, dit heet Rechts censurering. Rechts censurering zal bijvoorbeeld plaatsvinden voor die onderwerpen wiens geboortedatum bekend is, maar die nog in leven zijn wanneer ze dat zijn verloren van follow-up of wanneer de studie eindigt. Over het algemeen komen we met recht gecensureerde gegevens tegen.

Als het belang van belangstelling al is gebeurd voordat het onderwerp in de studie is opgenomen, maar het is niet bekend wanneer het zich heeft voorgedaan, wordt gezegd dat de gegevens zijn links gecensureerd.[10] Wanneer alleen kan worden gezegd dat de gebeurtenis plaatsvond tussen twee observaties of onderzoeken, is dit Intervalcensurering.

Links censurering treedt bijvoorbeeld op wanneer een permanente tand al is ontstaan ​​voorafgaand aan het begin van een tandheelkundig onderzoek dat tot doel heeft de opkomstverdeling ervan te schatten. In dezelfde studie wordt een opkomsttijd-gecensureerd interval-gecensureerd wanneer de permanente tand aanwezig is in de mond bij het huidige onderzoek, maar nog niet bij het vorige onderzoek. Intervalcensurering komt vaak voor in HIV/AIDS -onderzoeken. Inderdaad, tijd tot HIV -seroconversie kan alleen worden bepaald door een laboratoriumbeoordeling die meestal wordt geïnitieerd na een bezoek aan de arts. Dan kan men alleen maar concluderen dat HIV -seroconversie is gebeurd tussen twee onderzoeken. Hetzelfde geldt voor de diagnose van AIDS, die is gebaseerd op klinische symptomen en moet worden bevestigd door een medisch onderzoek.

Het kan ook gebeuren dat proefpersonen met een leven minder dan een drempel mogelijk helemaal niet worden waargenomen: dit wordt genoemd afkorting. Merk op dat afknotting anders is dan linkercensurering, omdat we voor een links gecensureerde datum weten dat het onderwerp bestaat, maar voor een afgeknot datum zijn we misschien niet bewust van het onderwerp. Truncatie is ook gebruikelijk. In een zogenaamde vertraagde invoer Studie, proefpersonen worden helemaal niet waargenomen totdat ze een bepaalde leeftijd hebben bereikt. Mensen mogen bijvoorbeeld niet worden waargenomen totdat ze de leeftijd hebben bereikt om naar school te gaan. Alle overleden proefpersonen in de leeftijd van de kleuterschool zouden onbekend zijn. Links opgeknotte gegevens zijn gebruikelijk in actuarieel werk voor levensverzekeringen en pensioenen.[11]

Gecensureerde gegevens van links kunnen optreden wanneer de overlevingstijd van een persoon onvolledig wordt aan de linkerkant van de follow-up periode voor de persoon. In een epidemiologisch voorbeeld kunnen we bijvoorbeeld een patiënt controleren op een infectiestoornis die begint uit de tijd dat hij of zij positief wordt getest op de infectie. Hoewel we misschien de rechterkant van de interesse-duur kennen, weten we misschien nooit het exacte tijd van blootstelling aan de besmettelijke agent.[12]

Pastparameters aan gegevens passend

Overlevingsmodellen kunnen nuttig worden gezien als gewone regressiemodellen waarin de responsvariabele tijd is. Het berekenen van de waarschijnlijkheidsfunctie (nodig voor het aanpassen van parameters of het maken van andere soorten conclusies) wordt echter gecompliceerd door de censuur. De waarschijnlijkheidsfunctie Voor een overlevingsmodel wordt in aanwezigheid van gecensureerde gegevens als volgt geformuleerd. Per definitie is de waarschijnlijkheidsfunctie de voorwaardelijke waarschijnlijkheid van de gegevens gegeven de parameters van het model. Het is gebruikelijk om aan te nemen dat de gegevens onafhankelijk zijn gezien de parameters. Dan is de waarschijnlijkheidsfunctie het product van de waarschijnlijkheid van elk datum. Het is handig om de gegevens in vier categorieën te verdelen: ongecensureerd, links gecensureerd, rechts gecensureerd en interval gecensureerd. Deze worden aangeduid als "UNC.", "L.C.", "R.C." en "I.C." In de onderstaande vergelijking.

Voor ongecensureerde gegevens, met gelijk aan de leeftijd bij de dood, we hebben

Voor links gecensureerde gegevens, zodat de leeftijd bij de dood minder is dan minder dan , wij hebben

Voor rechtmatige gegevens, zodat de leeftijd bij de dood groter is dan groter dan , wij hebben

Voor een interval gecensureerd datum, zodat bekend is dat de leeftijd bij de dood minder is dan en groter dan , wij hebben

Een belangrijke toepassing waar intervalgecensureerde gegevens ontstaan, zijn de huidige statusgegevens, waarbij een gebeurtenis is bekend dat het niet heeft plaatsgevonden vóór een observatietijd en hebben plaatsgevonden vóór de volgende observatietijd.

Niet-parametrische schatting

De Kaplan - Meier -schatter kan worden gebruikt om de overlevingsfunctie te schatten. De Nelson - Aalen schatter kan worden gebruikt om een niet parametrisch Schatting van de cumulatieve gevarensnelheidsfunctie.

Computersoftware voor overlevingsanalyse

Het leerboek van Kleinbaum heeft voorbeelden van overlevingsanalyses met behulp van SAS, R en andere pakketten.[13] De schoolboeken van Brostrom,[14] Dalgaard[2] en Tableman en Kim[15] Geef voorbeelden van overlevingsanalyses met behulp van R (of met behulp van S, en die in R worden uitgevoerd).

Verdelingen die worden gebruikt bij overlevingsanalyse

Toepassingen

Zie ook

Referenties

  1. ^ Miller, Rupert G. (1997), Overlevingsanalyse, John Wiley & Sons, ISBN 0-471-25218-2
  2. ^ a b Dalgaard, Peter (2008), Inleidende statistieken met r (Tweede ed.), Springer, ISBN 978-0387790534
  3. ^ Segal, Mark Robert (1988). "Regressiebomen voor gecensureerde gegevens". Biometrie. 44 (1): 35–47. doen:10.2307/2531894. Jstor 2531894.
  4. ^ Leblanc, Michael; Crowley, John (1993). "Overleving bomen door goedheid van split". Journal of the American Statistical Association. 88 (422): 457–467. doen:10.1080/01621459.1993.10476296. ISSN 0162-1459.
  5. ^ Ritschard, Gilbert; Gabadinho, Alexis; Muller, Nicolas S.; Studer, Matthias (2008). "Histories voor mijnbouwevenement: een sociaalwetenschappelijk perspectief". International Journal of Data Mining, Modellering and Management. 1 (1): 68. doen:10.1504/ijdmmm.2008.022538. ISSN 1759-1163.
  6. ^ a b Ishwaran, Hemant; Kogalur, Udaya B.; Blackstone, Eugene H.; Lauer, Michael S. (2008-09-01). "Willekeurige overlevingsbossen". De annalen van toegepaste statistieken. 2 (3). doen:10.1214/08-aoas169. ISSN 1932-6157. S2CID 2003897.
  7. ^ a b Therneau, Terry J.; Atkinson, Elizabeth J. "Rpart: recursieve verdeling en regressiebomen". Kran. Opgehaald 12 november, 2021.{{}}: CS1 onderhoud: url-status (link)
  8. ^ Atkinson, Elizabeth J.; THERNEAU, Terry J. (1997). Een inleiding tot recursieve partitionering met behulp van de RPART -routines. Mayo Foundation.
  9. ^ Ishwaran, Hemant; Kogalur, Udaya B. "RandomForestsRC: snelle uniforme willekeurige bossen voor overleving, regressie en classificatie (RF-SRC)". Kran. Opgehaald 12 november, 2021.{{}}: CS1 onderhoud: url-status (link)
  10. ^ Darity, William A. Jr., ed. (2008). "Censurering, links en rechts". Internationale encyclopedie van de sociale wetenschappen. Vol. 1 (2e ed.). Macmillan. pp. 473–474. Opgehaald 6 november 2016.
  11. ^ Richards, S. J. (2012). "Een handboek met parametrische overlevingsmodellen voor actuarieel gebruik". Scandinavisch actuarieel tijdschrift. 2012 (4): 233–257. doen:10.1080/03461238.2010.506688. S2CID 119577304.
  12. ^ Singh, R.; Mukhopadhyay, K. (2011). "Overlevingsanalyse in klinische onderzoeken: basisprincipes en moeten gebieden kennen". Perspect Clin Res. 2 (4): 145–148. doen:10.4103/2229-3485.86872. PMC 3227332. Pmid 22145125.
  13. ^ Kleinbaum, David G.; Klein, Mitchel (2012), Overlevingsanalyse: een zelfleer tekst (Derde ed.), Springer, ISBN 978-1441966452
  14. ^ Brostrom, Göran (2012), Evenementgeschiedenisanalyse met r (Eerste ed.), Chapman & Hall/CRC, ISBN 978-1439831649
  15. ^ Tableman, Mara; Kim, Jong Sung (2003), Overlevingsanalyse met behulp van S (Eerste ed.), Chapman en Hall/CRC, ISBN 978-1584884088
  16. ^ Stepanova, Maria; Thomas, Lyn (2002-04-01). "Methoden voor overlevingsanalyse voor persoonlijke leninggegevens". Operations Research. 50 (2): 277–289. doen:10.1287/Opre.50.2.277.426. ISSN 0030-364X.
  17. ^ Glennon, Dennis; Nigro, Peter (2005). "Het meten van het standaardrisico van leningen voor kleine bedrijven: een overlevingsanalysebenadering". Journal of Money, Credit and Banking. 37 (5): 923–947. doen:10.1353/mcb.2005.0051. ISSN 0022-2879. Jstor 3839153. S2CID 154615623.
  18. ^ Kennedy, Edward H.; Hu, Chen; O'Brien, Barbara; Gross, Samuel R. (2014-05-20). "Rate van valse veroordeling van criminele beklaagden die ter dood worden veroordeeld". Proceedings of the National Academy of Sciences. 111 (20): 7230–7235. Bibcode:2014pnas..111.7230g. doen:10.1073/pnas.1306417111. ISSN 0027-8424. PMC 4034186. Pmid 24778209.
  19. ^ De Cos Juez, F. J.; García Nieto, P. J.; Martínez Torres, J.; Taboada Castro, J. (2010-10-01). "Analyse van doorlooptijden van metaalcomponenten in de ruimtevaartindustrie via een ondersteund vectormachinemodel". Wiskundige en computermodellering. Wiskundige modellen in de geneeskunde, Business & Engineering 2009. 52 (7): 1177–1184. doen:10.1016/j.mcm.2010.03.017. ISSN 0895-7177.
  20. ^ Spivak, Andrew L.; Damphousse, Kelly R. (2006). "Wie keert terug naar de gevangenis? Een overlevingsanalyse van recidive bij volwassen daders vrijgelaten in Oklahoma, 1985 - 2004". Justitieonderzoek en -beleid. 8 (2): 57–88. doen:10.3818/jrp.8.2.2006.57. ISSN 1525-1071. S2CID 144566819.
  21. ^ Pollock, Kenneth H.; Winterstein, Scott R.; Bunck, Christine M.; Curtis, Paul D. (1989). "Survival Analysis in Telemetry Studies: The Scagggered Entry Design". The Journal of Wildlife Management. 53 (1): 7-15. doen:10.2307/3801296. ISSN 0022-541X. Jstor 3801296.
  22. ^ Saleh, Joseph Homer (2019-12-23). "Statistische betrouwbaarheidsanalyse voor een meest gevaarlijke bezetting: Romeinse keizer". Palgrave communicatie. 5 (1): 1–7. doen:10.1057/S41599-019-0366-y. ISSN 2055-1045.

Verder lezen

  • Collett, David (2003). Modellering van overlevingsgegevens in medisch onderzoek (Tweede ed.). Boca Raton: Chapman & Hall/CRC. ISBN 1584883251.
  • ELANDT-JOHNSON, Regina; Johnson, Norman (1999). Overlevingsmodellen en gegevensanalyse. New York: John Wiley & Sons. ISBN 0471349925.
  • Kalbfleisch, J. D.; Prentice, Ross L. (2002). De statistische analyse van faaltijdgegevens. New York: John Wiley & Sons. ISBN 047136357X.
  • Lawless, Jerald F. (2003). Statistische modellen en methoden voor levenslange gegevens (2e ed.). Hoboken: John Wiley and Sons. ISBN 0471372153.
  • Rausand, M.; Hoyland, A. (2004). Systeembetrouwbaarheidstheorie: modellen, statistische methoden en toepassingen. Hoboken: John Wiley & Sons. ISBN 047147133X.

Externe links