Categorische variabele
In statistieken, a categorische variabele (ook wel genoemd kwalitatieve variabele) is een variabel die een van een beperkte en meestal vaste, aantal mogelijke waarden kan aannemen, waarbij elke individu of andere eenheid van observatie wordt toegewezen aan een bepaalde groep of nominale categorie op basis van sommigen kwalitatief eigendom.[1] In de informatica en enkele wiskundestakken worden categorische variabelen aangeduid als opsomming of opgesomde typen. Vaak (hoewel niet in dit artikel), wordt elk van de mogelijke waarden van een categorische variabele een niveau. De waarschijnlijkheidsverdeling geassocieerd met een willekeurig Categorische variabele wordt een genoemd categorische verdeling.
Categorische data is de Statistisch gegevenstype bestaande uit categorische variabelen of gegevens die in die vorm zijn omgezet, bijvoorbeeld als Gegroepeerde gegevens. Meer specifiek kunnen categorische gegevens afkomstig zijn van waarnemingen gemaakt van waarnemingen kwalitatieve data die zijn samengevat als tellingen of Kruistabulatiesof uit observaties van kwantitatieve gegevens Gegroepeerd binnen gegeven intervallen. Vaak zijn puur categorische gegevens samengevat in de vorm van een rampentabel. Met name bij het overwegen van gegevensanalyse, is het echter gebruikelijk om de term "categorische gegevens" te gebruiken om van toepassing te zijn op gegevenssets die, hoewel sommige categorische variabelen bevatten, ook niet-categorische variabelen kunnen bevatten.
Een categorische variabele die precies twee waarden kan aannemen, wordt een binaire variabele of een dichotome variabele; Een belangrijk speciaal geval is de Bernoulli -variabele. Categorische variabelen met meer dan twee mogelijke waarden worden aangeroepen polytome variabelen; Categorische variabelen worden vaak verondersteld polytomous te zijn, tenzij anders aangegeven. Discretisatie behandelt continue gegevens alsof het categorisch was. Dichotomisatie behandelt continue gegevens of polytome variabelen alsof het binaire variabelen zijn. Regressie analyse behandelt het lidmaatschap van de categorie vaak met een of meer kwantitatief Dummy -variabelen.
Voorbeelden van categorische variabelen
Voorbeelden van waarden die kunnen worden weergegeven in een categorische variabele:
- De rol van een zeszijdige dobbelsteen: mogelijke resultaten zijn 1,2,3,4,5 of 6.
- Demografische informatie van een populatie: geslacht, ziektestatus.
- De bloedtype van een persoon: A, B, AB of O.
- De politieke partij waar een kiezer op zou kunnen stemmen, e. g. Groen feestje, Christelijke democraat, Sociaal -democraat, enz.
- Het type rots: stolling, sedimentair of metamorf.
- De identiteit van een bepaald woord (bijvoorbeeld in een taalmodel): Een van de V Mogelijke keuzes, voor een vocabulaire van grootte V.
Notatie
Voor het gemak in statistische verwerking kunnen categorische variabelen numerieke indices worden toegewezen, b.v. 1 tot K voor een K-way categorische variabele (d.w.z. een variabele die precies kan uitdrukken K Mogelijke waarden). Over het algemeen zijn de cijfers echter willekeurig en hebben ze geen betekenis dan alleen het bieden van een handig label voor een bepaalde waarde. Met andere woorden, de waarden in een categorische variabele bestaan op een nominale schaal: ze vertegenwoordigen elk een logisch gescheiden concept, kan niet noodzakelijkerwijs zinvol zijn besteld, en kan anders niet worden gemanipuleerd zoals getallen zouden kunnen zijn. In plaats daarvan zijn geldige bewerkingen gelijkwaardigheid, Stel het lidmaatschap inen andere set-gerelateerde bewerkingen.
Als gevolg hiervan, de algemene drang van een reeks categorische variabelen wordt gegeven door zijn modus; noch de gemeen noch de mediaan- kan worden gedefinieerd. Als een voorbeeld, gegeven een reeks mensen, kunnen we de set categorische variabelen die overeenkomen met hun achternamen overwegen. We kunnen bewerkingen zoals gelijkwaardigheid overwegen (of twee mensen dezelfde achternaam hebben), het lidmaatschap instellen (of een persoon een naam in een bepaalde lijst heeft), tellen (hoeveel mensen hebben een bepaalde achternaam) of de modus vinden ( welke naam het vaakst voorkomt). We kunnen echter niet zinvol de "som" van Smith + Johnson berekenen of vragen of Smith "minder dan" of "groter is dan" Johnson. Als gevolg hiervan kunnen we niet zinvol vragen wat de "gemiddelde naam" (de gemiddelde) of de "Middle Most Name" (de mediaan) in een reeks namen bevindt.
Merk op dat dit het concept van alfabetische volgorde, dat is een eigenschap die niet inherent is aan de namen zelf, maar in de manier waarop we de labels construeren. Als we bijvoorbeeld de namen schrijven Cyrillisch En overweeg de cyrillische bestelling van letters, we kunnen een ander resultaat krijgen van het evalueren van "Smith <Johnson" dan als we de namen in de standaard schrijven Latijns alfabet; En als we de namen in schrijven Chinese letters, we kunnen "Smith <Johnson" helemaal niet zinvol evalueren, omdat er geen consistente ordening is gedefinieerd voor dergelijke karakters. Als we de namen echter beschouwen als geschreven, bijvoorbeeld in het Latijnse alfabet, en een bestelling definiëren die overeenkomt met standaard alfabetische volgorde, hebben we ze effectief omgezet in ordinale variabelen gedefinieerd op een ordinale schaal.
Aantal mogelijke waarden
Categorisch willekeurige variabelen worden normaal gesproken statistisch beschreven door een categorische verdeling, wat een willekeurig mogelijk maakt K-way categorische variabele die moet worden uitgedrukt met afzonderlijke waarschijnlijkheden die zijn gespecificeerd voor elk van de K Mogelijke resultaten. Dergelijke categorische variabelen met meerdere categorieën worden vaak geanalyseerd met behulp van een multinomiale verdeling, die de frequentie telt van elke mogelijke combinatie van aantallen gebeurtenissen van de verschillende categorieën. Regressie analyse over categorische resultaten worden doorgemaakt door multinomiale logistieke regressie, multinomiale probit of een gerelateerd type Discrete keuze model.
Categorische variabelen met slechts twee mogelijke resultaten (bijv. "Ja" versus "nee" of "succes" versus "falen") staan bekend als bekend als binaire variabelen (of Bernoulli -variabelen). Vanwege hun belang worden deze variabelen vaak beschouwd als een afzonderlijke categorie, met een afzonderlijke verdeling (de Bernoulli -verdeling) en afzonderlijke regressiemodellen (logistieke regressie, Probitregressie, enz.). Als gevolg hiervan is de term "categorische variabele" vaak gereserveerd voor gevallen met 3 of meer resultaten, soms een meerweg variabel in tegenstelling tot een binaire variabele.
Het is ook mogelijk om categorische variabelen te overwegen waarbij het aantal categorieën niet vooraf is vastgesteld. Als een voorbeeld, voor een categorische variabele die een bepaald woord beschrijft, weten we misschien niet van tevoren de grootte van de vocabulaire, en we willen de mogelijkheid toestaan om woorden tegen te komen die we nog niet hebben gezien. Standaard statistische modellen, zoals die met betrekking tot de categorische verdeling en multinomiale logistieke regressie, ga ervan uit dat het aantal categorieën van tevoren bekend is en het is lastig om het aantal categorieën te veranderen. In dergelijke gevallen moeten meer geavanceerde technieken worden gebruikt. Een voorbeeld is het Dirichlet -proces, die in het rijk van valt niet -parametrische statistieken. In een dergelijk geval wordt logisch verondersteld dat er een oneindig aantal categorieën bestaat, maar op een bepaald moment zijn de meeste (in feite bijna een eindig getal) nooit gezien. Alle formules worden geformuleerd in termen van het aantal dat tot nu toe wordt gezien in plaats van het (oneindige) totale aantal potentiële categorieën dat bestaat, en methoden worden gecreëerd voor incrementele update van statistische distributies, inclusief het toevoegen van "nieuwe" categorieën.
Categorische variabelen en regressie
Categorische variabelen vertegenwoordigen een kwalitatief methode voor het scoren van gegevens (d.w.z. vertegenwoordigt categorieën of groepslidmaatschap). Deze kunnen worden opgenomen als onafhankelijke variabelen in een regressie analyse of als afhankelijke variabelen in logistieke regressie of Probitregressie, maar moet worden bekeerd kwantitatieve gegevens Om de gegevens te kunnen analyseren. Men doet dit door het gebruik van coderingssystemen. Analyses worden zodanig uitgevoerd dat alleen g -1 (g het aantal groepen zijn) zijn gecodeerd. Dit minimaliseert de redundantie en is nog steeds de volledige gegevensset, omdat er geen aanvullende informatie zou worden verkregen door het totaal te coderen g Groepen: bijvoorbeeld bij het coderen van geslacht (waar g = 2: mannelijk en vrouwelijk), als we alleen vrouwen coderen, zouden iedereen die overblijft noodzakelijkerwijs mannen zijn. Over het algemeen is de groep waarvoor men niet codeert de groep van de minste rente.[2]
Er zijn drie hoofdcoderen die meestal worden gebruikt bij de analyse van categorische variabelen in regressie: dummycodering, effectencodering en contrastcodering. De regressievergelijking neemt de vorm aan van Y = bx + a, waar b is de helling en geeft het gewicht empirisch toegewezen aan een verklaring, X is de verklarende variabele, en a is de Y-onderscheppen, en deze waarden nemen verschillende betekenissen aan op basis van het gebruikte coderingssysteem. De keuze van het coderingssysteem heeft geen invloed op de F of R2 statistieken. Men kiest echter een coderingssysteem op basis van de vergelijking van interesse sinds de interpretatie van b waarden zullen variëren.[2]
Dummy codering
Dummy codering wordt gebruikt wanneer er een is controle of vergelijkingsgroep in gedachten. Men analyseert daarom de gegevens van één groep in relatie tot de vergelijkingsgroep: a vertegenwoordigt het gemiddelde van de controlegroep en b is het verschil tussen het gemiddelde van de experimentele groep en het gemiddelde van de controlegroep. Er wordt gesuggereerd dat aan drie criteria moet worden voldaan voor het specificeren van een geschikte controlegroep: de groep moet een gevestigde groep zijn (bijvoorbeeld geen "andere" categorie zou moeten zijn), er zou een logische reden moeten zijn om deze groep als vergelijking te selecteren ( De groep zal bijvoorbeeld naar verwachting het hoogst scoren op de afhankelijke variabele), en ten slotte moet de steekproefomvang van de groep inhoudelijk zijn en niet klein in vergelijking met de andere groepen.[3]
Bij dummycodering krijgt de referentiegroep een waarde van 0 toegewezen voor elke codevariabele, de interessegroep ter vergelijking met de referentiegroep krijgt een waarde van 1 toegewezen voor de opgegeven codevariabele, terwijl alle andere groepen 0 voor dat specifieke worden toegewezen codevariabele.[2]
De b Waarden moeten zodanig worden geïnterpreteerd dat de experimentele groep wordt vergeleken met de controlegroep. Daarom zou het opleveren van een negatieve B -waarde inhouden dat de experimentele groep minder heeft gescoord dan de controlegroep op de afhankelijke variabele. Om dit te illustreren, stel dat we optimisme meten bij verschillende nationaliteiten en we hebben besloten dat Fransen als een nuttige controle zouden dienen. Als we ze vergelijken met Italianen, en we observeren een negatief b Waarde, dit zou suggereren dat Italianen gemiddeld lagere optimisme -scores behalen.
De volgende tabel is een voorbeeld van dummycodering met Frans als de controlegroep en C1, C2 en C3 zijn respectievelijk de codes voor Italiaans, Duits, en Ander (noch Frans noch Italiaans noch Duits):
Nationaliteit | C1 | C2 | C3 |
Frans | 0 | 0 | 0 |
Italiaans | 1 | 0 | 0 |
Duits | 0 | 1 | 0 |
Ander | 0 | 0 | 1 |
Effecten coderen
In het effectencoderende systeem worden gegevens geanalyseerd door één groep te vergelijken met alle andere groepen. In tegenstelling tot dummycodering is er geen controlegroep. Integendeel, de vergelijking wordt gemaakt bij het gemiddelde van alle gecombineerde groepen (a is nu de groots gemeen). Daarom is men niet op zoek naar gegevens met betrekking tot een andere groep, maar eerder zoekt men gegevens in relatie tot het grote gemiddelde.[2]
Effecten coderen kan worden gewogen of ongewogen. Gewogen effecten coderen is eenvoudigweg het berekenen van een gewogen grootsgemiddelde, waardoor rekening wordt gehouden met de steekproefgrootte in elke variabele. Dit is het meest geschikt in situaties waarin de steekproef representatief is voor de betreffende bevolking. Ongewogen effecten coderen is het meest geschikt in situaties waarin verschillen in steekproefomvang het resultaat zijn van incidentele factoren. De interpretatie van b is anders voor elk: in ongewogen effecten coderen b is het verschil tussen het gemiddelde van de experimentele groep en het grote gemiddelde, terwijl het in de gewogen situatie het gemiddelde is van de experimentele groep minus het gewogen grote gemiddelde.[2]
In effecten coderen coderen we de interesse -groep met een 1, net zoals we zouden doen voor dummycodering. Het belangrijkste verschil is dat we −1 coderen voor de groep waarin we het minst geïnteresseerd zijn. Omdat we een g - 1 coderingsschema, het is in feite de −1 gecodeerde groep die geen gegevens zal produceren, vandaar het feit dat we het minst geïnteresseerd zijn in die groep. Een code van 0 wordt toegewezen aan alle andere groepen.
De b Waarden moeten zodanig worden geïnterpreteerd dat de experimentele groep wordt vergeleken met het gemiddelde van alle gecombineerde groepen (of gewogen grote gemiddelde in het geval van gewogen effectencodering). Daarom een negatief opleveren b Waarde zou de gecodeerde groep inhouden als minder gescoord dan het gemiddelde van alle groepen op de afhankelijke variabele. Met behulp van ons vorige voorbeeld van optimisme -scores tussen nationaliteiten, als de groep van interesse Italianen is, waarbij een negatief wordt geobserveerd b Waarde suggereert dat ze een lagere optimisme -score behalen.
De volgende tabel is een voorbeeld van effecten die coderen met Ander als de groep van de minste interesse.
Nationaliteit | C1 | C2 | C3 |
Frans | 0 | 0 | 1 |
Italiaans | 1 | 0 | 0 |
Duits | 0 | 1 | 0 |
Ander | −1 | −1 | −1 |
Contrastcodering
Met het contrastcodeersysteem kan een onderzoeker rechtstreeks specifieke vragen stellen. In plaats van dat het coderingssysteem de vergelijking dicteert die wordt gemaakt (d.w.z. tegen een controlegroep zoals bij dummycodering, of tegen alle groepen zoals bij effectencodering) kan men een unieke vergelijking voor de specifieke onderzoeksvraag ontwerpen. Deze op maat gemaakte hypothese is over het algemeen gebaseerd op eerdere theorie en/of onderzoek. De voorgestelde hypothesen zijn over het algemeen als volgt: ten eerste is er de centrale hypothese die een groot verschil tussen twee sets groepen postuleert; De tweede hypothese suggereert dat binnen elke set de verschillen tussen de groepen klein zijn. Door zijn a priori gerichte hypothesen, contrastcodering kan een toename van stroom van de statistische test in vergelijking met de minder gerichte eerdere coderingssystemen.[2]
Bepaalde verschillen ontstaan wanneer we onze a priori coëfficiënten tussen ANOVA en regressie. In tegenstelling tot wanneer gebruikt in ANOVA, waar het naar goeddunken van de onderzoeker is, of ze ook voor coëfficiëntwaarden kiezen die ook zijn orthogonaal of niet-orthogonaal, in regressie, is het essentieel dat de coëfficiëntwaarden die zijn toegewezen in contrastcodering orthogonaal zijn. Bovendien moeten in regressie coëfficiëntwaarden in fractionele of decimale vorm zijn. Ze kunnen geen intervalwaarden aannemen.
De constructie van contrastcodes wordt beperkt door drie regels:
- De som van de contrastcoëfficiënten per codevariabele moet gelijk zijn aan nul.
- Het verschil tussen de som van de positieve coëfficiënten en de som van de negatieve coëfficiënten moet gelijk zijn aan 1.
- Gecodeerde variabelen moeten orthogonaal zijn.[2]
Het overtreden van regel 2 produceert nauwkeurig R2 en F waarden, wat aangeeft dat we dezelfde conclusies zouden trekken over de vraag of er een significant verschil is; We kunnen echter niet langer de b waarden als een gemiddeld verschil.
Om de constructie van contrastcodes te illustreren, overweeg de volgende tabel. Coëfficiënten werden gekozen om onze a priori hypothesen te illustreren: Hypothese 1: Franse en Italiaanse personen zullen hoger scoren op optimisme dan Duitsers (Frans = +0,33, Italiaans = +0.33, Duits = −0.66). Dit wordt geïllustreerd door dezelfde coëfficiënt toe te wijzen aan de Franse en Italiaanse categorieën en een andere aan de Duitsers. De toegewezen tekenen geven de richting van de relatie aan (waardoor Duitsers een negatief teken zijn, een indicatie is van hun lagere veronderstelde optimisme -scores). Hypothese 2: Frans en Italianen zullen naar verwachting verschillen op hun optimisme -scores (Frans = +0,50, Italiaans = −0,50, Duits = 0). Hier demonstreert het toewijzen van een nulwaarde aan Duitsers hun niet-inclusie bij de analyse van deze hypothese. Nogmaals, de toegewezen tekenen zijn indicatief voor de voorgestelde relatie.
Nationaliteit | C1 | C2 |
Frans | +0.33 | +0,50 |
Italiaans | +0.33 | −0,50 |
Duits | −0.66 | 0 |
Onzincodering
Onzin codering treedt op wanneer men willekeurige waarden gebruikt in plaats van de aangewezen "0" S "1" S en "-1" S gezien in de vorige coderingssystemen. Hoewel het de juiste gemiddelde waarden voor de variabelen produceert, wordt het gebruik van onzincodering niet aanbevolen, omdat dit zal leiden tot niet -interpreteerbare statistische resultaten.[2]
Inbedden
Inbedden Zijn codes van categorische waarden in hoog-dimensionaal echt gewaardeerd (soms complex gewaardeerd) vectorruimtes, meestal op een zodanige manier dat ‘vergelijkbare’ waarden ‘vergelijkbare’ vectoren worden toegewezen, of met betrekking tot een ander soort criterium dat de vectoren nuttig maken voor de respectieve toepassing. Een gemeenschappelijk speciaal geval zijn Woordinbedding, waarbij de mogelijke waarden van de categorische variabele de woorden in een taal en woorden met vergelijkbare betekenissen moeten vergelijkbare vectoren worden toegewezen.
Interacties
Een interactie Kan ontstaan bij het overwegen van de relatie tussen drie of meer variabelen, en beschrijft een situatie waarin de gelijktijdige invloed van twee variabelen op een derde niet additief is. Interacties kunnen op twee manieren met categorische variabelen ontstaan: categorisch door categorische variabele interacties, of categorisch door continue variabele interacties.
Categorisch door categorische variabele interacties
Dit type interactie ontstaat wanneer we twee categorische variabelen hebben. Om dit type interactie te onderzoeken, zou men coderen met behulp van het systeem dat de hypothese van de onderzoeker het meest passend aanpakt. Het product van de codes levert de interactie op. Men kan dan de b waarde en bepaal of de interactie significant is.[2]
Categorisch door continue variabele interacties
Eenvoudige hellingenanalyse komt vaak voor Post hoc test Gebruikt bij regressie die vergelijkbaar is met de eenvoudige effectenanalyse in ANOVA, gebruikt om interacties te analyseren. In deze test onderzoeken we de eenvoudige hellingen van de ene onafhankelijke variabele op specifieke waarden van de andere onafhankelijke variabele. Een dergelijke test is niet beperkt tot gebruik met continue variabelen, maar kan ook worden gebruikt wanneer de onafhankelijke variabele categorisch is. We kunnen niet eenvoudig waarden kiezen om de interactie te onderzoeken zoals we zouden doen in het continue variabele geval vanwege de nominale aard van de gegevens (d.w.z. in het continue geval zou men de gegevens kunnen analyseren op hoge, matige en lage niveaus die 1 standaardafwijking toewijzen boven het gemiddelde, bij het gemiddelde, en bij één standaardafwijking onder respectievelijk het gemiddelde). In ons categorische geval zouden we een eenvoudige regressievergelijking gebruiken voor elke groep om de eenvoudige hellingen te onderzoeken. Het is gebruikelijk om te oefenen standaardiseren of centrale variabelen om de gegevens meer interpreteerbaar te maken in eenvoudige hellingenanalyse; Categorische variabelen mogen echter nooit gestandaardiseerd of gecentreerd worden. Deze test kan worden gebruikt met alle coderingssystemen.[2]
Zie ook
- Meetniveau
- Lijst met analyses van categorische gegevens
- Kwalitatieve data
- Statistisch gegevenstype
- Een hete codering
Referenties
- ^ Yates, Daniel S.; Moore, David S.; Starnes, Daren S. (2003). De praktijk van statistieken (2e ed.). New York: Freeman. ISBN 978-0-7167-4773-4. Gearchiveerd van het origineel op 2005-02-09. Opgehaald 2014-09-28.
- ^ a b c d e f g h i j Cohen, J.; Cohen, P.; West, S. G.; Aiken, L. S. (2003). Toegepaste meervoudige regressie/correlatieanalyse voor de gedragswetenschappen (3e ed.).New York, NY: Routledge.
- ^ Hardy, Melissa (1993). Regressie met dummy -variabelen. Newbury Park, CA: Sage.
Verder lezen
- Andersen, Erling B. 1980. Discrete statistische modellen met sociale wetenschappentoepassingen. North Holland, 1980.
- Bishop, Y. M. M.; Fienberg, S. E.; Holland, P. W. (1975). Discrete multivariate analyse: theorie en praktijk. MIT Press. ISBN 978-0-262-02113-5. DHR 0381130.
- Christensen, Ronald (1997). Log-lineaire modellen en logistieke regressie. Springer -teksten in statistieken (tweede ed.). New York: Springer-Verlag. pp. XVI+483. ISBN 0-387-98247-7. DHR 1633357.
- Vriendelijk, Michael. Visualiseren van categorische gegevens. SAS Institute, 2000.
- Lauritzen, Steffen L. (2002) [1979]. Lezingen op rampentafels (PDF) (Bijgewerkte elektronische versie van de (University of Aalborg) 3e (1989) ed.).
- NIST/SEMATEK (2008) Handboek van statistische methoden