Rampentabel
In statistieken, a rampentabel (Ook bekend als een Kruistabulatie of crosstab) is een soort tafel in een Matrix formaat dat de (multivariate) weergeeft frequentieverdeling van de variabelen. Ze worden sterk gebruikt in onderzoeksonderzoek, business intelligence, engineering en wetenschappelijk onderzoek. Ze bieden een basisbeeld van de samenhang tussen twee variabelen en kunnen helpen bij het vinden van interacties daartussen. De voorwaarde rampentabel werd voor het eerst gebruikt door Karl Pearson In "over de contingentietheorie en de relatie ervan tot associatie en normale correlatie",[1] deel van de Drapers 'Company Onderzoek memoires biometrische serie i Gepubliceerd in 1904.
Een cruciaal probleem van multivariate statistieken vindt het vinden van de (directe) afhankelijkheidsstructuur die ten grondslag ligt aan de variabelen in hoogdimensionale contingentietabellen. Als een van de Voorwaardelijke onafhankelijkheid worden onthuld, dan kan zelfs de opslag van de gegevens op een slimmere manier worden gedaan (zie Lauritzen (2002)). Om dit te doen kan men gebruiken informatietheorie Concepten, die alleen de informatie verkrijgen door de waarschijnlijkheidsverdeling, die gemakkelijk uit de onvoorziene tabel kunnen worden uitgedrukt door de relatieve frequenties.
A scharniertafel is een manier om contingentietabellen te maken met behulp van spreadsheet -software.
Voorbeeld
Stel dat er twee variabelen zijn, seks (mannelijk of vrouwelijk) en links-of rechtshandig zijn (rechts- of linkshandig). Stel verder dat 100 individuen willekeurig worden bemonsterd uit een zeer grote populatie als onderdeel van een studie van sekseverschillen in handigheid. Er kan een onvoorziene tabel worden gemaakt om het aantal personen die rechtshandig en linkshandig zijn, vrouwelijk rechtshandig en linkshandig te laten zien. Een dergelijke onvoorziene tabel wordt hieronder weergegeven.
Overhandig- ness Seks | Rechtshandig | Linkshandig | Totaal |
---|---|---|---|
Mannelijk | 43 | 9 | 52 |
Vrouw | 44 | 4 | 48 |
Totaal | 87 | 13 | 100 |
Het aantal mannen, vrouwen en linkshandige individuen worden gebeld marginale totalen. Het eindtotaal (het totale aantal personen dat in de onvoorziene tabel wordt vertegenwoordigd) is het nummer in de rechteronderhoek.
De tabel stelt gebruikers in staat om in één oogopslag te zien dat het aandeel van mannen die rechtshandig zijn ongeveer hetzelfde is als het aandeel vrouwen dat rechtshandig is, hoewel de verhoudingen niet identiek zijn. De sterkte van de associatie kan worden gemeten door de odds ratio, en de populatie odds ratio geschat door de monster odds ratio. De betekenis van het verschil tussen de twee verhoudingen kan worden beoordeeld met verschillende statistische tests, waaronder Pearson's chi-kwadraat test, de G-testen, Fisher's exacte test, Boschloo's test, en Barnard's test, op voorwaarde dat de vermeldingen in de tabel individuen willekeurig worden bemonsterd uit de populatie over welke conclusies moeten worden getrokken. Als de verhoudingen van individuen in de verschillende kolommen aanzienlijk variëren tussen rijen (of vice versa), wordt gezegd dat er een onvoorspelbaarheid tussen de twee variabelen. Met andere woorden, de twee variabelen zijn niet onafhankelijk. Als er geen contingentie is, wordt gezegd dat de twee variabelen dat zijn onafhankelijk.
Het bovenstaande voorbeeld is het eenvoudigste soort contingentietabel, een tabel waarin elke variabele slechts twee niveaus heeft; Dit wordt een 2 × 2 contingentietabel genoemd. In principe kan een willekeurig aantal rijen en kolommen worden gebruikt. Er kunnen ook meer dan twee variabelen zijn, maar de bestendigheidstabellen van hogere orde zijn moeilijk om visueel te vertegenwoordigen. Het verband tussen ordinale variabelen, of tussen ordinale en categorische variabelen, kunnen ook worden weergegeven in contingentietabellen, hoewel een dergelijke praktijk zeldzaam is. Zie voor meer informatie over het gebruik van een contingentietabel voor de relatie tussen twee ordinale variabelen Goodman en Kruskal's Gamma.
Standaardinhoud van een onvoorziene tabel
- Meerdere kolommen (historisch gezien zijn ze ontworpen om alle witte ruimte van een gedrukte pagina te gebruiken). Waar elke rij verwijst naar een specifieke subgroep in de populatie (in dit geval mannen of vrouwen), worden de kolommen soms aangeduid als Bannerpunten of bezuiniging (en de rijen worden soms aangeduid als stomp).
- Significantietests. Meestal ook kolomvergelijkingen, die testen op verschillen tussen kolommen en deze resultaten weergeven met behulp van letters, of, celvergelijkingen, die kleur of pijlen gebruiken om een cel te identificeren in een tabel die op een of andere manier opvalt.
- Netten of netten die subtotalen zijn.
- Een of meer van: percentages, rijpercentages, kolompercentages, indexen of gemiddelden.
- Ongewogen steekproefgroottes (tellingen).
Maatregelen van associatie
De mate van associatie tussen de twee variabelen kan worden beoordeeld door een aantal coëfficiënten. De volgende paragrafen beschrijven er een paar. Zie de belangrijkste artikelen die zijn gekoppeld onder elke subsectie rubriek voor een meer volledige bespreking van hun gebruik.
Odds ratio
De eenvoudigste maatstaf voor een 2 × 2 contingentietabel is de odds ratio. Gegeven twee gebeurtenissen, A en B, wordt de odds -ratio gedefinieerd als de verhouding van de kansen van A in aanwezigheid van B en de kansen van A in afwezigheid van B, of gelijkwaardig (als gevolg van symmetrie), de verhouding van de odds van B in aanwezigheid van A en de kansen van B in afwezigheid van A. Twee gebeurtenissen zijn onafhankelijk als en alleen als de odds ratio 1 is; Als de odds -ratio groter is dan 1, zijn de gebeurtenissen positief geassocieerd; Als de odds -ratio minder is dan 1, zijn de gebeurtenissen negatief geassocieerd.
De odds ratio heeft een eenvoudige uitdrukking in termen van waarschijnlijkheden; Gezien de gezamenlijke waarschijnlijkheidsverdeling:
De odds ratio is:
PHI -coëfficiënt
Een eenvoudige maatregel, alleen van toepassing op het geval van 2 × 2 contingentietabellen, is de PHI -coëfficiënt (φ) gedefinieerd door
waar χ2 wordt berekend zoals in Pearson's chi-kwadraat test, en N is het eindtotaal van observaties. φ varieert van 0 (overeenkomend met geen verband tussen de variabelen) tot 1 of −1 (volledige associatie of volledige omgekeerde associatie), op voorwaarde dat het is gebaseerd op frequentiegegevens die zijn weergegeven in 2 × 2 -tabellen. Dan is het teken gelijk aan het teken van het product van de Hoofddiagonaal Elementen van de tafel minus het product van de off -diagonale elementen. φ neemt de minimale waarde −1.0 aan of de maximale waarde van +1.0 als en alleen als Elke marginale verhouding is gelijk aan 0,5 (en twee diagonale cellen zijn leeg).[2]
Cramér's V en de onvoorziene coëfficiënt C
Twee alternatieven zijn de onvoorziene coëfficiënt C, en Cramér's V.
De formules voor de C en V Coëfficiënten zijn:
- en
k Het aantal rijen of het aantal kolommen zijn, afhankelijk van welke minder is.
C Lijdt aan het nadeel dat het geen maximum van 1,0 bereikt, met name de hoogste die het kan bereiken in een 2 × 2 -tabel is 0,707. Het kan waarden dichter bij 1,0 in contingentietabellen met meer categorieën bereiken; Het kan bijvoorbeeld maximaal 0,870 bereiken in een 4 × 4 -tabel. Het moet daarom niet worden gebruikt om associaties in verschillende tabellen te vergelijken als ze verschillende aantallen categorieën hebben.[3]
C kan worden aangepast, zodat het maximaal 1,0 bereikt wanneer er een volledige associatie is in een tabel met een willekeurig aantal rijen en kolommen door te delen C door waar k is het aantal rijen of kolommen, wanneer de tabel vierkant is of door waar r is het aantal rijen en c is het aantal kolommen.[4]
Tetrachorische correlatiecoëfficiënt
Een andere keuze is de tetrachorische correlatiecoëfficiënt Maar het is alleen van toepassing op 2 × 2 -tafels. Polychorische correlatie is een uitbreiding van de tetrachorische correlatie met tabellen met variabelen met meer dan twee niveaus.
Tetrachorische correlatie veronderstelt dat de variabele die ten grondslag ligt dichotoom maatregel wordt normaal verdeeld.[5] De coëfficiënt biedt "een handige maat voor [de Pearson-product-moment] correlatie wanneer afgestudeerde metingen zijn gereduceerd tot twee categorieën."[6]
De tetrachorische correlatiecoëfficiënt moet niet worden verward met de Pearson correlatiecoëfficiënt Berekend door, bijvoorbeeld, waarden 0,0 en 1,0 toe te wijzen om de twee niveaus van elke variabele weer te geven (die wiskundig equivalent is aan de φ -coëfficiënt).
Lambda -coëfficiënt
De lambda -coëfficiënt is een maat voor de sterkte van associatie van de kruistabulaties wanneer de variabelen worden gemeten bij de nominaal niveau. Waarden variëren van 0,0 (geen associatie) tot 1,0 (de maximaal mogelijke associatie).
Asymmetrische lambda meet de procentuele verbetering bij het voorspellen van de afhankelijke variabele. Symmetrische lambda meet het procentuele verbetering wanneer voorspelling in beide richtingen wordt gedaan.
Onzekerheidscoëfficiënt
De onzekerheidscoëfficiënt, of Theil's U, is een andere maat voor variabelen op nominaal niveau. De waarden ervan variëren van −1,0 (100% negatieve associatie of perfecte inversie) tot +1,0 (100% positieve associatie of perfecte overeenkomst). Een waarde van 0,0 geeft de afwezigheid van associatie aan.
Ook is de onzekerheidscoëfficiënt voorwaardelijk en een asymmetrische maatstaf voor associatie, die kan worden uitgedrukt als
- .
Deze asymmetrische eigenschap kan leiden tot inzichten niet zo duidelijk in symmetrische associatiemaatregelen.[7]
Anderen
- Gammastest: Geen aanpassing voor de tabelgrootte of banden.
- Kendall's Tau: Aanpassing voor banden.
Zie ook
- Verwarringmatrix
- Scharniertafel, in spreadsheet-software, kruistlaplateert de bemonsteringsgegevens met tellingen (contingentietabel) en/of bedragen.
- TPL -tafels is een hulpmiddel voor het genereren en afdrukken van crosstabs.
- De iteratieve proportionele montage Procedure manipuleert in wezen contingentietabellen om gewijzigde gezamenlijke distributies of marginale bedragen te matchen.
- De multivariate statistieken in speciale multivariate discrete waarschijnlijkheidsverdelingen. Sommige procedures die in deze context worden gebruikt, kunnen worden gebruikt bij het omgaan met onvoorziene tabellen.
- OLAP -kubus, een moderne multidimensionale computervorm van contingentietabellen
- Paneel data, multidimensionale gegevens in de loop van de tijd
Referenties
- ^ Karl Pearson, F.R.S. (1904). Wiskundige bijdragen aan de evolutietheorie. Dulau en Co.
- ^ Ferguson, G. A. (1966). Statistische analyse in psychologie en onderwijs. New York: McGraw - Hill.
- ^ Smith, S. C., & Albaum, G. S. (2004) Fundamentals of Marketing Research. Salie: Thousand Oaks, CA. p. 631
- ^ Blaikie, N. (2003) Kwantitatieve gegevens analyseren. Salie: Thousand Oaks, CA. p. 100
- ^ Ferguson.[Volledig citaat nodig]
- ^ Ferguson, 1966, p. 244
- ^ "De zoektocht naar categorische correlatie". 26 december 2019.
Verder lezen
- Andersen, Erling B. 1980. Discrete statistische modellen met sociale wetenschappentoepassingen. North Holland, 1980.
- Bishop, Y. M. M.; Fienberg, S. E.; Holland, P. W. (1975). Discrete multivariate analyse: theorie en praktijk. MIT Press. ISBN 978-0-262-02113-5. DHR 0381130.
- Christensen, Ronald (1997). Log-lineaire modellen en logistieke regressie. Springer -teksten in statistieken (tweede ed.). New York: Springer-Verlag. pp. XVI+483. ISBN 0-387-98247-7. DHR 1633357.
- Lauritzen, Steffen L. (1979). Lezingen over onvoorziene tabellen (Aalborg University) (PDF) (4e editie (eerste elektronische editie), 2002 ed.).
- Gokhale, D. V.; Kullback, Solomon (1978). De informatie in rampentafels. Marcel Dekker. ISBN 0-824-76698-9.
Externe links
- Online analyse van contingentietabellen: rekenmachine met voorbeelden
- Interactieve kruistabulatie, chi-kwadraat onafhankelijke test en tutorial
- Fisher en Chi-kwadraat rekenmachine van 2 × 2 contingentietabel
- Meer correlatiecoëfficiënten
- Nominale associatie: PHI, contingentiecoëfficiënt, Tschuprow's T, Cramer's V, Lambda, onzekerheidscoëfficiënt, 24 maart 2008, G. David Garson, North Carolina State University
- Custominsight.com Cross Tabulation
- Het PowerMutt -project: iv.Categorische gegevens weergeven
- Statistieken: Steves proberen de odds ratio van de statistieken te onderwijzen versus relatief risico (9 januari 2001)
- EPI Info Community Health Assessment Tutorial Les 5 Analyse: Statistieken maken