Spreidingsplot

Spreidingsplot
Scatter diagram for quality characteristic XXX.svg
Een van de Zeven basishulpmiddelen van kwaliteit
Voor het eerst beschreven door John Herschel[1]
Doel Om het type relatie (indien aanwezig) tussen twee kwantitatieve variabelen te identificeren
Wachttijd tussen uitbarstingen en de duur van de uitbarsting voor de Oude trouwe geiser in Yellowstone National Park, Wyoming, VERENIGDE STATEN VAN AMERIKA. Deze grafiek suggereert dat er over het algemeen twee soorten uitbarstingen zijn: korte-wacht-short-duration en lange-wacht-lange-duur.
Een 3D spreidingsplot maakt de visualisatie van multivariate gegevens mogelijk. Deze spreidingsplot neemt meerdere scalaire variabelen en gebruikt ze voor verschillende assen in faseruimte. De verschillende variabelen worden gecombineerd om coördinaten in de faseruimte te vormen en ze worden weergegeven met glyphs en gekleurd met behulp van een andere scalaire variabele.[2]

A spreidingsplot (ook wel een spreidingsplot, spreidingsgrafiek, spreadgrafiek, spreiding, of spreidingsdiagram)[3] is een soort verhaallijn of wiskundig diagram gebruik makend van Cartesiaanse coördinaten om waarden weer te geven voor typisch twee variabelen Voor een set gegevens. Als de punten worden gecodeerd (kleur/vorm/grootte), kan een extra variabele worden weergegeven. De gegevens worden weergegeven als een verzameling punten, elk met de waarde van één variabele die de positie op de horizontale as bepaalt en de waarde van de andere variabele die de positie op de verticale as.[4]

Overzicht

Een spreidingsplot kan worden gebruikt wanneer de ene continue variabele onder de controle van de experimentator staat en de andere afhangt of wanneer beide continue variabelen onafhankelijk zijn. Als een parameter bestaat dat systematisch wordt verhoogd en/of verlaagd door de andere, het wordt de Controleparameter of onafhankelijke variabele en wordt gewoonlijk uitgezet langs de horizontale as. De gemeten of afhankelijke variabele is gewoonlijk uitgezet langs de verticale as. Als er geen afhankelijke variabele bestaat, kan beide typen variabele op beide as worden uitgezet en zal een spreidingsplot alleen de mate van illustreren correlatie (niet oorzakelijk verband) tussen twee variabelen.

Een spreidingsplot kan verschillende soorten correlaties tussen variabelen met een bepaald Betrouwbaarheidsinterval. Gewicht en lengte zouden bijvoorbeeld op de y-Axis en hoogte zouden op de x-as. Correlaties kunnen positief zijn (stijgend), negatief (vallen) of nul (niet -gecorreleerd). Als het patroon van de stippen van linksonder naar rechtsboven afloopt, duidt dit op een positief correlatie tussen de variabelen die worden bestudeerd. Als het patroon van stippen van linksboven naar rechtsonder helpt, duidt dit op een negatieve correlatie. Een lijn van het beste bij (Als alternatief 'trendline' genoemd) kan worden getrokken om de relatie tussen de variabelen te bestuderen. Een vergelijking voor de correlatie tussen de variabelen kan worden bepaald door vastgestelde best passende procedures. Voor een lineaire correlatie staat de best passende procedure bekend als lineaire regressie en zal gegarandeerd in een eindige tijd een juiste oplossing genereren. Geen enkele universele best passende procedure zal gegarandeerd een juiste oplossing genereren voor willekeurige relaties. Een spreidingsplot is ook erg handig als we willen zien hoe twee vergelijkbare gegevenssets overeenkomen om niet -lineaire relaties tussen variabelen te tonen. De mogelijkheid om dit te doen kan worden verbeterd door een gladde lijn toe te voegen, zoals LÖSS.[5] Bovendien, als de gegevens worden weergegeven door een mengselmodel van eenvoudige relaties, zullen deze relaties visueel zichtbaar zijn als bovenopgestelde patronen.

Het spreidingsdiagram is een van de Zeven basistools van kwaliteitscontrole.[6]

Scatter -kaarten kunnen worden gebouwd in de vorm van bubbel, marker, of/en lijngrafieken.[7]

Voorbeeld

Om bijvoorbeeld een verband te tonen tussen de longcapaciteit van een persoon, en hoe lang die persoon zijn adem zou kunnen inhouden, zou een onderzoeker een groep mensen kiezen om te studeren, dan de longcapaciteit van elke long (eerste variabele) en hoe lang die persoon kon houd hun adem in (tweede variabele). De onderzoeker zou vervolgens de gegevens in een spreidingsplot uitzetten, "longcapaciteit" toewijzen aan de horizontale as en "tijdsademhaling" aan de verticale as.

Een persoon met een longcapaciteit van 400klet die hun adem inhielden 21.7 s zou worden weergegeven door een enkele stip op de spreidingsplot op het punt (400, 21.7) in de Cartesiaanse coördinaten. De spreidingsplot van alle mensen in de studie zou de onderzoeker in staat stellen een visuele vergelijking van de twee variabelen in de gegevensset te verkrijgen en zal helpen om te bepalen wat voor soort relatie er tussen de twee variabelen kan zijn.

Scatter Plot Matrices

Voor een set gegevensvariabelen (dimensies) x1, X2, ... , Xk, De spreidingsmatrix toont alle paarsgewijze spreidingsplots van de variabelen op een enkel weergave met meerdere spreidingsvermogen in een matrixindeling. Voor k variabelen, de spreidingsmatrix zal bevatten k Rijen en k kolommen. Een plot op de kruising van de rij en jDe kolom is een grafiek van variabelen xi versus xj.[8] Dit betekent dat elke rij en kolom een ​​dimensie zijn en elke cel een spreidingsdiagram van twee dimensies plot.

A Gegeneraliseerde spreidingsmatrix[9] Biedt een reeks displays van gepaarde combinaties van categorische en kwantitatieve variabelen. EEN mozaïekplot, fluctuatieschema of gefacetteerd staafdiagram Kan worden gebruikt om twee categorische variabelen weer te geven. Andere plots worden gebruikt voor één categorische en één kwantitatieve variabelen.

Visualisatie van 3D -gegevens samen met de correspondent spreidingsmatrix

Zie ook

Referenties

  1. ^ Vriendelijk, Michael; Denis, Dan (2005). "De vroege oorsprong en de ontwikkeling van de spreidingsvermogen". Journal of the History of the Behavioral Sciences. 41 (2): 103–130. doen:10.1002/jhbs.20078. Pmid 15812820.
  2. ^ Visualisaties die zijn gemaakt met bezoek op wci.llnl.gov. Laatst bijgewerkt: 8 november 2007.
  3. ^ Jarrell, Stephen B. (1994). Basisstatistieken (Speciale pre-publicatie ed.). Dubuque, Iowa: Wm. C. Brown Pub. p. 492. ISBN 978-0-697-21595-6. Wanneer we zoeken naar een relatie tussen twee kwantitatieve variabelen, wordt een standaardgrafiek van de beschikbare gegevensparen (x, y) genoemd, een spreidingsdiagram, helpt vaak ...
  4. ^ UTTS, Jessica M. Statistieken bekijken 3e editie, Thomson Brooks/Cole, 2005, pp 166-167. ISBN0-534-39402-7
  5. ^ Cleveland, William (1993). Gegevens visualiseren. Murray Hill, N.J. Summit, N.J: AT&T Bell Laboratories Gepubliceerd door Hobart Press. ISBN 978-0963488404.
  6. ^ Nancy R. Tague (2004). "Zeven tools voor basiskwaliteit". De toolbox van de kwaliteit. Milwaukee, Wisconsin: American Society for Quality. p. 15. Opgehaald 2010-02-05.
  7. ^ "Scatter Chart - Anychart JavaScript Chart -documentatie". Anychart. Gearchiveerd van het origineel Op 1 februari 2016. Opgehaald 3 februari 2016.
  8. ^ Scatter Plot Matrix op itl.nist.gov.
  9. ^ Emerson, John W.; Green, Walton A.; Schoerke, Barret; Crowley, Jason (2013). "De gegeneraliseerde paren plot". Journal of Computational and Graphical Statistics. 22 (1): 79–91. doen:10.1080/10618600.2012.694762. S2CID 28344569.

Externe links