Clusteranalyse

Het resultaat van een clusteranalyse getoond als de kleuring van de vierkanten in drie clusters.

Clusteranalyse of clustering is de taak om een ​​reeks objecten op een zodanige manier te groeperen dat objecten in dezelfde groep ( TROS) zijn meer vergelijkbaar (in zekere zin) met elkaar dan met die in andere groepen (clusters). Het is een hoofdtaak van verkennende gegevensanalyse, en een gemeenschappelijke techniek voor statistisch gegevensanalyse, gebruikt op veel gebieden, waaronder patroonherkenning, foto analyse, Informatie ophalen, bio -informatica, data compressie, computer beelden en Machine Learning.

Clusteranalyse zelf is niet een specifiek algoritme, maar de algemene taak die moet worden opgelost. Het kan worden bereikt door verschillende algoritmen die aanzienlijk verschillen in hun begrip van wat een cluster is en hoe ze efficiënt kunnen vinden. Populaire noties van clusters omvatten groepen met kleine afstanden tussen clusterleden, dichte gebieden van de gegevensruimte, intervallen of bijzondere statistische verdelingen. Clustering kan daarom worden geformuleerd als een multi-objectieve optimalisatie probleem. Het juiste clusteralgoritme en parameterinstellingen (inclusief parameters zoals de afstandsfunctie te gebruiken, een dichtheidsdrempel of het aantal verwachte clusters) zijn afhankelijk van het individu gegevensset en het gebruik van de resultaten. Clusteranalyse als zodanig is geen automatische taak, maar een iteratief proces van kennisontdekking of interactieve multi-objectieve optimalisatie waarbij proef en falen betrokken is. Het is vaak nodig om te wijzigen Gegevens voorbewerking en modelparameters totdat het resultaat de gewenste eigenschappen bereikt.

Naast de term clustering, er zijn een aantal termen met vergelijkbare betekenissen, waaronder automatisch classificatie, Numerieke taxonomie, botryologie (van het Griekse βότρυς "druiven"), typologische analyse, en gemeenschapsdetectie. De subtiele verschillen zijn vaak in het gebruik van de resultaten: terwijl in datamining, de resulterende groepen zijn van belang, is in automatische classificatie de resulterende discriminerende macht interessant.

Clusteranalyse werd in 1932 in de antropologie ontstaan ​​door chauffeur en Kroeber[1] en geïntroduceerd in de psychologie door Joseph Zubin in 1938[2] en Robert Tryon in 1939[3] en beroemd gebruikt door Cattell Begin in 1943[4] voor de classificatie van de eigenschapstheorie in Persoonlijkheidspsychologie.

Definitie

Het idee van een "cluster" kan niet precies worden gedefinieerd, wat een van de redenen is waarom er zoveel clusteringsalgoritmen zijn.[5] Er is een gemeenschappelijke noemer: een groep gegevensobjecten. Verschillende onderzoekers gebruiken echter verschillende clustermodellen en voor elk van deze clustermodellen kunnen opnieuw verschillende algoritmen worden gegeven. Het idee van een cluster, zoals gevonden door verschillende algoritmen, varieert aanzienlijk in zijn eigenschappen. Inzicht in deze "clustermodellen" is de sleutel tot het begrijpen van de verschillen tussen de verschillende algoritmen. Typische clustermodellen omvatten:

  • Connectiviteitsmodels: bijvoorbeeld, hiërarchische clustering Bouwt modellen op basis van connectiviteit op afstand.
  • Centroid -models: bijvoorbeeld de K-middelenalgoritme vertegenwoordigt elk cluster door een enkele gemiddelde vector.
  • Distributiemodels: Clusters worden gemodelleerd met behulp van statistische distributies, zoals multivariate normale distributies gebruikt door de verwachting-maximalisatie-algoritme.
  • Dichtheidsmodels: bijvoorbeeld, DBSCAN en OPTIEK Definieert clusters als verbonden dichte gebieden in de gegevensruimte.
  • Subruimtemodels: in biclustering (Ook bekend als co-clustering of twee-modus-clustering), worden clusters gemodelleerd met zowel clusterleden als relevante attributen.
  • Groepsmodels: Sommige algoritmen bieden geen verfijnd model voor hun resultaten en bieden alleen de groeperingsinformatie.
  • Op grafiek gebaseerd models: a kliek, dat wil zeggen een subset van knooppunten in een grafiek zodanig dat elke twee knooppunten in de subset zijn verbonden door een rand kan worden beschouwd als een prototypische vorm van cluster. Relaxaties van de volledige connectiviteitsvereiste (een fractie van de randen kan ontbreken) staan ​​bekend als quasi-cliques, zoals in de HCS -clusteringalgoritme.
  • Gesigneerde grafiekmodellen: Elk pad in een ondertekende grafiek heeft een teken van het product van de borden aan de randen. Onder de veronderstellingen van evenwichtstheorie, randen kunnen van teken veranderen en resulteren in een gesplitste grafiek. Het zwakkere "clustability axioma" (nee fiets heeft precies één negatieve rand) levert resultaten op met meer dan twee clusters, of subgraaf met alleen positieve randen.[6]
  • Neuraal models: de meest bekende ongecontroleerd neuraal netwerk is de Zelforganiserende kaart en deze modellen kunnen meestal worden gekenmerkt als vergelijkbaar met een of meer van de bovenstaande modellen, en inclusief subruimte -modellen wanneer neurale netwerken een vorm van implementeren Hoofdcomponentanalyse of Onafhankelijke componentanalyse.

Een "clustering" is in wezen een set van dergelijke clusters, die meestal alle objecten in de gegevensset bevatten. Bovendien kan het de relatie van de clusters met elkaar specificeren, bijvoorbeeld een hiërarchie van clusters die in elkaar zijn ingebed. Clusters kunnen grofweg worden onderscheiden als:

  • Hard clustering: elk object hoort bij een cluster of niet
  • Zachte clustering (ook: fuzzy clustering): Elk object hoort tot op zekere hoogte tot elk cluster (bijvoorbeeld een kans om tot het cluster te horen)

Er zijn ook fijnere onderscheidingen mogelijk, bijvoorbeeld:

  • Strikte partitioneringsclustering: elk object hoort bij precies één cluster
  • Strikte partitioneringsclustering met uitbijters: objecten kunnen ook tot geen cluster behoren en worden overwogen uitbijters
  • Overlappende clustering (ook: alternatieve clustering, multi-view clustering): Objecten kunnen tot meer dan één cluster behoren; meestal met harde clusters
  • Hiërarchische clustering: objecten die tot een kindcluster behoren, behoren ook tot het oudercluster
  • Subruimte clustering: Terwijl een overlappende clustering, binnen een uniek gedefinieerde subruimte, clusters niet naar verwachting overlappen

Algoritmen

Zoals hierboven vermeld, kunnen clusteringalgoritmen worden gecategoriseerd op basis van hun clustermodel. Het volgende overzicht geeft alleen een lijst van de meest prominente voorbeelden van clusteringalgoritmen, omdat er mogelijk meer dan 100 gepubliceerde clusteringalgoritmen zijn. Niet allemaal bieden modellen voor hun clusters en kunnen dus niet gemakkelijk worden gecategoriseerd. Een overzicht van algoritmen uitgelegd in Wikipedia is te vinden in de Lijst met statistiekenalgoritmen.

Er is geen objectief "correct" clusteringsalgoritme, maar zoals het werd opgemerkt, "is clustering in het oog van de toeschouwer."[5] Het meest geschikte clusteralgoritme voor een bepaald probleem moet vaak experimenteel worden gekozen, tenzij er een wiskundige reden is om het ene clustermodel te verkiezen boven het andere. Een algoritme dat is ontworpen voor één soort model zal over het algemeen falen op een gegevensset die een radicaal ander soort model bevat.[5] K-middelen kunnen bijvoorbeeld niet-convexe clusters niet vinden.[5]

Op connectiviteit gebaseerde clustering (hiërarchische clustering)

Op connectiviteit gebaseerde clustering, ook bekend als hiërarchische clustering, is gebaseerd op het kernidee dat objecten meer gerelateerd zijn aan objecten in de buurt dan aan objecten verder weg. Deze algoritmen verbinden "objecten" om "clusters" te vormen op basis van hun afstand. Een cluster kan grotendeels worden beschreven door de maximale afstand die nodig is om delen van het cluster te verbinden. Op verschillende afstanden zullen zich verschillende clusters vormen, die kunnen worden weergegeven met behulp van een dendrogram, dat verklaart waar de gemeenschappelijke naam "hiërarchische clustering"Komt uit: deze algoritmen bieden geen enkele verdeling van de gegevensset, maar bieden in plaats daarvan een uitgebreide hiërarchie van clusters die met elkaar op bepaalde afstanden samengaan. In een dendrogram markeert de y-as de afstand waarop de clusters samenvoegen waarmee de clusters fuseren , terwijl de objecten langs de x-as worden geplaatst zodat de clusters niet mengen.

Op connectiviteit gebaseerde clustering is een hele familie van methoden die verschillen in de manier waarop afstanden worden berekend. Afgezien van de gebruikelijke keuze van Afstandsfuncties, de gebruiker moet ook beslissen over het koppelingscriterium (omdat een cluster uit meerdere objecten bestaat, zijn er meerdere kandidaten om de afstand te berekenen) om te gebruiken. Populaire keuzes staan ​​bekend als single-linkage clustering (het minimum aan objectafstanden), Volledige koppelingsclustering (het maximum van objectafstanden), en UPGMA of WPGMA ("Ongewogen of gewogen paargroepmethode met rekenkundig gemiddelde", ook bekend als gemiddelde koppelingsclustering). Bovendien kan hiërarchische clustering agglomeratief zijn (beginnend met afzonderlijke elementen en het verzamelen ervan in clusters) of verdeeldheid (beginnend met de volledige gegevensset en het verdelen in partities).

Deze methoden zullen geen unieke partitionering van de gegevensset produceren, maar een hiërarchie waaruit de gebruiker nog steeds geschikte clusters moet kiezen. Ze zijn niet erg robuust in de richting van uitbijters, die zullen verschijnen als extra clusters of zelfs andere clusters zullen laten fuseren (bekend als "chaining fenomeen", in het bijzonder met single-linkage clustering). In het algemeen is de complexiteit voor agglomeratieve clustering en voor verdeeldheid,[7] waardoor ze te langzaam zijn voor grote gegevenssets. Voor sommige speciale gevallen, optimale efficiënte methoden (van complexiteit ) zijn bekend: slink[8] voor single-linkage en klink[9] voor clustering voor complete-koppeling.

Op centroïde gebaseerde clustering

In op centroïde gebaseerde clustering wordt elk cluster weergegeven door een centrale vector, die niet noodzakelijkerwijs een lid van de gegevensset is. Wanneer het aantal clusters is vastgesteld k, k-Man -clustering geeft een formele definitie als een optimalisatieprobleem: zoek de k Clustercentra en wijzen de objecten toe aan het dichtstbijzijnde clustercentrum, zodat de vierkante afstanden van het cluster worden geminimaliseerd.

Het optimalisatieprobleem zelf is bekend dat het is Np-hard, en dus is de gemeenschappelijke aanpak om alleen te zoeken naar geschatte oplossingen. Een bijzonder bekende benaderingmethode is Lloyd's algoritme,[10] vaak gewoon aangeduid als "K-middelenalgoritme" (hoewel Een ander algoritme introduceerde deze naam). Het vindt echter alleen een Lokaal optimaalen wordt meestal meerdere keren uitgevoerd met verschillende willekeurige initialisaties. Variaties van k-Melen nemen vaak optimalisaties op als het kiezen van de beste van meerdere runs, maar beperken ook de centroïden tot leden van de gegevensset (k-medoïden), kiezen medianen (k-medianen clusteren), het minder willekeurig kiezen van de initiële centra (k-Meden ++) of een fuzzy clusteropdracht toestaan ​​(fuzzy c-middelen).

Meest k-MEANS-TYPE-algoritmen vereisen de Aantal clustersk - vooraf gespecificeerd worden, wat wordt beschouwd als een van de grootste nadelen van deze algoritmen. Bovendien geven de algoritmen de voorkeur aan clusters van ongeveer vergelijkbare grootte, omdat ze altijd een object toewijzen aan het dichtstbijzijnde centroid. Dit leidt vaak tot onjuist gesneden randen van clusters (wat niet verwonderlijk is omdat het algoritme clustercentra optimaliseert, geen clustergrenzen).

K-Means heeft een aantal interessante theoretische eigenschappen. Ten eerste verdeelt het de gegevensruimte in een structuur die bekend staat als een Voronoi -diagram. Ten tweede is het conceptueel dicht bij de classificatie van de dichtstbijzijnde buurman, en als zodanig is het populair in Machine Learning. Ten derde kan het worden gezien als een variatie van modelgebaseerde clustering, en het algoritme van Lloyd als een variatie van de Verwachting-maximalisatie-algoritme Voor dit model hieronder besproken.

Op centroïde gebaseerde clusteringproblemen zoals k-Melen en k-Medoïden zijn speciale gevallen van niet -gecapiteerde, metriek Probleem met de locatie Locatie, een canoniek probleem in de operationele onderzoeks- en computationele geometriegemeenschappen. In een basisprobleem voor faciliteit (waarvan er tal van varianten zijn die meer uitgebreide instellingen modelleren), is de taak om de beste magazijnlocaties te vinden om een ​​bepaalde set consumenten optimaal te bedienen. Men kan "magazijnen" beschouwen als cluster -centroïden en "consumentenlocaties" als de te clusteren van de gegevens. Dit maakt het mogelijk om de goed ontwikkelde algoritmische oplossingen toe te passen van de literatuur van de faciliteitlocatie op het momenteel beschouwd als op het op midden gebaseerde clusteringsprobleem.

Distributiegebaseerde clustering

Het clustermodel dat het meest wordt gerelateerd aan statistieken is gebaseerd op distributiemodellen. Clusters kunnen vervolgens eenvoudig worden gedefinieerd als objecten die het meest waarschijnlijk tot dezelfde verdeling behoren. Een handige eigenschap van deze aanpak is dat dit sterk lijkt op de manier waarop kunstmatige gegevenssets worden gegenereerd: door willekeurige objecten uit een verdeling te bemonsteren.

Hoewel de theoretische basis van deze methoden uitstekend is, lijden ze aan een belangrijk probleem dat bekend staat als overfect, tenzij beperkingen op de modelcomplexiteit worden geplaatst. Een complexer model zal meestal de gegevens beter kunnen verklaren, waardoor het kiezen van de juiste modelcomplexiteit inherent moeilijk is.

Eén prominente methode staat bekend als Gaussiaanse mengmodellen (met behulp van de verwachting-maximalisatie-algoritme). Hier wordt de gegevensset meestal gemodelleerd met een vast (om overfitting) aantal te voorkomen Gaussiaanse distributies die willekeurig worden geïnitialiseerd en waarvan de parameters iteratief zijn geoptimaliseerd om de gegevensset beter te passen. Dit zal samenkomen naar een Lokaal optimaal, dus meerdere runs kunnen verschillende resultaten opleveren. Om een ​​harde clustering te verkrijgen, worden objecten vaak toegewezen aan de Gaussiaanse verdeling waartoe ze waarschijnlijk behoren; Voor zachte clusters is dit niet nodig.

Op distributie gebaseerde clustering produceert complexe modellen voor clusters die kunnen vangen Correlatie en afhankelijkheid tussen attributen. Deze algoritmen leggen echter een extra last voor de gebruiker: voor veel echte gegevenssets kan er misschien geen beknopt wiskundig model zijn (bijv. Ervan uitgaande dat Gaussiaanse distributies een vrij sterke veronderstelling van de gegevens is).

Op dichtheid gebaseerde clustering

In op dichtheid gebaseerde clustering,[11] Clusters worden gedefinieerd als gebieden met een hogere dichtheid dan de rest van de gegevensset. Objecten in schaarse gebieden - die nodig zijn om clusters te scheiden - worden meestal beschouwd als ruis- en grenspunten.

Het meest populair[12] op dichtheid gebaseerde clusteringsmethode is DBSCAN.[13] In tegenstelling tot veel nieuwere methoden, bevat het een goed gedefinieerd clustermodel genaamd "Density-Reachability". Vergelijkbaar met op koppeling gebaseerde clustering, is het gebaseerd op aansluitende punten binnen bepaalde afstandsdrempels. Het verbindt echter alleen punten die voldoen aan een dichtheidscriterium, in de oorspronkelijke variant gedefinieerd als een minimum aantal andere objecten binnen deze straal. Een cluster bestaat uit alle dichtheid-verbonden objecten (die een cluster van een willekeurige vorm kunnen vormen, in tegenstelling tot vele andere methoden) plus alle objecten die zich binnen het bereik van deze objecten bevinden. Een andere interessante eigenschap van DBSCAN is dat de complexiteit ervan vrij laag is - het vereist een lineair aantal bereikquery's in de database - en dat het in wezen dezelfde resultaten zal ontdekken (het is deterministisch Voor kern- en ruispunten, maar niet voor randpunten) in elke run, daarom is het niet nodig om het meerdere keren uit te voeren. OPTIEK[14] is een generalisatie van DBSCAN die de noodzaak verwijdert om een ​​geschikte waarde voor de bereikparameter te kiezen en produceert een hiërarchisch resultaat met betrekking tot dat van koppelingsclustering. Deli-clu,[15] Dichtheid-link-clustering combineert ideeën van single-linkage clustering en optica, het elimineren van de parameter volledig en het aanbieden van prestatieverbeteringen ten opzichte van optica met behulp van een R-boom inhoudsopgave.

Het belangrijkste nadeel van DBSCAN en OPTIEK is dat ze verwachten dat een soort dichtheidsdaling zal dalen om clustergrenzen te detecteren. Op gegevenssets met bijvoorbeeld overlappende Gauss -distributies - een veel voorkomend gebruik in kunstmatige gegevens - zullen de clustergrenzen die door deze algoritmen worden geproduceerd, er vaak willekeurig uitzien, omdat de clusterdichtheid continu afneemt. Op een gegevensset bestaande uit mengsels van Gaussians, worden deze algoritmen bijna altijd beter gepresteerd door methoden zoals zoals EM -clustering die in staat zijn om dit soort gegevens precies te modelleren.

Gemengd is een clusteringbenadering waarbij elk object naar het dichtste gebied in zijn omgeving wordt verplaatst, gebaseerd op schatting van de kerneldichtheid. Uiteindelijk komen objecten samen naar de lokale maxima van dichtheid. Net als bij K-middelenclustering, kunnen deze "dichtheidsaantatters" als vertegenwoordigers voor de gegevensset dienen, maar Mean-Shift kan willekeurige clusters die vergelijkbaar zijn met DBSCAN detecteren. Vanwege de dure iteratieve procedure en schatting van de dichtheid is de gemiddelde-verschuiving meestal langzamer dan DBSCAN of K-middelen. Daarnaast wordt de toepasbaarheid van het gemiddelde-shift-algoritme op multidimensionale gegevens belemmerd door het losmaakgedrag van de schatting van de kerneldichtheid, wat resulteert in over-fragmentatie van clustertaarten.[15]

Grid-gebaseerde clustering

De op raster gebaseerde techniek wordt gebruikt voor een multidimensionaal gegevensset.[16] In deze techniek creëren we een roosterstructuur en wordt de vergelijking uitgevoerd op rasters (ook bekend als cellen). De op rasters gebaseerde techniek is snel en heeft een lage computationele complexiteit. Er zijn twee soorten op raster gebaseerde clustermethoden: Sting en Clique. Stappen die betrokken zijn bij op raster gebaseerde clustering algoritme zijn:

  1. Verdeel gegevensruimte in een eindig aantal cellen.
  2. Selecteer willekeurig een cel ‘C’, waarbij C niet vooraf moet worden doorkruist.
  3. Bereken de dichtheid van ‘C’
  4. Als de dichtheid van ‘C’ groter is dan de drempeldichtheid
    1. Markeer cell ‘c’ als een nieuw cluster
    2. Bereken de dichtheid van alle buren van ‘C’
    3. Als de dichtheid van een aangrenzende cel groter is dan de drempeldichtheid, voeg dan de cel toe in het cluster en herhaal stappen 4.2 en 4.3 totdat er geen buur is met een dichtheid die groter is dan de drempeldichtheid.
  5. Herhaal stappen 2,3 en 4 tot alle cellen zijn doorkruist.
  6. Hou op.

Recente ontwikkelingen

In de afgelopen jaren is er aanzienlijke inspanningen geleverd om de prestaties van bestaande algoritmen te verbeteren.[17][18] Onder hen zijn Klarans,[19] en BERK.[20] Met de recente behoefte om grotere en grotere gegevenssets te verwerken (ook bekend als Big Data), de bereidheid om de semantische betekenis van de gegenereerde clusters voor prestaties te verhandelen, is toegenomen. Dit leidde tot de ontwikkeling van pre-clusteringsmethoden zoals zoals luifelclustering, die enorme gegevenssets efficiënt kunnen verwerken, maar de resulterende "clusters" zijn slechts een ruwe pre-partitionering van de gegevensset om vervolgens de partities te analyseren met bestaande langzamere methoden zoals zoals K-middelen clustering.

Voor hoog-dimensionale gegevens, veel van de bestaande methoden mislukken vanwege de vloek van de dimensionaliteit, die bepaalde afstand functioneert die problematisch is in hoog-dimensionale ruimtes. Dit leidde tot nieuw Clusteringalgoritmen voor hoog-dimensionale gegevens die focus op Subruimte clustering (waarbij slechts enkele attributen worden gebruikt en clustermodellen de relevante attributen voor het cluster bevatten) en correlatieclustering Dat zoekt ook naar willekeurige geroteerde ("gecorreleerde") subruimte clusters die kunnen worden gemodelleerd door een correlatie van hun attributen.[21] Voorbeelden voor dergelijke clusteringalgoritmen zijn kliek[22] en Subclu.[23]

Ideeën van op dichtheid gebaseerde clustermethoden (in het bijzonder de DBSCAN/OPTIEK Familie van algoritmen) zijn aangepast aan subruimteclustering (HISC,[24] Hiërarchische subruimte clustering en gerecht[25]) en correlatieclustering (HICO,[26] Hiërarchische correlatiebeclustering, 4c[27] met behulp van "Correlation Connectivity" en Eric[28] Het verkennen van op hiërarchische dichtheid gebaseerde correlatieclusters).

Verschillende verschillende clustersystemen op basis van wederzijdse informatie is voorgesteld. Een daarvan is Marina Meilă's Variatie van informatie metriek;[29] Een ander biedt hiërarchische clustering.[30] Met behulp van genetische algoritmen kan een breed scala aan verschillende fit-functies worden geoptimaliseerd, inclusief wederzijdse informatie.[31] Ook Voortplanting van geloof, een recente ontwikkeling in computertechnologie en statistische fysica, heeft geleid tot het creëren van nieuwe soorten clusteringalgoritmen.[32]

Evaluatie en beoordeling

Evaluatie (of "validatie") van clusteringsresultaten is net zo moeilijk als de clustering zelf.[33] Populaire benaderingen omvatten "intern"Evaluatie, waarbij de clustering is samengevat met een score voor één kwaliteit,"extern"Evaluatie, waarbij de clustering wordt vergeleken met een bestaande classificatie van de" grondwaarheid ","handleiding"Evaluatie door een menselijke expert, en"indirect"Evaluatie door het nut van de clustering in de beoogde toepassing te evalueren.[34]

Interne evaluatiemaatregelen lijden aan het probleem dat zij functies vertegenwoordigen die zelf kunnen worden gezien als een clusteringdoelstelling. Men zou bijvoorbeeld de gegevens kunnen clusteren door de silhouetcoëfficiënt; Behalve dat hiervoor geen efficiënt algoritme is. Door een dergelijke interne maatregel voor evaluatie te gebruiken, vergelijkt men eerder de gelijkenis van de optimalisatieproblemen,[34] En niet noodzakelijk hoe nuttig de clustering is.

Externe evaluatie heeft vergelijkbare problemen: als we dergelijke "grondwaarheid" -labels hebben, zouden we niet hoeven te clusteren; En in praktische toepassingen hebben we meestal niet dergelijke labels. Aan de andere kant weerspiegelen de labels slechts één mogelijke verdeling van de gegevensset, wat niet impliceert dat er geen andere en misschien zelfs beter, clustering bestaat.

Geen van deze benaderingen kan daarom uiteindelijk de werkelijke kwaliteit van een clustering beoordelen, maar dit heeft menselijke evaluatie nodig,[34] wat zeer subjectief is. Desalniettemin kunnen dergelijke statistieken behoorlijk informatief zijn bij het identificeren van slechte clusters,[35] Maar men moet geen subjectieve menselijke evaluatie afwijzen.[35]

Interne evaluatie

Wanneer een clusteringsresultaat wordt geëvalueerd op basis van de gegevens die zelf waren geclusterd, wordt dit interne evaluatie genoemd. Deze methoden wijzen meestal de beste score toe aan het algoritme dat clusters produceert met een hoge overeenkomst binnen een cluster en een lage gelijkenis tussen clusters. Een nadeel van het gebruik van interne criteria bij clusterevaluatie is dat hoge scores op een interne maat niet noodzakelijkerwijs resulteren in effectieve toepassingen voor het ophalen van informatie.[36] Bovendien is deze evaluatie bevooroordeeld in de richting van algoritmen die hetzelfde clustermodel gebruiken. K-middelen clusteren bijvoorbeeld optimaliseert op natuurlijke wijze objectafstanden, en een op afstand gebaseerd intern criterium zal waarschijnlijk de resulterende clustering overschatten.

Daarom zijn de interne evaluatiemaatregelen het meest geschikt om enig inzicht te krijgen in situaties waarin het ene algoritme beter presteert dan het andere, maar dit zal niet impliceren dat het ene algoritme meer geldige resultaten oplevert dan het andere.[5] Geldigheid zoals gemeten door een dergelijke index hangt af van de bewering dat dit soort structuur bestaat in de gegevensset. Een algoritme dat is ontworpen voor een soort modellen heeft geen kans als de gegevensset een radicaal andere set modellen bevat, of als de evaluatie een radicaal ander criterium meet.[5] K-middelenclustering kan bijvoorbeeld alleen convexe clusters vinden, en veel evaluatie-indexen gaan uit van convexe clusters. Op een gegevensset met niet-convexe clusters noch het gebruik van k-Melen, noch van een evaluatiecriterium dat convexiteit veronderstelt, is gezond.

Er zijn meer dan een dozijn interne evaluatiemaatregelen, meestal gebaseerd op de intuïtie dat items in hetzelfde cluster meer vergelijkbaar moeten zijn dan items in verschillende clusters.[37]: 115–121 De volgende methoden kunnen bijvoorbeeld worden gebruikt om de kwaliteit van clusteringalgoritmen te beoordelen op basis van het interne criterium:

De Davies - Bouldin Index kan worden berekend door de volgende formule:
waar n is het aantal clusters, is de zwaartepunt cluster , is de gemiddelde afstand van alle elementen in cluster naar centroid , en is de afstand tussen centroids en . Aangezien algoritmen die clusters produceren met lage intra-clusterafstanden (hoge intra-cluster gelijkenis) en hoge inter-clusterafstanden (lage intercluster gelijkenis) zullen een lage Davies-Bouldin-index hebben, het clusteralgoritme dat een verzameling clusters produceert met clusters met het kleinste Davies - Bouldin Index wordt beschouwd als het beste algoritme op basis van dit criterium.
De Dunn-index is bedoeld om dichte en goed gescheiden clusters te identificeren. Het wordt gedefinieerd als de verhouding tussen de minimale interclusterafstand tot maximale intra-clusterafstand. Voor elke clusterpartitie kan de Dunn -index worden berekend door de volgende formule:[38]
waar d(i,j) vertegenwoordigt de afstand tussen clusters i en j, en d '(k) meet de intra-clusterafstand van cluster k. De interclusterafstand d(i,j) Tussen twee clusters kunnen een aantal afstandsmaatregelen zijn, zoals de afstand tussen de zwaartepunt van de clusters. Evenzo, de intra-clusterafstand d '(k) kan op verschillende manieren worden gemeten, zoals de maximale afstand tussen elk paar elementen in clusterk. Aangezien het interne criterium clusters zoekt met een hoge intra-cluster gelijkenis en lage intercluster gelijkenis, zijn algoritmen die clusters produceren met een hoge Dunn-index wenselijker.
De silhouetcoëfficiënt contrasteert de gemiddelde afstand tot elementen in hetzelfde cluster met de gemiddelde afstand tot elementen in andere clusters. Objecten met een hoge silhouetwaarde worden als goed geclusterd beschouwd, objecten met een lage waarde kunnen uitbijters zijn. Deze index werkt goed met k-Mansclustering en wordt ook gebruikt om het optimale aantal clusters te bepalen.

Externe evaluatie

Bij externe evaluatie worden clusterresultaten geëvalueerd op basis van gegevens die niet werden gebruikt voor clustering, zoals bekende klassenlabels en externe benchmarks. Dergelijke benchmarks bestaan ​​uit een reeks vooraf geclassificeerde items en deze sets worden vaak gemaakt door (deskundige) mensen. De benchmark -sets kunnen dus worden beschouwd als een gouden standaard voor evaluatie.[33] Dit soort evaluatiemethoden meten hoe dicht de clustering is aan de vooraf bepaalde benchmarkklassen. Onlangs is echter besproken of dit voldoende is voor echte gegevens, of alleen op synthetische gegevenssets met een feitelijke grondwaarheid, omdat klassen interne structuur kunnen bevatten, de aanwezige attributen mogelijk geen scheiding van clusters toestaan ​​of de klassen kunnen bevatten afwijkingen.[39] Bovendien van een kennisontdekking Het oogpunt, de reproductie van bekende kennis is mogelijk niet noodzakelijk het beoogde resultaat.[39] In het speciale scenario van beperkte clustering, waarbij meta-informatie (zoals klassenlabels) al in het clusteringsproces wordt gebruikt, is het niet-triviaal inhouden van informatie voor evaluatiedoeleinden.[40]

Een aantal maatregelen zijn aangepast van varianten die worden gebruikt om classificatietaken te evalueren. In plaats van het tellen van het aantal keren dat een klasse correct werd toegewezen aan een enkel gegevenspunt (bekend als Echte positieve punten), zo een het tellen van het paar Metrics beoordelen of elk paar gegevenspunten dat zich echt in hetzelfde cluster bevindt, naar verwachting in hetzelfde cluster staat.[33]

Net als bij interne evaluatie bestaan ​​er verschillende externe evaluatiemaatregelen,[37]: 125–129 bijvoorbeeld:

  • Zuiverheid: Zuiverheid is een maat voor de mate waarin clusters een enkele klasse bevatten.[36] De berekening ervan kan als volgt worden beschouwd: tel voor elke cluster het aantal gegevenspunten van de meest voorkomende klasse in genoemde cluster. Neem nu de som over alle clusters en deel door het totale aantal gegevenspunten. Formeel, gegeven een aantal clusters en een aantal klassen , beide partitionering Gegevenspunten, zuiverheid kan worden gedefinieerd als:
Deze maatregel bestraft niet met veel clusters, en meer clusters zullen het gemakkelijker maken om een ​​hoge zuiverheid te produceren. Een zuiverheidsscore van 1 is altijd mogelijk door elk gegevenspunt in zijn eigen cluster te plaatsen. Purity werkt ook niet goed voor onevenwichtige gegevens, waar zelfs slecht presterende clusteringalgoritmen een hoge zuiverheidswaarde zullen geven. Als een maat 1000 -gegevensset bijvoorbeeld uit twee klassen bestaat, een met 999 punten en de andere met 1 punt, dan heeft elke mogelijke partitie een zuiverheid van ten minste 99,9%.
De RAND -index berekent hoe vergelijkbaar de clusters (geretourneerd door het clusteringalgoritme) zijn voor de benchmarkclassificaties. Het kan worden berekend met behulp van de volgende formule:
waar is het aantal echte positieven, is het aantal Echte negatieven, is het aantal valse positieven, en is het aantal Valse negatieven. De instanties die hier worden geteld, zijn het aantal correct paarsgewijs Opdrachten. Dat is, is het aantal paren van punten dat samen is geclusterd in de voorspelde partitie en in de grondwaarheid Partition, is het aantal paren van punten dat samen is geclusterd in de voorspelde partitie, maar niet in de grondwaarheidsartitie enz. Als de dataset van grootte N is, dan .

Een probleem met de RAND -index is dat valse positieven en Valse negatieven zijn even gewogen. Dit kan een ongewenst kenmerk zijn voor sommige clustertoepassingen. De F-maat pakt deze zorg aan, net als de kans gecorrigeerd Aangepaste rand -index.

De F-maat kan worden gebruikt om de bijdrage van Valse negatieven door weg te wegen herinneren via een parameter . Laten nauwkeurigheid en herinneren (Beide externe evaluatiemaatregelen op zichzelf) worden als volgt gedefinieerd:
waar is de nauwkeurigheid mate en is de herinneren tarief. We kunnen de F-maat berekenen met behulp van de volgende formule:[36]
Wanneer , . Met andere woorden, herinneren heeft geen invloed op de F-maat wanneer en toenemen Wist een toenemende hoeveelheid gewicht om terug te roepen in de uiteindelijke F-maat.
Ook wordt niet in aanmerking genomen en kan zonder gebonden van 0 variëren.
De Jaccard -index wordt gebruikt om de gelijkenis tussen twee datasets te kwantificeren. De Jaccard -index neemt een waarde aan tussen 0 en 1. Een index van 1 betekent dat de twee dataset identiek is en een index van 0 geeft aan dat de datasets geen gemeenschappelijke elementen hebben. De Jaccard -index wordt gedefinieerd door de volgende formule:
Dit is gewoon het aantal unieke elementen die gemeenschappelijk zijn voor beide sets gedeeld door het totale aantal unieke elementen in beide sets.
Ook wordt niet in aanmerking genomen en kan zonder gebonden van 0 variëren.
De dobbelstenen symmetrische maatregel verdubbelt het gewicht op terwijl je nog steeds negeert :
De Fowlkes -Mallows Index berekent de gelijkenis tussen de clusters die worden geretourneerd door het clusteringalgoritme en de benchmarkclassificaties. Hoe hoger de waarde van de Fowlkes -Mallows -index, hoe meer vergelijkbaars de clusters en de benchmarkclassificaties zijn. Het kan worden berekend met behulp van de volgende formule:
waar is het aantal Echte positieve punten, is het aantal valse positieven, en is het aantal Valse negatieven. De Index is het geometrische gemiddelde van de nauwkeurigheid en herinneren en , en wordt dus ook bekend als de G-maat, terwijl de F-maat hun harmonische gemiddelde is.[43][44] Bovendien, nauwkeurigheid en herinneren staan ​​ook bekend als de indices van Wallace en .[45] Kans genormaliseerde versies van terugroepen, precisie en G-maat komen overeen Geïnformeerdheid, Duidelijkheid en Matthews -correlatie en sterk betrekking hebben op Kappa.[46]
Een verwarringmatrix kan worden gebruikt om de resultaten van een classificatie (of clustering) algoritme snel te visualiseren. Het laat zien hoe verschillend een cluster is van het gouden standaardcluster.

Cluster neiging

Het meten van de neiging van de cluster is om te meten in welke mate -clusters bestaan ​​in de te clusteren van de gegevens, en kan worden uitgevoerd als een eerste test, voordat ze clusteren proberen. Een manier om dit te doen is om de gegevens te vergelijken met willekeurige gegevens. Gemiddeld mogen willekeurige gegevens geen clusters hebben.

Er zijn meerdere formuleringen van de Hopkins statistiek.[47] Een typische is als volgt.[48] Laten de set zijn van Gegevenspunten in Dimensionale ruimte. Overweeg een willekeurig monster (zonder vervanging) van Gegevenspunten met leden . Genereer ook een set van Uniform willekeurig verdeelde gegevenspunten. Definieer nu twee afstandsmaatregelen, om de afstand te zijn van van de dichtstbijzijnde buur in X en om de afstand te zijn van Van de dichtstbijzijnde buur in X. We definiëren vervolgens de Hopkins -statistiek als:
Met deze definitie moeten uniforme willekeurige gegevens de neiging hebben waarden te hebben in de buurt van 0,5, en geclusterde gegevens moeten de neiging hebben om waarden dichter bij 1 te hebben.
Gegevens die slechts één Gaussiaan bevatten, zullen echter ook bijna 1 scoren, omdat deze statistiekafwijking van een uniform distributie, niet multimodaliteit, deze statistiek grotendeels nutteloos maken in toepassing (omdat echte gegevens nooit op afstand uniform zijn).

Toepassingen

Biologie, computationele biologie en bioinformatica

Plant en dier ecologie
Clusteranalyse wordt gebruikt om ruimtelijke en tijdelijke vergelijkingen van gemeenschappen (assemblages) van organismen in heterogene omgevingen te beschrijven en te maken. Het wordt ook gebruikt in Plantensystemen Om kunstmatig te genereren fylogenieën of clusters van organismen (individuen) op de soort, geslacht of hoger niveau die een aantal attributen delen.
Transcriptomica
Clustering wordt gebruikt om groepen te bouwen genen met gerelateerde expressiepatronen (ook bekend als tot expressie gebrachte genen) zoals in HCS -clusteringalgoritme.[49][50] Vaak bevatten dergelijke groepen functioneel gerelateerde eiwitten, zoals enzymen voor een specifiek weg, of genen die mede-gereguleerd zijn. Hoge doorvoer experimenten met behulp van Uitgedrukte sequentietags (Ests) of DNA -microarrays kan een krachtig hulpmiddel zijn voor Genoom -annotatie- Een algemeen aspect van genomica.
Sequentie -analyse
Reeksclustering wordt gebruikt om homologe sequenties te groeperen in genfamilies.[51] Dit is een zeer belangrijk concept in bio -informatica, en evolutionaire biologie in het algemeen. Zie evolutie door genduplicatie.
High-throughput genotypering platforms
Clusteringalgoritmen worden gebruikt om genotypen automatisch toe te wijzen.[52]
Menselijke genetische clustering
De gelijkenis van genetische gegevens wordt gebruikt bij het clusteren om populatiestructuren af ​​te leiden.

Geneesmiddel

Medische beeldvorming
Op PET -scans, clusteranalyse kan worden gebruikt om onderscheid te maken tussen verschillende soorten zakdoek in een driedimensionaal beeld voor veel verschillende doeleinden.[53]
Analyse van antimicrobiële activiteit
Clusteranalyse kan worden gebruikt om patronen van antibioticaresistentie te analyseren, om antimicrobiële verbindingen te classificeren volgens hun werkingsmechanisme, om antibiotica te classificeren volgens hun antibacteriële activiteit.
IMRT -segmentatie
Clustering kan worden gebruikt om een ​​fluentiekaart te verdelen in verschillende gebieden voor conversie naar leveringsbare velden in op MLC gebaseerde radiotherapie.

Zaken en marketing

Marktonderzoek
Clusteranalyse wordt veel gebruikt in marktonderzoek bij het werken met multivariate gegevens van enquêtes en testpanelen. Marktonderzoekers gebruiken clusteranalyse om de generaal te verdelen bevolking van consumenten in marktsegmenten en om de relaties tussen verschillende groepen consumenten/potentieel beter te begrijpen klanten, en voor gebruik in marktaandeel, product plaatsing, nieuwe product ontwikkeling en het selecteren van testmarkten.
Groepering van winkelartikelen
Clustering kan worden gebruikt om alle beschikbare winkelartikelen op internet te groeperen in een set unieke producten. Alle items op eBay kunnen bijvoorbeeld worden gegroepeerd in unieke producten (eBay heeft niet het concept van een Sku).

Wereld wijde web

Sociale netwerkanalyse
In de studie van sociale netwerken, clustering kan worden gebruikt om te herkennen gemeenschappen binnen grote groepen mensen.
Zoekresultaat groeperen
In het proces van intelligente groepering van de bestanden en websites kan clustering worden gebruikt om een ​​meer relevante set zoekresultaten te maken in vergelijking met normale zoekmachines zoals Google. Er zijn momenteel een aantal webgebaseerde clusteringstools zoals Onfeilbaar. Het kan ook worden gebruikt om een ​​meer uitgebreide reeks resultaten te retourneren in gevallen waarin een zoekterm zou kunnen verwijzen naar enorm verschillende dingen. Elk duidelijk gebruik van de term komt overeen met een uniek cluster van resultaten, waardoor een rangorde -algoritme uitgebreide resultaten kan retourneren door het topresultaat van elk cluster te kiezen.[54]
Slippy kaartoptimalisatie
FlickrDe kaart van foto's en andere kaartsites gebruiken clustering om het aantal markers op een kaart te verminderen. Dit maakt het zowel sneller en vermindert de hoeveelheid visuele rommel.

Computertechnologie

Software -evolutie
Clustering is nuttig in software -evolutie, omdat het helpt om legacy -eigenschappen in code te verminderen door functionaliteit te hervormen die verspreid is geworden. Het is een vorm van herstructurering en is daarom een ​​manier van direct preventief onderhoud.
Beeldsegmentatie
Clustering kan worden gebruikt om een digitaal afbeelding in verschillende regio's voor randdetectie of Object herkenning.[55]
Evolutionaire algoritmen
Clustering kan worden gebruikt om verschillende niches binnen de populatie van een evolutionair algoritme te identificeren, zodat reproductieve kansen gelijkmatiger kunnen worden verdeeld over de zich ontwikkelende soorten of ondersoorten.
Aanbevelingssystemen
Aanbevelingssystemen zijn ontworpen om nieuwe items aan te bevelen op basis van de smaak van een gebruiker. Ze gebruiken soms clusteringalgoritmen om de voorkeuren van een gebruiker te voorspellen op basis van de voorkeuren van andere gebruikers in het cluster van de gebruiker.
Markov -keten Monte Carlo -methoden
Clustering wordt vaak gebruikt om extrema te lokaliseren en te karakteriseren in de doelverdeling.
Onregelmatigheidsdetectie
Anomalieën/uitbijters zijn meestal - of het nu expliciet of impliciet - is gedefinieerd met betrekking tot clusteringstructuur in gegevens.
Natuurlijke taalverwerking
Clustering kan worden gebruikt om op te lossen lexicale dubbelzinnigheid.[54]
Devops
Clustering is gebruikt om de effectiviteit van DevOps -teams te analyseren.[56]

Sociale wetenschappen

Sequence Analysis in Social Sciences
Clusteranalyse wordt gebruikt om patronen van gezinslevenstrajecten, professionele carrières en dagelijkse of wekelijkse tijdgebruik bijvoorbeeld te identificeren.
Misdaadanalyse
Clusteranalyse kan worden gebruikt om gebieden te identificeren waar grotere incidenten zijn van bepaalde soorten criminaliteit. Door deze verschillende gebieden of "hotspots" te identificeren waar een vergelijkbare misdaad gedurende een bepaalde periode is gebeurd, is het mogelijk om wetshandhavingsmiddelen effectiever te beheren.
Educatieve datamining
Clusteranalyse wordt bijvoorbeeld gebruikt om groepen scholen of studenten met vergelijkbare eigenschappen te identificeren.
Typologieën
Uit poll -gegevens gebruiken projecten zoals die van het Pew Research Center clusteranalyse om typologieën van meningen, gewoonten en demografie te onderscheiden die nuttig kunnen zijn in politiek en marketing.

Anderen

Veldrobotica
Clusteringalgoritmen worden gebruikt voor robotachtig situationeel bewustzijn om objecten te volgen en uitbijters in sensorgegevens te detecteren.[57]
Wiskundige chemie
Om structurele gelijkenis te vinden, enz., Er waren bijvoorbeeld 3000 chemische verbindingen geclusterd in de ruimte van 90 topologische indices.[58]
Klimatologie
Om weersregimes of preferente zeespiegel druk atmosferische patronen te vinden.[59]
Financiën
Clusteranalyse is gebruikt om aandelen in sectoren te clusteren.[60]
Aardolie -geologie
Clusteranalyse wordt gebruikt om ontbrekende kerngegevens van de bodemgat of ontbrekende logcurves te reconstrueren om de eigenschappen van de reservoir te evalueren.
Geochemie
De clustering van chemische eigenschappen in verschillende monsterlocaties.

Zie ook

Gespecialiseerde soorten clusteranalyse

Technieken die worden gebruikt in clusteranalyse

Gegevensprojectie en voorbewerking

Ander

Referenties

  1. ^ Driver en Kroeber (1932). "Kwantitatieve uitdrukking van culturele relaties". Publicaties van de Universiteit van Californië in de Amerikaanse archeologie en etnologie. Berkeley, CA: University of California Press. Kwantitatieve uitdrukking van culturele relaties: 211–256.
  2. ^ Zubin, Joseph (1938). "Een techniek voor het meten van gelijktijdigheid". The Journal of Abnormal and Social Psychology. 33 (4): 508–516. doen:10.1037/h0055441. ISSN 0096-851X.
  3. ^ Tryon, Robert C. (1939). Clusteranalyse: correlatieprofiel en orthometrische (factor) analyse voor het isolement van eenheden in gedachten en persoonlijkheid. Edwards Brothers.
  4. ^ Cattell, R. B. (1943). "De beschrijving van persoonlijkheid: basiskenmerken opgelost in clusters". Journal of Abnormal and Social Psychology. 38 (4): 476–506. doen:10.1037/h0054116.
  5. ^ a b c d e f Estivill-Castro, Vladimir (20 juni 2002). "Waarom zoveel clusteringalgoritmen - een position paper". ACM SIGKDD Explorations Nieuwsbrief. 4 (1): 65–75. doen:10.1145/568574.568575. S2CID 7329935.
  6. ^ James A. Davis (Mei 1967) "Clustering en structurele balans in grafieken", Menselijke relaties 20: 181–7
  7. ^ Everitt, Brian (2011). Clusteranalyse. Chichester, West Sussex, U.K: Wiley. ISBN 9780470749913.
  8. ^ Sibson, R. (1973). "Slink: een optimaal efficiënt algoritme voor de single-link clustermethode" (PDF). Het computerdagboek. British Computer Society. 16 (1): 30–34. doen:10.1093/comjnl/16.1.30.
  9. ^ Defays, D. (1977). "Een efficiënt algoritme voor een volledige linkmethode". Het computerdagboek. British Computer Society. 20 (4): 364–366. doen:10.1093/comjnl/20.4.364.
  10. ^ Lloyd, S. (1982). "Minste kwadraten kwantisatie in PCM". IEEE -transacties over informatietheorie. 28 (2): 129–137. doen:10.1109/tit.1982.1056489.
  11. ^ Kriegel, Hans-Peter; Kröger, peer; Sander, Jörg; Zimek, Arthur (2011). "Op dichtheid gebaseerde clustering". Draders data mining en kennisontdekking. 1 (3): 231–240. doen:10.1002/widm.30. S2CID 36920706.
  12. ^ Microsoft Academic Search: Most Cited Data Mining Articles Gearchiveerd 2010-04-21 op de Wayback -machine: DBSCAN staat op rang 24, wanneer toegankelijk op: 18-4-2010
  13. ^ Ester, Martin; Kriegel, Hans-Peter; Sander, Jörg; Xu, Xiaowei (1996). "Een op dichtheid gebaseerd algoritme voor het ontdekken van clusters in grote ruimtelijke databases met ruis". In Simoudis, Evangelos; Han, Jiawei; Fayyad, Usama M. (Eds.). Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96). AAAI -pers. pp. 226–231. ISBN 1-57735-004-9.
  14. ^ Ankerst, Mihael; Breunig, Markus M.; Kriegel, Hans-Peter; Sander, Jörg (1999). "Optica: bestelpunten om de clusteringstructuur te identificeren". ACM Sigmod International Conference on Management of Data. ACM -pers. pp. 49–60. Citeseerx 10.1.1.129.6542.
  15. ^ a b ACHTERT, E.; Böhm, C.; Kröger, P. (2006). "Deli-Clu: Boosting van robuustheid, volledigheid, bruikbaarheid en efficiëntie van hiërarchische clustering door een dichtstbijzijnde paarranglijst". Vooruitgang in kennisontdekking en datamining. Lecture Notes in Computer Science. Vol. 3918. pp. 119–128. Citeseerx 10.1.1.64.1161. doen:10.1007/11731139_16. ISBN 978-3-540-33206-0.
  16. ^ Aggarwal, Charu C.; Reddy, Chandan K. (Eds.). Gegevensclustering: algoritmen en toepassingen. ISBN 978-1-315-37351-5. Oclc 1110589522.
  17. ^ Sculley, D. (2010). Web-scale k-middelen clustering. Proc. 19e www.
  18. ^ Huang, Z. (1998). "Extensions naar de k-Man algoritme voor het clusteren van grote gegevenssets met categorische waarden ". Datamining en kennisontdekking. 2 (3): 283–304. doen:10.1023/A: 1009769707641. S2CID 11323096.
  19. ^ R. Ng en J. Han. "Efficiënte en effectieve clusteringsmethode voor ruimtelijke datamining". In: Proceedings of the 20th VLDB Conference, pagina's 144–155, Santiago, Chile, 1994.
  20. ^ Tian Zhang, Raghu Ramakrishnan, Miron Livny. "Een efficiënte methode voor gegevensclustering voor zeer grote databases. "In: Proc. Int'l Conf. Over Management of Data, ACM Sigmod, pp. 103–114.
  21. ^ Kriegel, Hans-Peter; Kröger, peer; Zimek, Arthur (Juli 2012). "Subruimte clustering". Wiley interdisciplinaire beoordelingen: datamining en kennisontdekking. 2 (4): 351–364. doen:10.1002/widm.1057. S2CID 7241355.
  22. ^ Agrawal, R.; Gehrke, J.; Gunopulos, D.; Raghavan, P. (2005). "Automatische subruimteclustering van hoge dimensionale gegevens". Datamining en kennisontdekking. 11: 5–33. Citeseerx 10.1.1.131.5152. doen:10.1007/s10618-005-1396-1. S2CID 9289572.
  23. ^ Karin Kailing, Hans-Peter Kriegel en Peer Kröger. Dichtheid-verbonden subruimte clustering voor hoog-dimensionale gegevens. In: Proc. SIAM int. Conf. op datamining (SDM'04), pp. 246–257, 2004.
  24. ^ ACHTERT, E.; Böhm, C.; Kriegel, H.-P.; Kröger, P.; Müller-Gorman, I.; Zimek, A. (2006). "Hiërarchieën vinden van subruimteclusters". Kennisontdekking in databases: PKDD 2006. Lecture Notes in Computer Science. Vol. 4213. pp. 446–453. Citeseerx 10.1.1.705.2956. doen:10.1007/11871637_42. ISBN 978-3-540-45374-1.
  25. ^ ACHTERT, E.; Böhm, C.; Kriegel, H. P.; Kröger, P.; Müller-Gorman, I.; Zimek, A. (2007). "Detectie en visualisatie van subruimte clusterhiërarchieën". Vooruitgang in databases: concepten, systemen en applicaties. Lecture Notes in Computer Science. Vol. 4443. pp. 152–163. Citeseerx 10.1.1.70.7843. doen:10.1007/978-3-540-71703-4_15. ISBN 978-3-540-71702-7.
  26. ^ ACHTERT, E.; Böhm, C.; Kröger, P.; Zimek, A. (2006). "Mijnbouwhiërarchieën van correlatieklusters". Proc. 18e internationale conferentie over wetenschappelijk en statistisch databasebeheer (SSDBM): 119–128. Citeseerx 10.1.1.707.7872. doen:10.1109/SSDBM.2006.35. ISBN 978-0-7695-2590-7. S2CID 2679909.
  27. ^ Böhm, C.; Kailing, K.; Kröger, P.; Zimek, A. (2004). "Berekeningclusters van correlatie verbonden objecten". Proceedings of the 2004 ACM Sigmod International Conference on Management of Data - Sigmod '04. p. 455. Citeseerx 10.1.1.5.1279. doen:10.1145/1007568.1007620. ISBN 978-1581138597. S2CID 6411037.
  28. ^ ACHTERT, E.; Bohm, C.; Kriegel, H. P.; Kröger, P.; Zimek, A. (2007). "Over het verkennen van complexe relaties van correlatieclusters". 19e internationale conferentie over wetenschappelijk en statistisch databasebeheer (SSDBM 2007). p. 7. Citeseerx 10.1.1.71.5021. doen:10.1109/SSDBM.2007.21. ISBN 978-0-7695-2868-7. S2CID 1554722.
  29. ^ MeilĂ, Marina (2003). "Clusters vergelijken door de variatie van informatie". Leertheorie en kernelmachines. Lecture Notes in Computer Science. Vol. 2777. pp. 173–187. doen:10.1007/978-3-540-45167-9_14. ISBN 978-3-540-40720-1.
  30. ^ Kraskov, Alexander; Stögbauer, Harald; Andrzejak, Ralph G.; Grassberger, Peter (1 december 2003). "Hiërarchische clustering op basis van wederzijdse informatie". arxiv:Q-BIO/0311039. Bibcode:2003q.bio .... 11039k. {{}}: Cite Journal vereist |journal= (helpen)
  31. ^ Auffarth, B. (18-23 juli 2010). "Clustering door een genetisch algoritme met bevooroordeelde mutatie -operator". WCCI CEC. IEEE.
  32. ^ Frey, B. J.; Dueck, D. (2007). "Clustering door berichten tussen gegevenspunten door te geven". Wetenschap. 315 (5814): 972–976. Bibcode:2007Sci ... 315..972f. Citeseerx 10.1.1.121.3145. doen:10.1126/science.1136800. Pmid 17218491. S2CID 6502291.
  33. ^ a b c d Pfitzner, Darius; Leibbrandt, Richard; Powers, David (2009). "Karakterisering en evaluatie van gelijkenismaatregelen voor paren van clusters". Kennis- en informatiesystemen. Springer. 19 (3): 361–394. doen:10.1007/s10115-008-0150-6. S2CID 6935380.
  34. ^ a b c Feldman, Ronen; Sanger, James (2007-01-01). Het handboek met tekstmining: geavanceerde benaderingen bij het analyseren van ongestructureerde gegevens. Cambridge Univ. Druk op. ISBN 978-0521836579. Oclc 915286380.
  35. ^ a b Weiss, Sholom M.; Indurkhya, Nitin; Zhang, Tong; Damerau, Fred J. (2005). Tekstmining: voorspellende methoden voor het analyseren van ongestructureerde informatie. Springer. ISBN 978-0387954332. Oclc 803401334.
  36. ^ a b c Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich (2008-07-07). Inleiding tot het ophalen van informatie. Cambridge University Press. ISBN 978-0-521-86571-5.
  37. ^ a b Kennisontdekking in databases - Deel III - Clustering (PDF), Heidelberg University, 2017
  38. ^ Dunn, J. (1974). "Goed gescheiden clusters en optimale fuzzy partities". Journal of Cybernetics. 4: 95-104. doen:10.1080/01969727408546059.
  39. ^ a b Färber, Ines; Günnemann, Stephan; Kriegel, Hans-Peter; Kröger, peer; Müller, Emmanuel; Schubert, Erich; Seidl, Thomas; Zimek, Arthur (2010). "Over het gebruik van klassen-labels bij de evaluatie van clusters" (PDF). In Fern, Xiaoli Z.; Davidson, Ian; Dy, Jennifer (Eds.). Multiclust: meerdere clusters ontdekken, samenvatten en gebruiken. ACM Sigkdd.
  40. ^ Pourrajabi, M.; Moulavi, D.; Campello, R. J. G. B.; Zimek, A.; Sander, J.; Goebel, R. (2014). "Modelselectie voor semi-supervised clustering". Proceedings of the 17th International Conference on Uitment Database Technology (EDBT). pp. 331–342. doen:10.5441/002/EDBT.2014.31.
  41. ^ Rand, W. M. (1971). "Objectieve criteria voor de evaluatie van clustermethoden". Journal of the American Statistical Association. American Statistical Association. 66 (336): 846–850. arxiv:1704.01036. doen:10.2307/2284239. Jstor 2284239.
  42. ^ Fowlkes, E. B.; Mallows, C. L. (1983). "Een methode voor het vergelijken van twee hiërarchische clusters". Journal of the American Statistical Association. 78 (383): 553–569. doen:10.1080/01621459.1983.10478008. Jstor 2288117.
  43. ^ Powers, David (2003). Terugroepen en precisie versus de bookmaker. Internationale conferentie over cognitieve wetenschap. pp. 529–534.
  44. ^ Arabie, P. (1985). "Partities vergelijken". Journal of Classification. 2 (1): 1985. doen:10.1007/BF01908075. S2CID 189915041.
  45. ^ Wallace, D. L. (1983). "Opmerking". Journal of the American Statistical Association. 78 (383): 569–579. doen:10.1080/01621459.1983.10478009.
  46. ^ Powers, David (2012). Het probleem met Kappa. Europees hoofdstuk van de Association for Computational Linguistics. pp. 345–355.
  47. ^ Hopkins, Brian; Skellam, John Gordon (1954). "Een nieuwe methode voor het bepalen van het type verdeling van plantenpersonen". Annals of Botany. Annals Botany Co. 18 (2): 213–227. doen:10.1093/oxfordjournals.aob.a083391.
  48. ^ Banerjee, A. (2004). "Validatie van clusters met behulp van de Hopkins -statistiek". IEEE International Conference on Fuzzy Systems. 1: 149–153. doen:10.1109/fuzzy.2004.1375706. ISBN 978-0-7803-8353-1. S2CID 36701919.
  49. ^ Johnson, Stephen C. (1967-09-01). "Hiërarchische clusteringschema's". Psychometrika. 32 (3): 241–254. doen:10.1007/BF02289588. ISSN 1860-0980. Pmid 5234703. S2CID 930698.
  50. ^ Hartuv, Erez; Shamir, Ron (2000-12-31). "Een clusteringalgoritme op basis van grafische connectiviteit". Informatieverwerking Letters. 76 (4): 175–181. doen:10.1016/S0020-0190 (00) 00142-3. ISSN 0020-0190.
  51. ^ Remm, Maido; Storm, Christian E. V.; Sonnhammer, Erik L. L. (2001-12-14). "Automatische clustering van orthologen en in-paralogs van paarsgewijze soortenvergelijkingen11 door F. Cohen". Journal of Molecular Biology. 314 (5): 1041-1052. doen:10.1006/jmbi.2000.5197. ISSN 0022-2836. Pmid 11743721.
  52. ^ Botstein, David; Cox, David R.; Risch, Neil; Olshen, Richard; Curb, David; Dzau, Victor J.; Chen, Yii-Der I.; Hebert, Joan; Pesich, Robert (2001-07-01). "Genotypering met high-throughput met enkele nucleotide polymorfismen". Genoomonderzoek. 11 (7): 1262–1268. doen:10.1101/gr.157801. ISSN 1088-9051. PMC 311112. Pmid 11435409.
  53. ^ Filipovych, Roman; Resnick, Susan M.; Davatzikos, Christos (2011). "Semi-supervised clusteranalyse van beeldgegevens". Neuroimage. 54 (3): 2185–2197. doen:10.1016/j.neuroimage.2010.09.074. PMC 3008313. Pmid 20933091.
  54. ^ a b Di Marco, Antonio; Navigli, Roberto (2013). "Clustering en diversifiërende webzoekresultaten met grafische op grafische tekst-sense-inductie". Computational Linguistics. 39 (3): 709–754. doen:10.1162/coli_a_00148. S2CID 1775181.
  55. ^ Bewley, A., & Upcroft, B. (2013).Voordelen van het exploiteren van projectiestructuur voor het segmenteren van dichte 3D -puntwolken.In de Australische conferentie over robotica en automatisering [1]
  56. ^ "2022 Versnel de staat van DevOps rapport". 29 september 2022: 8, 14, 74. {{}}: Cite Journal vereist |journal= (helpen) [2]
  57. ^ Bewley, A.;et al."Real-time volume-schatting van een dragline-lading". IEEE Internationale conferentie over robotica en automatisering. 2011: 1571–1576.
  58. ^ Basak, S.C.;Magnuson, V.R.;Niemi, C.J.;Regal, R.R. (1988)."Bepalen van structurele gelijkenis van chemicaliën met behulp van grafische theoretische indices". Discus. Appl. Wiskunde. 19 (1–3): 17–44. doen:10.1016/0166-218x (88) 90004-2.
  59. ^ Huth, R.;et al.(2008)."Classificaties van atmosferische circulatiepatronen: recente ontwikkelingen en toepassingen". Ann. N.Y. Acad. Sci. 1146 (1): 105–152. Bibcode:2008NYASA1146..105H. doen:10.1196/annals.1446.019. Pmid 19076414. S2CID 22655306.
  60. ^ Arnott, Robert D. (1980-11-01)."Clusteranalyse en aandelenkoers comovement". Financial Analysts Journal. 36 (6): 56–62. doen:10.2469/faj.v36.n6.56. ISSN 0015-198X.