Dimensionaliteitsvermindering
Dimensionaliteitsvermindering, of dimensievermindering, is de transformatie van gegevens uit een hoog-dimensionale ruimte in een laag-dimensionale ruimte zodat de lage dimensionale weergave enkele betekenisvolle eigenschappen van de oorspronkelijke gegevens behoudt, idealiter dicht bij zijn intrinsieke dimensie. Werken in hoog-dimensionale ruimtes kan om vele redenen ongewenst zijn; onbewerkte gegevens zijn vaak schaars Als gevolg van de vloek van de dimensionaliteiten het analyseren van de gegevens is meestal computationeel onhandelbaar (moeilijk te controleren of om te gaan). Dimensionaliteitsvermindering is gebruikelijk in velden die betrekking hebben op een groot aantal waarnemingen en/of grote aantallen variabelen, zoals signaalverwerking, spraakherkenning, neuro -informatica, en bio -informatica.[1]
Methoden worden vaak onderverdeeld in lineaire en niet -lineaire benaderingen.[1] Benaderingen kunnen ook worden verdeeld in functieselectie en Feature extractie.[2] Dimensionaliteitsvermindering kan worden gebruikt voor ruisvermindering, data visualisatie, clusteranalyse, of als een tussenliggende stap om andere analyses te vergemakkelijken.
Functieselectie
Functieselectie Benaderingen proberen een subset te vinden van de invoervariabelen (ook wel functies of attributen genoemd). De drie strategieën zijn: de filter strategie (bijv. Informatiewinst), de wikkel strategie (bijv. Zoeken geleid door nauwkeurigheid), en de ingebed Strategie (geselecteerde functies worden toegevoegd of verwijderd tijdens het bouwen van het model op basis van voorspellingsfouten).
Gegevensanalyse zoals regressie of classificatie Kan nauwkeuriger in de gereduceerde ruimte worden gedaan dan in de oorspronkelijke ruimte.[3]
Functieprojectie
Feature -projectie (ook wel functie -extractie genoemd) transformeert de gegevens van de hoog-dimensionale ruimte naar een ruimte van minder dimensies. De gegevenstransformatie kan lineair zijn, zoals in Hoofdcomponentanalyse (PCA), maar veel niet -lineaire dimensionaliteitsvermindering Technieken bestaan ook.[4][5] Voor multidimensionale gegevens, Tensor -weergave kan worden gebruikt in dimensionaliteitsvermindering door Multilinear Subspace Learning.[6]

Principal Component Analysis (PCA)
De belangrijkste lineaire techniek voor dimensionaliteitsreductie, hoofdcomponentanalyse, voert een lineaire mapping van de gegevens uit naar een lager-dimensionale ruimte zodanig dat de variantie van de gegevens in de laagdimensionale weergave wordt gemaximaliseerd. In de praktijk, de covariantie (en soms de correlatie) Matrix van de gegevens is geconstrueerd en de eigenvectoren Op deze matrix worden berekend. De eigenvectoren die overeenkomen met de grootste eigenwaarden (de belangrijkste componenten) kunnen nu worden gebruikt om een groot deel van de variantie van de oorspronkelijke gegevens te reconstrueren. Bovendien kunnen de eerste paar eigenvectoren vaak worden geïnterpreteerd in termen van het grootschalige fysieke gedrag van het systeem, omdat ze vaak bijdragen aan de overgrote meerderheid van de energie van het systeem, vooral in laagdimensionale systemen. Toch moet dit per geval worden bewezen, omdat niet alle systemen dit gedrag vertonen. De oorspronkelijke ruimte (met de dimensie van het aantal punten) is verminderd (met gegevensverlies, maar hopelijk behouden met de belangrijkste variantie) naar de ruimte die door enkele eigenvectoren wordt overspannen.
Niet-negatieve matrixfactorisatie (NMF)
NMF ontleedt een niet-negatieve matrix van het product van twee niet-negatieve, die een veelbelovend hulpmiddel is geweest in velden waar alleen niet-negatieve signalen bestaan,[7][8] zoals astronomie.[9][10] NMF is bekend sinds de multiplicatieve updateregel van Lee & Seung,[7] die continu is ontwikkeld: de opname van onzekerheden,[9] De overweging van ontbrekende gegevens en parallelle berekening,[11] opeenvolgende constructie[11] wat leidt tot de stabiliteit en lineariteit van NMF,[10] evenals andere updates inclusief het verwerken van ontbrekende gegevens in digitale beeldverwerking.[12]
Met een stabiele componentbasis tijdens de constructie en een lineair modelleringsproces, sequentieel NMF[11] is in staat om de flux te behouden in directe beeldvorming van circumstellaire structuren in astronomie,[10] Als een van de Methoden voor het detecteren van exoplaneten, vooral voor de directe beeldvorming van Conditellar schijven. In vergelijking met PCA verwijdert NMF het gemiddelde van de matrices niet, wat leidt tot onfysische niet-negatieve fluxen; Daarom is NMF in staat om meer informatie te bewaren dan PCA zoals aangetoond door Ren et al.[10]
Kernel pca
Hoofdcomponentanalyse kan op een niet -lineaire manier worden gebruikt door middel van de kerneltruc. De resulterende techniek is in staat om niet -lineaire toewijzingen te construeren die de variantie in de gegevens maximaliseren. De resulterende techniek wordt genoemd kernel pca.
Graph-gebaseerde kernel PCA
Andere prominente niet -lineaire technieken zijn onder meer Mevendeel leren technieken zoals Isomap, Lokaal lineaire inbedding (Lle),[13] Hessian LLE, Laplacian Eigenmaps en methoden op basis van raakruimte -analyse.[14][15] Deze technieken construeren een lage-dimensionale gegevensrepresentatie met behulp van een kostenfunctie die lokale eigenschappen van de gegevens behoudt en kunnen worden gezien als het definiëren van een op grafiek gebaseerde kernel voor kernel PCA.
Meer recent zijn technieken voorgesteld die, in plaats van een vaste kernel te definiëren, de kernel proberen te leren gebruiken semidefinietprogrammering. Het meest prominente voorbeeld van een dergelijke techniek is Maximale variantie die zich ontvouwt (MVU). Het centrale idee van MVU is om alle paarsgewijze afstanden tussen de dichtstbijzijnde buren (in de binnenproductruimte) precies te behouden, terwijl de afstanden tussen punten die geen naaste buren zijn maximaliseren.
Een alternatieve benadering van het behoud van de buurt is door de minimalisatie van een kostenfunctie die verschillen tussen afstanden in de input- en uitgangsruimtes meet. Belangrijke voorbeelden van dergelijke technieken zijn: klassiek multidimensionale schaling, die identiek is aan PCA; Isomap, die geodetische afstanden in de gegevensruimte gebruikt; diffusiekaarten, die diffusieafstanden gebruiken in de gegevensruimte; T-verdeeld stochastische buur (T-SNE), die de divergentie tussen distributies over paren van punten minimaliseert; en curvilineaire componentanalyse.
Een andere benadering van niet -lineaire dimensionaliteitsvermindering is door het gebruik van autoencoders, een speciaal soort van Feedforward neurale netwerken met een verborgen laag met een flesje.[16] De training van diepe encoders wordt meestal uitgevoerd met behulp van een hebzuchtige laaggewijze pre-training (bijvoorbeeld met behulp van een stapel van Beperkte Boltzmann -machines) die wordt gevolgd door een finetuning -fase op basis van backpropagatie.

Lineaire discriminant -analyse (LDA)
Lineaire Discriminant Analysis (LDA) is een generalisatie van Fisher's lineaire discriminant, een methode die wordt gebruikt in statistieken, patroonherkenning en machine learning om een lineaire combinatie van functies te vinden die twee of meer klassen van objecten of gebeurtenissen kenmerkt of scheidt.
Gegeneraliseerde discriminerende analyse (GDA)
GDA behandelt niet -lineaire discriminerende analyse met behulp van de operator van de kernelfunctie. De onderliggende theorie ligt dicht bij de Support-Vector-machines (SVM) voor zover de GDA-methode een toewijzing van de inputvectoren biedt in hoog-dimensionale kenmerkruimte.[17][18] Net als LDA is het doel van GDA het vinden van een projectie voor de kenmerken in een lagere dimensionale ruimte door de verhouding tussen de scatter tussen de klasser tot binnenklasse-spreiding te maximaliseren.
Autoencoder
AutoEncoders kunnen worden gebruikt om niet -lineaire dimensie -reductiefuncties en codeeringen te leren samen met een omgekeerde functie van de codering tot de oorspronkelijke weergave.
T-SNE
T-verdeelde stochastische buur insluiting (T-SNE) is een niet-lineaire dimensionaliteitsreductietechniek die nuttig is voor de visualisatie van hoogdimensionale datasets. Het wordt niet aanbevolen voor gebruik in analyse, zoals clustering of uitbijterdetectie, omdat het niet noodzakelijkerwijs dichtheden of afstanden goed behoudt.[19]
Umap
Uniforme verdeelstukbenadering en projectie (UMAP) is een niet -lineaire dimensionaliteitsreductietechniek. Visueel is het vergelijkbaar met t-SNE, maar het gaat ervan uit dat de gegevens uniform zijn verdeeld over een lokaal verbonden Riemanniaans verdeelstuk en dat de Riemanniaanse metriek is lokaal constant of ongeveer lokaal constant.
Dimensievermindering
Voor hoogdimensionale datasets (d.w.z. met aantal dimensies meer dan 10), wordt dimensievermindering meestal uitgevoerd voordat een K-hemelse buren algoritme (K-NN) om de effecten van de vloek van de dimensionaliteit.[20]
Feature extractie en dimensievermindering kan in één stap worden gecombineerd met behulp van Hoofdcomponentanalyse (PCA), Lineaire discriminerende analyse (LDA), Canonieke correlatieanalyse (CCA), of niet-negatieve matrixfactorisatie (NMF) technieken als een voorverwerkingsstap gevolgd door clustering door K-NN op Feature vectoren in ruimte met een verminderd-dimensie. In Machine Learning Dit proces wordt ook low-dimensionaal genoemd inbedden.[21]
Voor zeer hoge dimensionale datasets (bijv. Bij het uitvoeren van gelijkenisonderzoek op live videostreams, DNA-gegevens of high-dimensionaal tijdreeksen) een snel lopen benaderen K-nn zoeken met behulp van plaatsgevoelige hashing, willekeurige projectie,[22] "Sketches",[23] of andere hoogdimensionale zoektechnieken voor gelijkenis van de VLDB -conferentie Toolbox is misschien de enige haalbare optie.
Toepassingen
Een dimensionaliteitsreductietechniek die soms wordt gebruikt in neurowetenschap is maximaal informatieve afmetingen, die een lager-dimensionale weergave van een dataset vindt, zodat zoveel informatie mogelijk over de oorspronkelijke gegevens worden behouden.
Zie ook
- CUR Matrix -benadering
- Gegevenstransformatie (statistieken)
- Hyperparameter -optimalisatie
- Informatie winst in beslissingsbomen
- Johnson - Lindenstrauss Lemma
- Latente semantische analyse
- Lokale raaklijnruimte -uitlijning
- Plaatsgevoelige hashing
- Minhash
- Multifactor Dimensionality Reduction
- Dichtstbijzijnde buur zoeken
- Niet -lineaire dimensionaliteitsvermindering
- Willekeurige projectie
- Sammon Mapping
- Semantische mapping (statistieken)
- Semidefiniet inbedding
- Singuliere waarden ontbinding
- Voldoende dimensievermindering
- Topologische gegevensanalyse
- Gewogen correlatienetwerkanalyse
Aantekeningen
- ^ a b van der Maaten, Laurens; Postma, Eric; Van den Herik, Jaap (26 oktober 2009). "Dimensionaliteitsvermindering: een vergelijkende beoordeling" (PDF). J mach leer res. 10: 66–71.
- ^ Pudil, P.; Novovičová, J. (1998). "Nieuwe methoden voor selectie van functiesubset met betrekking tot probleemkennis". In Liu, Huan; Motoda, Hiroshi (Eds.). Feature extractie, constructie en selectie. p. 101. doen:10.1007/978-1-4615-5725-8_7. ISBN 978-1-4613-7622-4.
- ^ Rico-Sulayes, Antonio (2017). "Vectorruimtedimensionaliteit verminderen bij automatische classificatie voor toeschrijving van auteurschap". Revista Ingeniería Electrónica, Automática y Comunicaciones. 38 (3): 26–35. ISSN 1815-5928.
- ^ Samet, H. (2006) Funderingen van multidimensionale en metrische gegevensstructuren. Morgan Kaufmann. ISBN0-12-369446-9
- ^ C. Ding, X. He, H. Zha, H.D. Simon, Adaptieve dimensievermindering voor het clusteren van hoge dimensionale gegevens, Proceedings of International Conference on Data Mining, 2002
- ^ Lu, Haiping; Plataniotis, K.N.; Venetsanopoulos, A.N. (2011). "Een overzicht van het leren van multilinear subruimte voor tensorgegevens" (PDF). Patroonherkenning. 44 (7): 1540–1551. doen:10.1016/j.patcog.2011.01.004.
- ^ a b Daniel D. Lee & H. Sebastian Seung (1999). "De delen van objecten leren door niet-negatieve matrixfactorisatie". Natuur. 401 (6755): 788–791. Bibcode:1999natur.401..788L. doen:10.1038/44565. Pmid 10548103. S2CID 4428232.
- ^ Daniel D. Lee & H. Sebastian Seung (2001). Algoritmen voor niet-negatieve matrixfactorisatie (PDF). Vooruitgang in neurale informatieverwerkingssystemen 13: Proceedings of the 2000 Conference. MIT Press. pp. 556–562.
- ^ a b Blanton, Michael R.; Roweis, Sam (2007). "K-correcties en filtertransformaties in de ultraviolette, optische en bijna infrarood". The Astronomical Journal. 133 (2): 734–754. arxiv:Astro-PH/0606170. Bibcode:2007aJ .... 133..734b. doen:10.1086/510127. S2CID 18561804.
- ^ a b c d Ren, bin; Pueyo, Laurent; Zhu, Guangtun B.; Duchêne, Gaspard (2018). "Niet-negatieve matrixfactorisatie: robuuste extractie van uitgebreide structuren". The Astrophysical Journal. 852 (2): 104. arxiv:1712.10317. Bibcode:2018apj ... 852..104R. doen:10.3847/1538-4357/AAA1F2. S2CID 3966513.
- ^ a b c Zhu, Guangtun B. (2016-12-19). "Niet -negatieve matrixfactorisatie (NMF) met heteroscedastische onzekerheden en ontbrekende gegevens". arxiv:1612.06037 [astro-ph.im].
- ^ Ren, bin; Pueyo, Laurent; Chen, Christine; Choquet, Elodie; Debes, John H.; Duechene, Gaspard; Menard, Francois; Perrin, Marshall D. (2020). "Het gebruik van gegevensimputatie voor signaalscheiding bij beeldvorming met hoge contrast". The Astrophysical Journal. 892 (2): 74. arxiv:2001.00563. Bibcode:2020APJ ... 892 ... 74R. doen:10.3847/1538-4357/AB7024. S2CID 209531731.
- ^ Roweis, S. T.; Saul, L. K. (2000). "Niet -lineaire dimensionaliteitsvermindering door lokaal lineaire inbedding". Wetenschap. 290 (5500): 2323–2326. Bibcode:2000sci ... 290.2323R. Citeseerx 10.1.1.111.3313. doen:10.1126/science.290.5500.2323. Pmid 11125150.
- ^ Zhang, Zhenyue; ZHA, Hongyuan (2004). "Hoofdspruitstukken en niet -lineaire dimensionaliteitsvermindering via raakruimte -uitlijning". Siam Journal on Scientific Computing. 26 (1): 313–338. doen:10.1137/s1064827502419154.
- ^ Bengio, Yoshua; Monperrus, Martin; Larochelle, Hugo (2006). "Niet -lokale schatting van de verdeelstukstructuur". Neurale berekening. 18 (10): 2509–2528. Citeseerx 10.1.1.116.4230. doen:10.1162/neco.2006.18.10.2509. Pmid 16907635. S2CID 1416595.
- ^ Hongbing Hu, Stephen A. Zahorian, (2010) "Dimensionaliteit reductiemethoden voor hmm fonetische herkenning", ICASSP 2010, Dallas, TX
- ^ Baudat, G.; Anouar, F. (2000). "Gegeneraliseerde discriminerende analyse met behulp van een kernelbenadering". Neurale berekening. 12 (10): 2385–2404. Citeseerx 10.1.1.412.760. doen:10.1162/089976600300014980. Pmid 11032039. S2CID 7036341.
- ^ Haghighat, Mohammad; Zonouz, Saman; Abdel-Mottaleb, Mohamed (2015). "CloudID: betrouwbare cloudgebaseerde en cross-enterprise biometrische identificatie". expert systemen met applicaties. 42 (21): 7905–7916. doen:10.1016/j.eswa.2015.06.025.
- ^ Schubert, Erich; Gertz, Michael (2017). Beecks, christen; Borutta, Felix; Kröger, peer; SEIDL, Thomas (eds.). "Intrinsieke T-stochastische buur insluiting voor visualisatie en uitbijterdetectie". Zoeken en applicaties van gelijkenis. Lecture Notes in Computer Science. Cham: Springer International Publishing. 10609: 188–203. doen:10.1007/978-3-319-68474-1_13. ISBN 978-3-319-68474-1.
- ^ Kevin Beyer, Jonathan Goldstein, Raghu Ramakrishnan, Uri Shaft (1999) "Wanneer is" dichtstbijzijnde buurman "zinvol?". Databasetheorie - icdt99, 217–235
- ^ Shaw, B.; Jebara, T. (2009). "Structuur bewaren insluiting" (PDF). Proceedings of the 26th Annual International Conference on Machine Learning - ICML '09. p. 1. Citeseerx 10.1.1.161.451. doen:10.1145/1553374.1553494. ISBN 9781605585161. S2CID 8522279.
- ^ Bingham, E.; Mannila, H. (2001). "Willekeurige projectie in dimensionaliteitsvermindering". Proceedings of the Seventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining - KDD '01. p. 245. doen:10.1145/502512.502546. ISBN 978-1581133912. S2CID 1854295.
- ^ Shasha, D High (2004) Performance Discovery in Time Series Berlijn: Springer. ISBN0-387-00857-8
Referenties
- Boehmke, Brad; Greenwell, Brandon M. (2019). "Dimensie -reductie". Hands-on machine learning met r. Chapman & Hall. pp. 343–396. ISBN 978-1-138-49568-5.
- Cunningham, P. (2007). Dimensievermindering (Technisch rapport). University College Dublin. UCD-CSI-2007-7.
- Fodor, I. (2002). Een onderzoek naar dimensieverminderingstechnieken (Technisch rapport). Centre for Applied Scientific Computing, Lawrence Livermore National. UCRL-ID-148494.
- Lakshmi Padmaja, Dhyaram; Vishnuvardhan, B (2016). "Vergelijkende studie van de selectiemethoden voor het selecteren van functies voor dimensionaliteitsreductie op wetenschappelijke gegevens". 2016 IEEE 6th International Conference on Advanced Computing (IACC). pp. 31–34. doen:10.1109/IACC.2016.16. ISBN 978-1-4673-8286-1. S2CID 14532363.