Elastische kaart

Lineaire PCA versus niet -lineaire hoofdverdeelstukken[1] voor visualisatie van borstkanker microarray Gegevens: a) Configuratie van knooppunten en 2D hoofdoppervlak in het 3D PCA -lineaire verdeelstuk.De dataset is gebogen en kan niet voldoende worden toegewezen op een 2D -hoofdvlak;b) de verdeling in de interne 2D-niet-lineaire hoofdoppervlakcoördinaten (ELMAP2D) samen met een schatting van de dichtheid van punten;c) hetzelfde als B), maar voor het lineaire 2D PCA -verdeelstuk (PCA2D).Het "basale" subtype borstkanker wordt meer voldoende gevisualiseerd met ELMAP2D en sommige kenmerken van de verdeling worden beter opgelost in vergelijking met PCA2D.Hoofdspruitstukken worden geproduceerd door de elastische kaartS -algoritme.Gegevens zijn beschikbaar voor openbare concurrentie.[2] Software is beschikbaar voor gratis niet-commercieel gebruik.[3][4]

Elastische kaarten Geef een hulpmiddel voor niet -lineaire dimensionaliteitsvermindering.Door hun constructie zijn ze een systeem van elastiek veren ingebed in de gegevensruimte.[1] Dit systeem benadert een laagdimensionaal verdeelstuk.Door de elastische coëfficiënten van dit systeem kan de overstap van volledig ongestructureerde K-middelen clustering (nul elasticiteit) tot de schatters die zich nauw bij lineair bevinden PCA verdeelstukken (voor hoge buigende en lage stretchmodules).Met enkele tussenliggende waarden van de elasticiteitscoëfficiënten, dit systeem benadert effectief niet-lineaire hoofdverdeelstukken.Deze benadering is gebaseerd op een mechanisch Analogie tussen hoofdverdeelstukken, die door "het midden" van de gegevensverdeling gaan, en elastische membranen en platen.De methode is ontwikkeld door EEN. Gorban, A.Y.Zinovyev en A.A.Pitenko in 1996-1998.

Energie van elastische kaart

Laten een gegevensset zijn in een eindig-dimensionaal Euclidische ruimte.Elastische kaart wordt weergegeven door een set knooppunten in dezelfde ruimte.Elk Datapoint heeft een hostknooppunt, namelijk het dichtstbijzijnde knooppunt (Als er verschillende dichtstbijzijnde knooppunten zijn, neemt men het knooppunt met het kleinste nummer).De gegevensset is verdeeld in klassen .

De benadering energie D is de vervorming

,

dat is de energie van de veren met eenheidselasticiteit die elk gegevenspunt verbindt met zijn hostknooppunt.Het is mogelijk om wegingsfactoren toe te passen op de voorwaarden van deze som, bijvoorbeeld om de standaardafwijking van de waarschijnlijkheidsdichtheidsfunctie van elke subset van gegevenspunten .

Op de set knooppunten wordt een extra structuur gedefinieerd.Enkele paar knooppunten, , zijn verbonden door elastische randen.Noem deze set paren .Enkele drievoudige knooppunten, , het formulier Buigribben buigen.Noem deze set drieling .

De stretching -energie is ,
De buigende energie is ,

waar en zijn respectievelijk de rek- en buigmoduli.De stretcherende energie wordt soms de membraan, terwijl de buigende energie wordt genoemd als de dunne plaat termijn.[5]

Op het 2D -rechthoekige rooster zijn de elastische randen bijvoorbeeld alleen verticale en horizontale randen (paren van de dichtstbijzijnde hoekpunten) en de buigribben zijn de verticale of horizontale drieling van opeenvolgende (dichtstbijzijnde) hoekpunten.

De totale energie van de elastische kaart is dus

De positie van de knooppunten wordt bepaald door de mechanisch evenwicht van de elastische kaart, d.w.z. de locatie is zodanig dat het de totale energie minimaliseert .

Verwachting-maximalisatie-algoritme

Voor een bepaalde splitsing van dataset in klassen , minimalisatie van de kwadratische functionele is een lineair probleem met de schaarse matrix van coëfficiënten.Daarom vergelijkbaar met Hoofdcomponentanalyse of K-middelen, een splitsingsmethode wordt gebruikt:

  • Voor gegeven vind ;
  • Voor gegeven minimaliseren en vind ;
  • Als er geen wijziging is, beëindigt u.

Deze verwachting-maximalisatie-algoritme garandeert een lokaal minimum van .Voor het verbeteren van de benadering worden verschillende aanvullende methoden voorgesteld.Bijvoorbeeld de verzachting strategie wordt gebruikt.Deze strategie begint met rigide roosters (kleine lengte, kleine buigen en grote elasticiteitsmodules en coëfficiënten) en afwerkingen met zachte roosters (klein en ).De training gaat in verschillende tijdvakken, elk tijdperk met zijn eigen rigidheid.Een andere adaptieve strategie is groeiend net: Men begint bij een klein aantal knooppunten en voegt geleidelijk nieuwe knooppunten toe.Elk tijdperk gaat met zijn eigen aantal knooppunten.

Toepassingen

Toepassing van hoofdcurves gebouwd door de Elastische kaartenmethode: niet -lineaire kwaliteit van leven index.[6] Punten vertegenwoordigen gegevens van de VN 171 landen in 4-dimensionale ruimte gevormd door de waarden van 4 indicatoren: Bruto product per hoofd van de bevolking, levensverwachting, kindersterfte, tuberculose incidentie.Verschillende vormen en kleuren komen overeen met verschillende geografische locaties en jaren.Red Bold -lijn vertegenwoordigt de hoofdcurve, het benaderen van de gegevensset.

De belangrijkste toepassingen van de methode en gratis software[3] zijn in bio -informatica[7][8] Voor verkennende gegevensanalyse en visualisatie van multidimensionale gegevens, voor datavisualisatie in economie, sociale en politieke wetenschappen,[9] als hulpmiddel voor het in kaart brengen van gegevens in geografische informatiesystemen en voor visualisatie van gegevens van verschillende aard.

De methode wordt toegepast in kwantitatieve biologie voor het reconstrueren van het gebogen oppervlak van een boomblad van een stapel lichtmicroscopiebeelden.[10] Deze reconstructie wordt gebruikt voor het kwantificeren van de geodetisch afstanden tussen trichomen en hun patronen, wat een marker is voor het vermogen van een plant om zich tegen pathogenes te weerstaan.

Onlangs wordt de methode aangepast als een ondersteuningstool in het besluitvormingsproces dat ten grondslag ligt aan de selectie, optimalisatie en beheer van Financiële portefeuilles.[11]

De methode van elastische kaarten is systematisch getest en vergeleken met verschillende Machine Learning methoden op het toegepaste probleem van identificatie van het stroomregime van een gas-vloeistofstroom in een pijp.[12] Er zijn verschillende regimes: eenfasige water- of luchtstroom, bubbelsstroom, bubbels-slugstroom, slakstroom, slug-churn stroming, churn stroming, churn-anannulaire stroming en ringvormige stroming.De eenvoudigste en meest voorkomende methode die wordt gebruikt om het stroomregime te identificeren, is visuele observatie.Deze benadering is echter subjectief en ongeschikt voor relatief hoge gas- en vloeistofstroomsnelheden.Daarom worden de methoden voor machine learning door veel auteurs voorgesteld.De methoden worden toegepast op differentiële drukgegevens verzameld tijdens een kalibratieproces.De methode van elastische kaarten zorgde voor een 2D -kaart, waarbij het gebied van elk regime wordt weergegeven.De vergelijking met enkele andere methoden voor machine learning wordt gepresenteerd in tabel 1 voor verschillende pijpdiameters en druk.

Tabel 1. Nauwkeurigheid van de identificatie van stroomregime (%)
van verschillende machine learning -algoritmen
Kalibratie Testen Grotere diameter Hogere druk
Elastische kaart 100 98.2 100 100
Ann 99.1 89.2 76.2 70.5
SVM 100 88.5 61.7 70.5
Som (klein) 94.9 94.2 83.6 88.6
Som (groot) 100 94.6 82.1 84.1

Hier staat Ann voor de backpropagatie Kunstmatige neurale netwerken, SVM staat voor de Ondersteuning vectormachine, SOM VOOR DE Zelforganiserende kaarten.De hybride technologie is ontwikkeld voor technische toepassingen.[13] In deze technologie worden elastische kaarten gebruikt in combinatie met Hoofdcomponentanalyse (PCA), Onafhankelijke componentanalyse (ICA) en backpropagatie Ann.

Het tekstboek[14] biedt een systematische vergelijking van elastische kaarten en Zelforganiserende kaarten (Soms) in aanvragen voor economische en financiële besluitvorming.

Referenties

  1. ^ a b A. N. Gorban, A. Y. Zinovyev, Hoofdgrafieken en spruitstukken, In: Handbook of Research on Machine Learning -toepassingen en trends: algoritmen, methoden en technieken, Olivas E.S.et al.Eds.Information Science Reference, IGI Global: Hershey, PA, VS, 2009. 28–59.
  2. ^ Wang, Y., Klijn, J.G., Zhang, Y., Sieuwerts, A.M., Look, M.P., Yang, F., Talantov, D., Timmermans, M., Meijer-Van Gelder, M.E., Yu, J. et al.: Genexpressie profileert om metastase op afstand te voorspellen van lymfeklier-negatieve primaire borstkanker.Lancet 365, 671–679 (2005); Gegevens online
  3. ^ a b A. Zinovyev, Vidaexpert - Multidimensionale tool voor gegevens visualisatie (gratis voor niet-commercieel gebruik). Institut Curie, Parijs.
  4. ^ A. Zinovyev, VidaExpert Overzicht, Ihes (Institut des Hautes Études Scientifiques), Bures-sur-yvette, île-de-France.
  5. ^ Michael Kass, Andrew Witkin, Demetri Terzopoulos, Snakes: Active Contour Models, Int.J.Computer Vision, 1988 Vol 1-4 pp.321-331
  6. ^ A. N. Gorban, A. Zinovyev, Principale verdeelstukken en grafieken in de praktijk: van moleculaire biologie tot dynamische systemen, International Journal of Neural Systems, Vol. 20, nr. 3 (2010) 219–232.
  7. ^ EEN.Gorban, B. Kegl, D. Wunsch, A. Zinovyev (Eds.), Principale verdeelstukken voor datavisualisatie en dimensievermindering, LNCSE 58, Springer: Berlin - Heidelberg - New York, 2007. ISBN978-3-540-73749-0
  8. ^ M. Chacón, M. Lévano, H. Allende, H. Nowak, Detectie van genuitdrukkingen in microarrays door iteratief elastisch neuraal net toe te passen, In: B. Beliczynski et al.(Eds.), Lecture Notes in Computer Sciences, Vol.4432, Springer: Berlijn - Heidelberg 2007, 355–363.
  9. ^ A. Zinovyev, Datavisualisatie in politieke en sociale wetenschappen, In: Sage "Internationale encyclopedie van politieke wetenschappen", Badie, B., Berg-Schlosser, D., Morlino, L. A. (Eds.), 2011.
  10. ^ H. Failmezger, B. Jaegle, A. Schrader, M. Hülskamp, A. Tresch., Semi-geautomatiseerde 3D-bladreconstructie en analyse van trichoompatronen uit lichtmicroscopische beelden, PLOS Computational Biology, 2013, 9 (4): E1003029.
  11. ^ M. Resta, Portfolio -optimalisatie door elastische kaarten: enig bewijs van de Italiaanse beurs, Kennisgebaseerde intelligente informatie- en technische systemen, B. Apolloni, R.J.Howlett en L. Jain (Eds.), Lecture Notes in Computer Science, Vol.4693, Springer: Berlijn-Heidelberg, 2010, 635-641.
  12. ^ H. Shaban, S. Tavoularis, Identificatie van stromingsregime in verticale opwaartse lucht -water buisstroom met differentiële druksignalen en elastische kaarten, International Journal of Multiphase Flow 61 (2014) 62-72.
  13. ^ H. Shaban, S. Tavoularis, Meting van gas- en vloeistofstroomsnelheden in tweefasige buisstromen door de toepassing van machine learning-technieken op differentiële druksignalen, International Journal of Multiphase Flow 67 (2014), 106-117
  14. ^ M. Resta, Computationele inlichtingenparadigma's in economische en financiële besluitvorming, Series Intelligent Systems Reference Library, Volume 99, Springer International Publishing, Zwitserland 2016.