Clusteranalyse

Uit Wikipedia, de vrije encyclopedie
Ga naar: navigatie, zoeken

Clusteranalyse is het classificeren of het groeperen in 'clusters' of 'klassen' van objecten op grond van hun kenmerken. Het doel van clusteranalyse is het vormen van deelverzamelingen die elk hun eigen gedeelde kenmerken bevatten. Om het resultaat te visualiseren kan een dendrogram worden gebruikt.

Hoofdtypen[bewerken]

Veel grote classificatiesystemen zijn hiërarchisch gestructureerd. Het resultaat is de vorming van een dendrogram. Hoe hoger een groep in een hiërarchie is geplaatst, hoe algemener de beschrijving ervan zal zijn. Groepen zijn hierbij onderverdeeld in subgroepen die op hun beurt ook weer in groepen zijn onderverdeeld (divisief en hiërarchisch). Bij divisieve methoden wordt een gegevensverzameling in deelverzamelingen (subsets, clusters) opgedeeld. Naast divisieve methoden bestaan ook agglomeratieve methoden, waarbij de objecten in steeds grotere clusters worden samengevoegd.

Bij niet-hiërarchische methoden wordt de gegevensverzameling in een keer verdeeld in een van tevoren opgegeven aantal deelgroepen. Deze deelgroepen zijn niet-overlappend: elk object behoort slechts in een deelgroep.

Er zijn ook methoden die leiden tot overlappende groepen, of vage verzamelingen, waarvan de elementen graden van lidmaatschap kennen.

Classificatiemethoden[bewerken]

Er is een grote variatie aan methoden. Kenmerken van de classificatiemethoden zijn onder andere:

  • Aantal gebruikte kenmerken:
    • de classificatie heet 'monothetisch' als er voor het opstellen slechts een kenmerk wordt gebruikt,
    • als er veel kenmerken worden gebruikt heet de classificatie 'polythetisch'.
  • Voorbewerking van de gegevens:
    • bij 'indirecte' methoden is het nodig eerst de verschillen (distanties) of de overeenkomsten of verwantschappen (similariteiten) tussen de objecten te berekenen,
    • bij 'directe' methoden is die stap niet nodig. Dit is de minderheid van de methoden.
  • Groepen samenvoegen of splitsen:
    • als de objecten worden samengevoegd in steeds grotere groepen gaat het om een 'agglomeratieve' methode.
    • de methode heet 'divisief' als de volledige verzameling van objecten in een keer wordt opgedeeld in kleinere subgroepen. Daarbij moet van tevoren worden opgegeven hoeveel clusters het resultaat moet opleveren.
  • Scheiding tussen de groepen:
    • leden van een groep komen slechts in een groep voor.
    • groepen zijn overlappend; leden van een groep kunnen in meer dan een groep voor komen.

Als het resultaat van de clusteranalyse een dendrogram is (een diagram met een boomstructuur), heet de classificatie 'hierarchisch'. Een goed voorbeeld is een stamboom.

Stappen in de clusteranalyse[bewerken]

Bij de clusteranalyse moeten enkele subjectieve beslissingen worden genomen. Het classificeren verloopt in de volgende stappen:

  1. De keuze van de te classificeren objecten (entiteiten, individuen, operationele eenheden, monsters, opnames, tellingen, sample units, relevées), op grond waarvan een classificatie gemaakt moet worden.
  2. De keuze van de kenmerken (attributen, eigenschappen, variabelen, characters, traits, features, cases) die gebruikt zullen worden bij het classificeren. Soms is een classificatie gebaseerd op de mate waarin één bepaalde eigenschap bij een object voorkomt. Zo kunnen stenen geordend worden op hun hardheid.
  3. De reeks van waarden die de kenmerken (character states, observations, values, qualities) mogen aannemen en de meetschalen die daarbij gebruikt zullen worden.
  4. De vaststelling van de weegfactoren van de kenmerken (bijvoorbeeld a priori gelijke weging). In de cladistiek worden plesiomorfieën ('primitieve' kenmerken) licht, maar juist de apomorfieën ('afgeleide' kenmerken) zwaar gewogen binnen de onderzochte groep van objecten.
  5. Het meten / waarnemen en het vastleggen van de waarden van de kenmerken van de objecten.
  6. De keuze van de classificatiemethode. Vaak is daarbij een keuze van de maat voor verwantschap (similariteit) of voor het verschil (distantie) tussen de objecten nodig. Ook moet er bijvoorbeeld gekozen worden uit een divisieve (top-down) methode, een agglomeratieve (bottom up) methode (beide hiërarchisch) of een niet-hiërarchische methode.
  7. De bewerking van de verzamelde gegevens, met als resultaat de classificatie van de objecten en/of van de kenmerken of een dendrogram.

Het is ook mogelijk niet de objecten, maar de kenmerken te classificeren. Bij de directe methoden gebeurt dit automatisch.

Eigenschappen, kenmerken[bewerken]

De volgende soorten van eigenschappen of kenmerken zijn meestal in classificaties terug te vinden:

Biologische toepassingen[bewerken]

In de biologie zijn er meerdere gebieden waar clusteranalyse wordt toegepast.

  • In de systematiek worden zowel divisieve als agglomeratieve methoden tegelijk gebruikt bij de classificaties van organismen. Het centrale niveau is dat van de soort. Soorten kunnen weer worden onderverdeeld in lagere taxa, zoals ondersoort en variëteit. Soorten zelf worden samengevoegd in geslachten en deze weer in families en in taxa van nog hogere rang.
  • In transcriptomics wordt clusteren gebruikt om groepen te maken met genen die gerelateerde expressiepatronen bevatten. Vaak bevat elke subgroep functioneel gerelateerde proteïnen, zoals enzymen voor een specifieke pathway, of genen die co-gereguleerd zijn.
  • Sequentieanalyse, hierbij worden homologe sequenties geclustert tot genfamilies.
  • Vegetatieopnamen worden geclusterd, de clusters worden dan geabstraheerd tot vegetatietypen.
Plantkunde en deelgebieden
Bijzondere plantkunde: Algologie · Bryologie · Fycologie · Lichenologie · Mycologie · Pteridologie
Paleobotanie: Archeobotanie · Dendrochronologie · Fossiele planten · Gyttja · Palynologie · Pollenzone · Varens · Veen
Plantenanatomie & Plantenmorfologie: Beschrijvende plantkunde · Apoplast · Blad · Bladgroenkorrel · Bladstand · Bloeiwijze · Bloem · Bloemkroon · Boomkruin · Celwand · Chloroplast · Collenchym · Cortex · Cuticula · Eicel · Epidermis · Felleem · Fellogeen · Felloderm · Fenologie · Floëem · Fytografie · Gameet · Gametofyt · Groeivorm · Haar · Houtvat · Huidmondje · Hypodermis · Intercellulair · Intercellulaire ruimte · Kelk · Kroonblad · Kurk · Kurkcambium · Kurkschors · Levensduur · Levensvorm · Merg · Meristeem · Middenlamel · Palissadeparenchym · Parenchym · Periderm · Plantaardige cel · Plastide · Schors · Sklereïde · Sklerenchym · Spermatozoïde · Sponsparenchym · Sporofyt · Stam · Steencel · Stengel · Stippel · Symplast · Tak · Thallus · Topmeristeem · Trachee · Tracheïde · Tylose · Vaatbundel · Vacuole · Vrucht · Wortel · Xyleem · Zaad · Zaadcel · Zeefvat · Zygote
Plantenfysiologie: Ademhaling · Bladzuigkracht · Evapotranspiratie · Fotoperiodiciteit · Fotosynthese · Fytochemie · Plantenfysiologie · Plantenhormoon · Rubisco · Transpiratie · Turgordruk · Winterhard
Plantengeografie: Adventief · Areaal · Beschermingsstatus · Bioom · Endemisme · Exoot · Flora · Floradistrict · Floristiek · Invasieve soort · Status · Stinsenplant · Uitsterven · Verspreidingsgebied
Floradistricten: District IJsselmeerpolders (Y) · Drents district (Dr) · Duindistricten (Du) · Estuariën district (E) · Fluviatiel district (F) · Gelders district (G) · Hafdistricten (H) · Kempens district (K) · Laagveendistrict (L) · Maritiem district (M) · Noordelijk kleidistrict (N) · Pleistocene districten (P) · Renodunaal district (R) · Subcentroop district (S) · Urbaan district (Ur) · Vlaams district (V) · Waddendistrict (W) · Zuid-Limburgs district (Z)
Plantensystematiek: APG II-systeem · APG III-systeem · Algen · Botanische naam · Botanische nomenclatuur · Cladistiek · Cormophyta · Cryptogamen · Classificatie · Embryophyta · Endosymbiontentheorie · Endosymbiose · Evolutie · Fanerogamen · Fylogenie · Generatiewisseling · Groenwieren · Hauwmossen · Korstmossen · Kranswieren · Landplanten · Levenscyclus · Levermossen · Mossen · Roodalgen · Taxonomie · Type · Varens · Zaadplanten · Zeewier
Vegetatiekunde & Plantenoecologie: Abundantie · Associatie · Bedekking · Biodiversiteit · Biotoop · Boomlaag · Bos · Braun-Blanquet (methode) · Broekbos · Climaxvegetatie · Clusteranalyse · Concurrentie · Constante soort · Differentiërende soort · Ecologische groep · Ellenberggetal · Gradiënt · Grasland · Heide · Kensoort · Kruidlaag · Kwelder · Minimumareaal · Moeras · Moslaag · Ordinatie · Pioniersoort · Plantengemeenschap · Potentieel natuurlijke vegetatie · Presentie · Regenwoud · Relevé · Ruigte · Savanne · Schor · Steppe · Struiklaag · Struweel · Successie · Syntaxon · Syntaxonomie · Tansley (methode) · Toendra · Tropisch regenwoud · Trouw · Veen · Vegetatie · Vegetatieopname · Vegetatiestructuur · Vegetatietype · Vergrassing · Verlanding