Bio-informatica

Uit Wikipedia, de vrije encyclopedie
(Doorverwezen vanaf Bioinformatica)
Ga naar: navigatie, zoeken
Kaart van het menselijk X-chromosoom (van de NCBI-website). De samenstelling van het menselijk genoom is een van de grootste prestaties van de bio-informatica.

Bio-informatica is de wetenschap die tot doel heeft de biologische kennis te verrijken door kennis uit de informatica toe te passen op biologische data. De bio-informatica wordt gezien als een van de deelgebieden van medische informatiekunde, in de Engelstalige vakliteratuur Biomedical Informatics genoemd.[1]

De term bio-informatica werd in Nederland voor het eerst gebruikt door Paulien Hogeweg en Ben Hesper.[2][3]

Achtergrond[bewerken]

In een experimenteel laboratorium worden data gegenereerd door het uitvoeren van een experimenteel onderzoek. De moleculaire bioloog tracht zijn vragen te beantwoorden met zijn in het laboratorium gegenereerde data. De bio-informaticus doet hetzelfde maar met gegevens die hij zelf niet heeft gegenereerd, maar wel heeft gekregen van een moleculaire bioloog. Door zijn vakkennis van zowel biologie als informatiekunde is de bio-informaticus beter gepositioneerd voor dit onderzoek dan de moleculair bioloog.

De biologische gegevens waarover sprake is, zijn onder andere:

Kenmerkend voor bio-informatica is dat er relaties worden gelegd tussen de vele gegevens. Zo worden stukken vergelijkbaar DNA gezocht, eiwitten met vergelijkbare expressiepatronen, genetische afwijkingen die bovengemiddeld aanwezig zijn bij mensen met een bepaalde erfelijke ziekte, etcetera. Niet zelden worden hierbij evolutionaire inzichten en in het bijzonder fylogenetische bomen gebruikt, die de geschiedenis van de evolutie van genen en/of organismen proberen te reconstrueren.

Nederland kent een eigen bio-informatica-instituut ter bevordering van het onderzoek in Nederland, het Netherlands Bioinformatics Centre.[4]

Software[bewerken]

Sequentiesoftware[bewerken]

Alineëring van verschillende sequenties van het proteïne hemoglobine aan de hand van het programma ClustalW

Sequentiesoftware wordt ingeschakeld voor het onderzoek van bijvoorbeeld de functie en ligging van een onbekend stukje DNA. Dit gebeurt met behulp van het BLAST-algoritme. Dit algoritme knipt een onbekende sequentie in kleinere stukjes en gaat op zoek in een gen- of eiwitdatabank naar een zo lang mogelijk overeenkomstig stuk. Dit principe ligt aan de basis van verscheidene andere sequentietools, waarbij iedere tool een specifiek doel heeft:

  • Detecteren van nieuwe genen tussen junk-DNA en/of pseudogenen.
  • Opzoeken van homologieën in databanken.
  • 'Vergelijken' van twee of meer sequenties.
  • Opbouwen/detecteren van de fylogenetische stamboom (evolutie) van organismen en genen (bijvoorbeeld genfamilies) ontstaan na genduplicatie zoals in hemoglobines.
  • Onbekende stukken sequentie (DNA, mRNA, eiwitsequentie) functioneel classificeren.

Tools[bewerken]

Pathwayvisualisatiesoftware[bewerken]

Tools[bewerken]

Programmeertalen[bewerken]

De meeste programmeertalen zijn generiek toepasbaar. In de bio-informatica worden de volgende programmeertalen vaak gebruikt:

Databanken[bewerken]

Tegenwoordig is er een grote hoeveelheid informatie over gen- en eiwitsequenties beschikbaar. Deze informatie groeide op een zeker moment exponentieel, waarom besloten is om alles op te slaan in specifieke databanken:

Gendatabanken[bewerken]

Deze databanken bevatten voornamelijk informatie over bekende en onbekende DNA- en mRNA-sequenties. Tot op heden bestaan er drie grote databanken, ontwikkeld op verschillende continenten:

  • Het Europese, door EBI ontwikkelde EMBL,
  • Het Amerikaanse, door NCBI begonnen GenBank
  • Het Japanse DDBJ.

Voordat een onderzoeker een nieuw gen kon publiceren, diende hij de gevonden gensequentie publiek te maken door die in één van bovenstaande databanken te deponeren. Door de grote explosie aan nieuwe informatie werd het gaandeweg zeer moeilijk om alle informatie te controleren. Dit heeft geleid tot 'vervuiling' van deze databanken (="database redundancy"): iedereen had de mogelijkheid om zijn eigen stukje sequentie toe te voegen. Echter, aan deze sequentie hing soms nog een stukje vectorieel cDNA (nodig voor amplificatie) of was de sequentiëring naar aan het einde van het gen van slechtere kwaliteit, waardoor de kwaliteit achteruitging.

De laatste jaren is veel aandacht besteed aan de compatibiliteit tussen deze databanken, waarbij de focus werd gelegd op het gebruik van databankreferenties. Dit betekent dat bij het zoeken van een gen in databank X er referenties zullen staan naar hetzelfde gen in de overige gendatabanken (indien bekend).

Eiwitdatabanken[bewerken]

Na de opkomst van DNA-sequentiëringtechnieken liep de eiwitsequentiëring niet ver achter. Ook hiervoor was een geschikte databank nodig. Deze publieke databank eiste wel dat alle informatie eerst werd gecontroleerd en geverifieerd door experts (="curators") voordat een nieuw eiwit kon worden toegevoegd en/of aangepast.

Ook hier werden twee initiatieven gestart:

Het Europese EBI hield zich bezig met de ontwikkeling van:

  • Swiss-Prot
    • Bevat aminozuursequentie.
    • Nieuwe informatie wordt eerst streng gecontroleerd door experts.
    • Kwalitatief beste eiwitdatabank.
    • Bevat alle mogelijke informatie, die bekend is over een specifiek eiwit.
    • Ieder eiwit wordt gekoppeld aan zijn oorspronkelijke referenties naar de literatuur.
    • Referenties naar vele andere databanken aanwezig.
    • Oorspronkelijk ontwikkeld door een Zwitserse bio-informaticagroep ("Swiss")
  • TrEMBL - Translated EMBL:
    • Alle DNA-sequenties aanwezig in EMBL worden 'vertaald' naar aminozuursequenties.
    • TrEMBL bestaat dus voornamelijk uit hypothetische eiwitten.
  • SPTrEMBL - SwissProt Translated EMBL:
    • Bevat eiwitten uit TrEMBL waar experimenteel werd aangetoond dat ze bestaan.
    • Deze informatie zal door aangewezen experts grondig worden nagekeken voordat het in een volgende versie van Swiss-Prot wordt toegevoegd.

Het Amerikaanse NCBI ontwikkelde:

  • PDB - Protein Data Bank
    • Bevat alle structurele informatie over een eiwit.
  • PIR - Protein Information Resource

Deze eiwitdatabanken groeiden uit tot een belangrijke informatiebron voor moleculaire biologen. Beide initiatieven zagen dit op tijd in en sloegen in 2003 de handen ineen. Het UniProt consortium werd gevormd en niet veel later ontstond hieruit Uni-Prot. Het doel van deze samenwerking was het optimaal aanbieden van een eiwitdatabank waarin alle bekende informatie over eiwitten gecombineerd werd tot een geheel aan annotaties en databankreferenties.

Met het begrip annotatie worden naast de kerngegevens (sequentie, referentie en taxonomische oorsprong) ook de overige gegevens verzameld:

  • Functie van het eiwit.
  • Post-translationele modificaties (glycosylering, fosforylering, acetylering, GPI-anker ... ).
  • Domeininformatie (Ca-bindend domein, ATP-bindend, Zn-vingers, homeobox, kringle ... ).
  • Secundaire / quaternaire structuur (homodimeer, heterotrimeer ... ).
  • Gelijkenissen met andere eiwitten.
  • Ziektebeelden gekoppeld aan een specifiek eiwit.
  • Varianten.

Interfaces[bewerken]

Hoewel veel databanken in essentie dezelfde informatie bevatten, zijn er toch verschillende interfaces ontwikkeld die de gebruiker in staat stellen om informatie uit zo veel mogelijk databanken te extraheren: