Bio-informatica

Uit Wikipedia, de vrije encyclopedie
Ga naar: navigatie, zoeken
Kaart van het menselijk X-chromosoom (van de NCBI-website). De samenstelling van het menselijk genoom is een van de grootste prestaties van de bio-informatica.

Bio-informatica is de wetenschap die tot doel heeft de biologische kennis te verrijken door kennis uit de informatica toe te passen op biologische data. De bio-informatica is dan ook meer een biologische discipline dan een subdomein van de informatica. Dit wordt duidelijk gemaakt door de term "drybench".

De term werd in 1978 bedacht door Paulien Hogeweg en Ben Hesper.[1][2]

Achtergrond[bewerken]

In een experimenteel laboratorium wordt data gegenereerd door het uitvoeren van een experimenteel onderzoek ("wetbench"). De moleculaire bioloog tracht zijn vragen te beantwoorden uit zijn laboratorium gegenereerde data. De bio-informaticus doet hetzelfde maar met gegevens die hij zelf niet heeft gegenereerd, maar wel heeft gekregen van een moleculaire bioloog ("droge kennis").

Deze biologische gegevens zijn onder andere:

Kenmerkend voor bio-informatica is dat er relaties worden gelegd tussen de vele gegevens. Zo worden stukken vergelijkbaar DNA gezocht, eiwitten met vergelijkbare expressiepatronen, genetische afwijkingen die bovengemiddeld aanwezig zijn bij mensen met een bepaalde erfelijke ziekte, etcetera. Niet zelden worden hierbij evolutionaire inzichten en in het bijzonder fylogenetische bomen gebruikt, die de geschiedenis van de evolutie van genen en/of organismen proberen te reconstrueren.

Nederland kent een eigen bio-informatica-instituut ter bevordering van het onderzoek in Nederland, namelijk het Netherlands Bioinformatics Centre.[3]

Software[bewerken]

Sequentiesoftware[bewerken]

Alineëring van verschillende sequenties van het proteïne hemoglobine aan de hand van het programma ClustalW

Sequentiesoftware wordt ingeschakeld voor het onderzoek van bijvoorbeeld de functie en ligging van een onbekend stukje DNA. Daarvoor zal men gebruikmaken van het BLAST-algoritme. Dit algoritme knipt een onbekende sequentie in kleinere stukjes en gaat op zoek in een gen- of eiwitdatabank naar een zo lang mogelijk overeenkomstig stuk. Dit principe ligt aan de basis van verscheidene andere sequentietools, waarbij iedere tool een specifieke doel heeft:

  • Detecteren van nieuwe genen tussen junk-DNA en/of pseudogenen.
  • Opzoeken van homologieën in databanken.
  • 'Vergelijken' van twee of meer sequenties.
  • Opbouwen/detecteren van de fylogenetische stamboom (evolutie) van organismen en genen (bijvoorbeeld genfamilies) ontstaan na genduplicatie zoals in hemoglobines.
  • Onbekende stukken sequentie (DNA, mRNA, eiwitsequentie) functioneel classificeren.

Tools[bewerken]

Pathwayvisualisatiesoftware[bewerken]

Tools[bewerken]

Programmeertalen[bewerken]

De meeste programmeertalen zijn generiek toepasbaar. In de bio-informatica worden de volgende programmeertalen vaak gebruikt:

Databanken[bewerken]

Tegenwoordig is er een grote hoeveelheid informatie over gen- en eiwitsequenties beschikbaar. Deze informatie groeide op een zeker moment exponentieel, waarom besloten is om alles op te slaan in specifieke databanken:

Gendatabanken[bewerken]

Deze databanken bevatten voornamelijk informatie over bekende en onbekende DNA- en mRNA-sequenties. Tot op heden bestaan er drie grote databanken, ontwikkeld op verschillende continenten:

  • Het Europese EBI ontwikkelde EMBL,
  • Het Amerikaanse NCBI begon met GenBank en
  • Het Japanse DDBJ.

Voordat een onderzoeker een nieuw gen kon publiceren, diende hij de gevonden gensequentie publiek te maken door ze in één van bovenstaande databanken te deponeren. Door de grote explosie aan nieuwe informatie werd het zeer moeilijk om alle informatie te controleren. Dit heeft geleid tot een 'vervuiling' van deze databanken (="database redundancy"): iedereen had de mogelijkheid om zijn eigen stukje sequentie toe te voegen. Echter, aan deze sequentie hing soms nog een stukje vectorieel cDNA (nodig voor amplificatie) of was de sequentiëring naar aan het einde van het gen van slechtere kwaliteit, waardoor de kwaliteit achteruitging.

De laatste jaren is veel aandacht besteed aan de compatibiliteit tussen deze databanken, waarbij de focus werd gelegd op het gebruik van databankreferenties. Dit betekent dat bij het zoeken van een gen in databank X er referenties zullen staan naar hetzelfde gen in de overige gendatabanken (indien bekend).

Eiwitdatabanken[bewerken]

Naast de opkomst van DNA-sequentiëringtechnieken liep de eiwitsequentiëring niet ver achter. Ook hier was een geschikte databank voor nodig. Deze publieke databank eiste wel dat alle informatie eerst werd gecontroleerd en geverifieerd door experts (="curators") voordat een nieuw eiwit kon worden toegevoegd en/of aangepast.

Ook hier werden twee initiatieven gestart:

Het Europese EBI hield zich bezig met de ontwikkeling van:

  • Swiss-Prot
    • Bevat aminozuursequentie.
    • Nieuwe informatie wordt eerst streng gecontroleerd door experts.
    • Kwalitatief beste eiwitdatabank.
    • Bevat alle mogelijke informatie, die bekend is over een specifiek eiwit.
    • Ieder eiwit wordt gekoppeld aan zijn oorspronkelijke referenties naar de literatuur.
    • Referenties naar vele andere databanken aanwezig.
    • Oorspronkelijk ontwikkeld door een Zwitserse bio-informaticagroep ("Swiss")
  • TrEMBL - Translated EMBL:
    • Alle DNA-sequenties aanwezig in EMBL worden 'vertaald' naar aminozuursequenties.
    • TrEMBL bestaat dus voornamelijk uit hypothetische eiwitten.
  • SPTrEMBL - SwissProt Translated EMBL:
    • Bevat eiwitten uit TrEMBL waar experimenteel werd aangetoond dat ze bestaan.
    • Deze informatie zal door aangewezen experts grondig worden nagekeken voordat het in een volgende versie van Swiss-Prot wordt toegevoegd.

Het Amerikaanse NCBI ontwikkelde:

  • PDB - Protein Data Bank
    • Bevat alle structurele informatie over een eiwit.
  • PIR - Protein Information Resource

Deze eiwitdatabanken groeiden uit tot een belangrijke informatiebron voor moleculaire biologen. Beide initiatieven zagen dit op tijd in en sloegen in 2003 de handen ineen. Het UniProt consortium werd gevormd en niet veel later ontstond hieruit Uni-Prot. Het doel van deze samenwerking was het optimaal aanbieden van een eiwitdatabank waarin alle bekende informatie over eiwitten gecombineerd werd tot een geheel aan annotaties en databankreferenties.

Met het begrip annotatie wordt naast de kerngegevens (sequentie, referentie en taxonomische oorsprong) ook de overige gegevens verzameld:

  • Functie van het eiwit.
  • Post-translationele modificaties (glycosylering, fosforylering, acetylering, GPI-anker ... ).
  • Domeininformatie (Ca-bindend domein, ATP-bindend, Zn-vingers, homeobox, kringle ... ).
  • Secundaire / quaternaire structuur (homodimeer, heterotrimeer ... ).
  • Gelijkenissen met andere eiwitten.
  • Ziektebeelden gekoppeld aan een specifiek eiwit.
  • Varianten.

Interfaces[bewerken]

Hoewel veel databanken in essentie dezelfde informatie bevatten, zijn er toch verschillende interfaces ontwikkeld die de gebruiker in staat stelt om informatie uit zo veel mogelijk databanken te extraheren:

Bronnen, noten en/of referenties
  1. Hogeweg, P. (1978). Simulating the growth of cellular forms. Simulation 31, 90-96
  2. Hogeweg, P. & Hesper, B. (1978) Interactive instruction on population interactions. Comput Biol Med 8:319-27.
  3. Netherlands Bioinformatics Centre