Protein Data Bank

Uit Wikipedia, de vrije encyclopedie
Ga naar: navigatie, zoeken

De Protein Data Bank (PDB) is een gegevensbank met 3D-gegevens van grote biomoleculen zoals eiwitten en nucleïnezuren. De PDB wordt beheerd door de organisatie Worldwide Protein Data Bank, wwPDB.

De data in de gegevensbank is voornamelijk afkomstig van röntgendiffractie en NMR-spectroscopie van wetenschappers over de hele wereld. De databank is vrij raadpleegbaar over het internet.

De PDB is een belangrijke bron in de wetenschappelijke gebieden zoals structurele genomica. De meeste belangrijke tijdschriften en organisaties, zoals de National Institutes of Health in de Verenigde Staten, eisen van wetenschappers dat ze hun gevonden structurele gegevens op de PDB plaatsen.

Andere databanken maken gebruik van de gegevens in de PDB om eiwitten te classificeren volgens bepaalde patronen. Zo verdelen bijvoorbeeld SCOP en CATH de structuren onder in groepen volgens het type structuur en de veronderstelde evolutionaire relaties; GO brengt deze onder op basis van genen.

Geschiedenis[bewerken]

De PDB ontstond als een poging vanuit de basis om de data van een bijeenkomst American Crystallographic Association(ACA) te bundelen.[1] In 1971 werd de gegevensbank opgezet in Brookhaven.

In 1998-1999 kwam de PDB terecht bij het Research Collaboratory for Structural Bioinformatics (RCSB). In 2003 werd de PDB overgebracht in het wwPDB, waardoor de PDB een internationale organisatie werd. De vier leden van de wwPDB fungeren daarbij als centrum om de gegevens te plaatsen, te verwerken (o.a. annoteren) en te verdelen.

Inhoud[bewerken]

De PDB wordt wekelijks geactualiseerd op dinsdag. De statistieken zijn te volgen op de PDB Holdings List.

De meeste structuren zijn bepaald met röntgendiffractie, ongeveer 15% van de structuren is bepaald door NMR en enkele zijn zelfs met elektronenmicroscopie bepaald. Voor structuren die bepaald zijn door röntgendiffractie is er ook een kaart die de elektronendichtheid beschrijft. Deze staan op de Electron Density Server.

In het verleden steeg het aantal structuren in de PDB bijna exponentieel. Die stijging is nu minder sterk. In 2009 werden nog 7448 structuren toegevoegd, het hoogste aantal ooit.

Bestandsformaat[bewerken]

Het eerste bestandstype voor de PDB was het PDB-bestand. Dit oorspronkelijke formaat was in de breedte beperkt tot de omvang van ponskaarten, d.i. 80 karakters per lijn. Omstreeks 1996 werd het macromolecular Crystallographic Information file-bestandstype, kortweg mmCIF, opgericht. Een XML-versie van dit type, PBDML, werd in 2005 gelanceerd.[2] De structuren kunnen in elk van deze drie formaten gedownload worden. De individuele bestanden kunnen ook gedownload worden naar grafische pakketten met behulp van webadressen:

  • voor PDB-bestanden: http://www.pdb.org/pdb/files/4hhb.pdb.gz;
  • voor PDBML-bestanden (XML): http://www.pdb.org/pdb/files/4hhb.xml.gz;

waarbij "4hhb" de zogenaamde "PDB identifier" is, een vierdelige, alfanumerieke en unieke naam om het molecuul mee te identificeren. De gewone naam van het molecuul wordt niet gebruikt omdat meerdere structuren dezelfde naam hebben of omdat van één structuur meerdere versies aanwezig zijn.

Op het internet is o.a. vrije software (waaronder opensourcesoftware) te vinden om de bestanden grafisch voor te stellen.

Externe links[bewerken]

Bronnen, noten en/of referenties
  1. Berman, H. M. (January 2008). The Protein Data Bank: a historical perspective. Acta Crystallographica Section A: Foundations of Crystallography A64 (1): 88–95 . DOI:10.1107/S0108767307035623.
  2. Westbrook, J., et al. (2005). PDBML: the representation of archival macromolecular structure data in XML. Bioinformatics 21 (7): 988–992 . DOI:10.1093/bioinformatics/bti082.