International Chemical Identifier

Uit Wikipedia, de vrije encyclopedie
Ga naar: navigatie, zoeken

De International Chemical Identifier, afgekort InChI, is een tekstuele identifier voor chemische stoffen, vooral bedoeld om moleculen ondubbelzinnig en op een voor mensen leesbare manier te coderen, waarbij het zoeken naar die stof in databanken en via het web gemakkelijker zou gemaakt worden.

InChI werd ontwikkeld tussen 2000 en 2005 door de IUPAC en het National Institute of Standards and Technology (NIST). Zowel het formaat als de algoritmen zijn niet-propriëtair en de software is gratis ter beschikking gesteld onder de open source LGPL licentie. De naam InChI is echter wel een handelsmerknaam van de IUPAC.[1]

Algemeen[bewerken]

Chemische stoffen worden door InChI beschreven als zes lagen van informatie — de atomen, de bindingen ertussen, tautomerie, isotopen, stereochemie en lading. Niet alle lagen zijn verplicht; informatie over tautomerie hoeft bijvoorbeeld niet toegevoegd te worden indien dit niet van toepassing is op de molecule in kwestie. InChI bevat geen informatie over de driedimensionale coördinaten van de atomen of de bindingsorde. Twee tautomere vormen van dezelfde molecule worden dus door dezelfde InChI beschreven, een pluspunt t.o.v. alternatieven zoals SMILES.

InChI's verschillen van CAS nummers in drie aspecten :

  • ze zijn vrij te gebruiken en niet-propriëtair;
  • ze worden berekend op basis van de chemische structuur in plaats van toegekend te worden door een organisatie;
  • de meeste informatie in InChI's is leesbaar voor de mens (mits enige oefening).

InChI's kunnen dus gezien worden als verkorte, geformaliseerde versies van de IUPAC-namen van stoffen.

Het InChI algoritme zet structurele informatie om in een unieke InChI-identifier in drie stappen :

  1. Normalisatie: verwijderen van overtollige informatie
  2. Canonicalisatie: genereren van een uniek numeriek label voor elk atoom
  3. Serialisatie: genereren van een reeks lettertekens

Formaat en informatielagen[bewerken]

Elke InChI begint met de tekenreeks "InChI=" gevolgd door het versienummer, op dit moment 1. De resterende informatie is opgevat als een sequentie van lagen en sublagen, waarbij elke laag een specifieke soort informatie weergeeft. Lagen en sublagen worden gescheiden door een delimiter "/" en beginnen met een karakteristieke letter als prefix (dit geldt niet voor de sublaag "brutoformule" binnen de hoofdlaag). De zes lagen met hun meest belangrijke sublagen zijn:

  1. Hoofdlaag
    • Brutoformule (geen prefix). Dit is de enige verplichte sublaag bij InChI.
    • Atoomconnecties (prefix: "c"). Alle atomen in de brutoformule (behalve waterstof) worden genummerd in volgorde; deze sublaag beschrijft welke atomen verbonden zijn met een chemische binding aan welke andere atomen.
    • Waterstofatomen (prefix: "h"). Beschrijft hoeveel waterstofatomen zijn gebonden aan elk van de andere atomen.
  2. Ladingslaag
    • Positieve lading sublaag (prefix: "p")
    • Negatieve lading sublaag (prefix: "q")
  3. Stereochemische laag (prefix "s")
  4. Isotopische laag (prefix "i")
  5. Vaste-waterstof laag (prefix "f") (vooral gebruikt in geval van tautomerie)
  6. Reconnected laag (vooral gebruikt bij organometaalverbindingen)

Dit delimiter-prefix formaat heeft als groot voordeel dat men gemakkelijk een wildcard zoekopdracht kan gebruiken om InChI's te vinden die enkel in bepaalde lagen overeenkomen.

Voorbeelden[bewerken]

CH3CH2OH
ethanol
InChI=1/C2H6O/c1-2-3/h3H,2H2,1H3
L-Ascorbic acid.svg
L-ascorbinezuur
InChI=1/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-10H,1H2/t2-,5+/m0/s1

Zie ook[bewerken]

Externe links[bewerken]

Bronnen, noten en/of referenties
  1. McNaught, Alan. "The IUPAC International Chemical Identifier:InChl", Chemistry International, IUPAC, 2006. Geraadpleegd op 2007-09-18.