Biometrische gezichtsherkenning

Uit Wikipedia, de vrije encyclopedie
Ga naar: navigatie, zoeken

Gezichtsherkenning is een biometrische techniek die gebruikt kan worden als identificatiemethode.

Door de eigenschappen van het gezicht van een persoon te registreren en vast te leggen kan naderhand worden bepaald of de te identificeren persoon voldoet aan de eigenschappen die zijn opgeslagen.

De meeste methoden meten verhoudingen tussen grootte en afstand van de ogen, mond, neus en oren. Andere methoden meten het temperatuurprofiel dat door de bloedsdoorloop voor iedereen verschillend is.

Geschiedenis[bewerken]

De eerste computer die gezichten kon herkennen, werd in 1965 bedacht door Woodrow Bledsoe, Helen Chan en Charles Bisson.[1] Hierbij werden foto's vergeleken met foto's uit een database, maar dit was voor een deel nog handwerk. In 1971 ontwikkelden de Amerikaanse onderzoekers Harmon, Les en Goldstein een systeem dat automatisch werkte. In 1987 kwam er een systeem dat ook meerdere gezichten op een foto kon herkennen.

Principes van gezichtsherkenning[bewerken]

De principes[bewerken]

Het doel van een gezichtsherkennend systeem is het identificeren van een persoon aan de hand van (kenmerken van) zijn gezicht, met behulp van een geautomatiseerde procedure en het liefst zonder tussenkomst van een mens om de herkenning te doen of te verifiëren.

Zoals uit de bovenstaande formulering van het doel al volgt, is het principe van gezichtsherkenning dit:

  1. Een computer uitgerust met sensoren neemt een opname van het gelaat van een persoon.
  2. Uit die opname worden een aantal kenmerken van het gelaat van de persoon gedistilleerd.
  3. De computer vergelijkt die kenmerken met de kenmerken van personen die opgeslagen liggen in een databank waar de computer toegang toe heeft.
  4. Als de computer een persoon vindt met overeenkomstige kenmerken, heeft de computer de persoon geïdentificeerd; anders niet.

Opnamen maken voor identificatie[bewerken]

De manier van opnamen van gezichten gemaakt voor identificatie verschillen, afhankelijk van waar het systeem toegepast wordt. In ieder geval wordt er een fotografische opname gemaakt van het gezicht, of een deel daarvan. Sommige systemen maken opnamen van het hele gezicht, andere kijken bijvoorbeeld alleen naar de iris.

Een combinatie van vragen bepaalt de keuze voor een gelaatsdeel, waaronder "hoe accuraat moet de herkenning zijn" en "wat is praktisch in de situatie waarin het systeem toegepast zal worden". Zo is een irisscan over het algemeen betrouwbaarder dan een systeem dat kijkt naar een heel gezicht – maar om een irisscan te maken, moet een persoon recht in een lens kijken. Een systeem dat in een winkelcentrum hangt en op zoek gaat naar bekende winkeldieven, zal hiervan waarschijnlijk geen gebruik kunnen maken.

Omgekeerd geldt dat een systeem dat snel even een foto maakt van iemand die de poort van een militaire basis passeert snel en niet of nauwelijks storend is, maar dat een dergelijk systeem waarschijnlijk niet betrouwbaar genoeg is voor een dergelijke toepassing.

Het herkennen van een gezicht uit een opname[bewerken]

Voor het eigenlijke herkennen van een gezicht uit een gegeven opname wordt, zoals eerder opgemerkt, gekeken naar kenmerken van dat gezicht. Voorbeelden van dergelijke kenmerken zijn afstand tussen ogen, afstand tussen oren, stand van oren, positie van ogen en mond ten opzichte van de neus (of elkaar) en dergelijke. Nadat deze kenmerken zijn opgespoord, wordt gezocht in een database naar gezichten met dezelfde kenmerken. Een lijst van overeenkomstige gezichten wordt opgesteld, naar rangorde van aantallen overeenkomstige kenmerken. Het is afhankelijk van het precieze systeem of altijd een positieve identificatie mogelijk is. Een systeem dat de toegang bewaakt tot een faciliteit waar maar een gelimiteerd aantal mensen in mag, heeft een gelimiteerde database om in te zoeken; de kans op het vinden van een exact overeenkomstig gezicht is hier hoog. Een systeem dat winkeldieven zoekt of de grens van een land bewaakt, heeft potentieel een zeer grote database om te doorzoeken; de kans dat meerdere mensen een bepaald aantal overeenkomsten vertonen, is hier hoger.

Voor het zoeken van delen van het gezicht uit een foto of voor het zoeken van overeenkomstige gezichten in een databank, zijn verschillende methoden voorhanden. Welke toepasbaar zijn, hangt ook weer van de situatie af.

Een systeem waarbij iemand bijvoorbeeld expliciet recht in een camera moet kijken, zou bijvoorbeeld voorgedefinieerde "blokken" op het gezicht kunnen projecteren en daarin zoeken naar kleurvariaties – bijvoorbeeld "ergens in blok A moet het linkeroog liggen; zoek daar naar vier banden met kleuren (huid, oogbol, iris, lens)". Iets dergelijks geldt ook voor een irisscan, waarbij dan alleen naar de iris wordt gekeken en dan specifiek naar kleurovergangen, bloedvaten, etc. Aan de hand van een dergelijke scan worden punten bepaald op het gezicht waar interessante zaken te zien zijn. Een overeenkomstig gezicht wordt dan in de databank gezocht door te kijken welke gezichten dezelfde aantallen interessante punten hebben, die ook nog ten opzichte van elkaar (ongeveer) op dezelfde plaats staan.

Een alternatief systeem is een systeem dat gebruik maakt van een neuraal netwerk. Een dergelijk netwerk is in staat zijn eigen configuratie te ordenen aan de hand van invoer. Een kenmerk van een neuraal netwerk is, dat het vaak in staat is om een bepaalde configuratie van het netwerk te leren en later terug te vinden aan de hand van een gedeelte van de totale invoer die bij een bepaalde configuratie hoort. Een neuraal netwerk kan zo gebruikt worden om een foto uit een groter publiek te vergelijken met een databank aan gezichten – het feit dat een neuraal netwerk maar een gedeelte van een invoer nodig heeft om een bepaald resultaat te bereiken, kan dan compenseren voor het feit dan een systeem dat naar een groot aantal gezichten kijkt eigenlijk nooit een ideale opname van een gezicht maakt voor identificatie (omdat niemand ooit recht in de lens van de camera kijkt).

Daarnaast kan een neuraal netwerk ook gebruikt worden om de uiteindelijke koppeling van kenmerken aan gezichten in de databank te doen; door het netwerk bij ieder bekend gezicht een getal te laten leren en later in te richten om bij een bepaalde verzameling kenmerken een dergelijk getal uit te rekenen, kan het netwerk iemand in de databank (helpen) terugvinden.

Problemen bij gezichtsherkenning[bewerken]

In alle stappen van het hierboven geschetste proces, heeft gezichtsherkenning te kampen met problemen. Deze problemen uiten zich in twee eigenschappen die ieder identificatie-systeem heeft:

False Acceptance Rate (FAR)
Het percentage van alle uitgevoerde identificaties waarbij iemand ten onrechte door het systeem herkend wordt
False Rejection Rate (FRR)
Het percentage van alle uitgevoerde identificaties waarbij iemand ten onrechte door het systeem niet herkend wordt

Een fundamenteel probleem van gezichtsherkennende systemen, is dat de bovenstaande eigenschappen tegengesteld zijn aan elkaar en hun oplossingen dus ook. Wil een systeem een laag FAR hebben, dan moet het systeem streng ingesteld worden en weinig of geen tolerantie hebben voor onnauwkeurigheden in de herkenning. Bijgevolg zorgen diezelfde onnauwkeurigheden er dan automatisch voor dat de FRR van het systeem omhoog gaat. En hetzelfde verhaal geldt omgekeerd ook.

Problemen met opnamen[bewerken]

Gezichtsherkennende systemen hebben al bij het maken van opnamen te maken met allerlei onnauwkeurigheden. We hebben bijvoorbeeld al eerder opgemerkt dat een systeem dat een publiek in de gaten houdt, eigenlijk nooit een ideale opname van een gezicht kan maken omdat eigenlijk nooit iemand recht in de camera kijkt. Daar blijft het echter niet bij.

De opname-problemen van dergelijke systemen komen in feite op twee punten neer:

  1. Hoe accuraat moet de opname zijn?
  2. Hoe goed moet de opname zijn?

Het eerste punt heeft te maken met de problematiek van de ideale opname. Is het nodig dat een persoon recht in de camera kijkt? Hoe recht is recht genoeg? En zelfs als iemand strak en recht vooruit kijkt, staat zijn hoofd dan wel goed voor de camera?

Dit probleem speelt overduidelijk niet alleen bij de camera op straat of in de winkel. Een systeem waarbij iemand wel degelijk recht in de camera kijkt, heeft een gedeelte van hetzelfde probleem. De maker van het systeem zoekt daarbij naar een balans tussen accuratesse en ongemak. Het is bijvoorbeeld mogelijk om iedereen zijn hoofd in een beugel te laten plaatsen die het gezicht op de juiste manier voor de camera "duwt". De opname kan zo zeer accuraat zijn en een systeem opleveren waaraan je de bewaking van een kernwapen zou toevertrouwen. Een dergelijke procedure bij de douane op het vliegveld is echter totaal onpraktisch – het duurt te lang en is te onplezierig voor het publiek (zeker als het publiek slecht ter been is o.i.d.). Een opname van het systeem zal dus vaak een onnauwkeurigheid bevatten (bijvoorbeeld dat de momentopname "verschoven" is ten opzichte van de referentie-opname in de databank, of zelfs dat het gezicht niet geheel zichtbaar is, zoals bij het voorbeeld van de bewakingscamera in de winkel). De maker van het systeem zal hiervoor gedeeltelijk moeten compenseren in de bijbehorende software van het systeem, maar ook dat is niet perfect – een zekere tolerantie in het systeem om dergelijke fouten op te vangen, is noodzakelijk. Hoe groter de tolerantie, hoe groter de FAR; hoe kleiner de tolerantie, hoe groter de FRR.

Het tweede punt is veel basaler en is het probleem van elke fotograaf. Hoe goed zijn de lenzen van het systeem? Als het systeem kan compenseren voor lichaamshouding door de camera te draaien, hoe scherp is de opname dan nog? En, in geval van het in de gaten houden van publiek, wat gebeurt er bij overbelichting, onderbelichting, etc.?

Daarnaast zijn de prestaties van de technologie afhankelijk van een aantal factoren, die met name in de grootschalige praktijk moeilijk te beheersen zijn. Zo blijkt de samenstelling van de doelgroep naar sekse en het genetisch profiel van invloed op de FRR. Dit houdt verband met het feit dat biometrische systemen tijdens de ontwikkeling- en testperiode als het ware zijn getraind op niet-representatieve groepen van proefpersonen. Ook psychologie en emoties zijn van invloed. Iemand die niet kan of wil meewerken zal minder snel herkend worden. Idem wanneer iemand tijdens de controle boos kijkt terwijl de referentiefoto een lachend gezicht toont. Tenslotte blijkt uit een vendortest van 2002 van FRVT (www.frvt.org) blijkt dat veroudering een achteruitgang van de false rejection rate van circa 5 procent per jaar oplevert. De invloed van deze factoren afzonderlijk is niet bekend. Evenmin is bekend of deze factoren elkaar in de praktijk neutraliseren of versterken.

Problemen met herkenning[bewerken]

Ook het herkenningsproces zelf kampt met de nodige problemen, die ook weer afhankelijk zijn van het precieze systeem.

Om te beginnen is het niet altijd even makkelijk om de kenmerken terug te vinden. Dit heeft gedeeltelijk te maken met de kwaliteit van de opnamen, maar ook met de kwaliteit van de gebruikte algoritmen. Een algoritme dat in een blok een oog zoekt en daarbij te streng is, kan in de problemen komen omdat het oog niet gevonden wordt. Of andersom, omdat te veel ogen worden gezien als het oog van een persoon die de poort door mag.

Een neuraal netwerk heeft meestal minder last van dergelijke problemen. Bij neurale netwerken is de vraag meer hoeveel invoer genoeg is. Een neuraal netwerk kan zeer goed patronen zoeken in opnamen. Die patronen kunnen echter grof zijn of heel fijnmazig. Dit heeft zijn weerslag op de accuratesse. Een mond die als geheel een invoer is, is een heel grof patroon en kan veel overeenkomsten en dus herkenningen opleveren – een hogere FAR ligt hier op de loer. Meer invoer (een verdeling van de opname in meer, individele invoerpunten) lost dit op. Meer invoer in het netwerk betekent echter meer rekenwerk, waardoor het systeem trager wordt (of duurder, om met extra rekenkracht te kunnen compenseren).

Daarnaast zijn neurale netwerken gevoelig voor opnamefouten die patronen verstoren. Zeker als een systeem zeer veel gezichten moet kunnen herkennen en dus veel patronen heeft om in te zoeken, is het waarschijnlijk dat een aantal verschillende patronen niet veel van elkaar zullen verschillen. Naarmate de opname dan slechter wordt (heel weinig gezicht te zien, onderbelicht, etc.) wordt de kans groter dat het systeem "in de war" raakt en zo de FAR of de FRR omhoog gooit. Ook hiervoor valt gedeeltelijk te compenseren met grotere hoeveelheden invoer, tegen de kosten van meer rekenkracht of tijd. Maar in een systeem dat het publiek in de gaten houdt, zit hier toch een limiet aan – aan de achterkant van een hoofd, herken je niet veel.

Oplossingen[bewerken]

Aan al deze problemen wordt hard gewerkt door ontwikkelaars van biometrische systemen. Er zijn bijvoorbeeld lenssystemen in ontwikkeling (of ontwikkeld) die werken met lenscodering, waarmee scherptediepte als probleem sterk vermindert. Algoritmen worden doorlopend bijgesleuteld, een neuraal netwerk kan bijleren of verfijnd worden.

Toch is het voorlopig niet zo dat een gezichtsherkennend systeem op het moment van dit schrijven (januari 2005) betrouwbaar genoeg is om alleen in te zetten bij, bijvoorbeeld, douane of bewaking van belangrijke installaties. Vaak wordt daarom een combinatie van systemen gebruikt om de FAR en FRR terug te dringen – gezichtsherkenning in combinatie met vingerafdruk, bijvoorbeeld. Uiteraard wordt gezocht naar combinaties waarbij systemen wederzijds elkaars zwakten compenseren. Maar voor echte topprioriteit bewaking is ook dit vaak niet betrouwbaar genoeg en wordt er teruggegrepen op het oude, vertrouwde middel: de bewaker, met zijn ogen, oren en brein.

Toepassingsgebieden[bewerken]

Gezichtsherkenningssystemen worden meer en meer toegepast in situaties waarbij identificatie van personen nodig is, maar waarbij die identificatie het liefst automatisch moet verlopen om tijd en/of mankracht te sparen. Voorbeelden hiervan zijn proeven met het bewaken van winkels en binnensteden met camera's waarbij automatisch gezocht wordt naar bekende criminelen en proeven op luchthavens als Schiphol met gezichtsherkenning door de douane. Ook de Nederlandse overheid is anno 2005 bezig met een proef genaamd 2 be or not 2 be, waarin wordt geëxperimenteerd met paspoorten waarin biometrische kenmerken vastgelegd zijn, waaronder gelaatskenmerken.

De onbetrouwbaarheden van bestaande systemen maken echter dat ten tijde van dit schrijven (januari 2005) dergelijke systemen nog nauwelijks ingang gevonden hebben in de bewaking van "echt belangrijke" installaties en ook zeker niet als enige bewaking van dergelijke installaties.

In voorbereiding op deze ontwikkeling is alvast het Nederlands paspoort aangepast: de pasfoto moet tegenwoordig recht van voren genomen worden, en niet meer driekwart van opzij. De persoonsregistratie digitaliseert de pasfoto's voor toekomstig gebruik. Bewakingscamera's zouden op deze manier terroristen en andere individuen die men in de gaten wil houden, kunnen herkennen en volgen.

Gezichtsherkenning kan echter ook een inbreuk vormen op de privacy.

Zie ook[bewerken]

Bronnen, noten en/of referenties
  1. Weekblad Intermediair, week 38, 2012, pag. 13