DBpedia

Uit Wikipedia, de vrije encyclopedie
Ga naar: navigatie, zoeken
DBpedia
DBpedia
Ontwikkelaar Universiteit Leipzig, Universiteit van Mannheim, OpenLink Software
Recentste versie DBpedia 2014 
(September 2014)
Besturingssysteem Virtuoso Universal Server
Geschreven in Scala, Java, VSP
Categorie Semantisch Web, Open data
Licentie GNU General Public License
Website http://dbpedia.org, nl.dbpedia.org
Portaal  Portaalicoon   Informatica
Media

DBpedia is een vrijwilligersorganisatie die wil bijdragen aan een open informatie-infrastructuur. Daartoe ontwikkelt en onderhoudt zij een systeem dat gestructureerde informatie op een ook voor machines leesbare wijze uit Wikipedia haalt, de open internet-encyclopedie. Deze informatie wordt als linked data beschikbaar gesteld.

Artikelen in Wikipedia bestaan grotendeels uit ongestructureerde tekst, maar deels ook uit gestructureerde data in sjablonen, categorieën, geo-data of externe links. Om zoveel mogelijk data uit dit geheel te verzamelen maakt DBPedia gebruik van extractors, die met behulp van mappings[1] termen uit Wikimedia afbeelden op de ontologie van DBpedia. Mappings dienen op deze manier vooral het eenduidig maken van begrippen en zijn wezenlijk voor het omgaan met synoniemen en homoniemen. Zij zijn voor 125 talen beschikbaar en worden per taalgebied gemaakt.

Achtergrond[bewerken]

In 2007 is de eerste dataset van DBpedia voor publiek beschikbaar gekomen, nadat het project gestart is door de Vrije Universiteit van Berlijn en de Universiteit van Leipzig, in samenwerking met OpenLink Software. De Nederlandstalige versie van de DBpedia is van augustus 2012. Het initiatief hiertoe is afkomstig uit de wereld van de openbare bibliotheken, waar Bibliotheek.nl [2] een samenwerkingsovereenkomst aanging met de Universiteit van Leipzig om ook voor het Nederlandse taalgebied DBpedia tot wasdom te brengen. Inmiddels is de groep achter de Nederlandstalige DBpedia [3] over de bibliotheekgrenzen heen gegroeid en maken ook Vlamingen hiervan deel uit.

Techniek[bewerken]

DBpedia maakt gebruik van het Resource Description Framework (RDF) om de geëxtraheerde informatie te structureren en koppelbaar te maken aan andere linked data. De data in nl.dbpedia.org kunnen met zoekvragen opgehaald worden via een SPARQL interface[4] of afzonderlijk worden bekeken via een interface dat RDF naar het http-protocol omzet. Sinds 2013 is dit gebruikersinterface vernieuwd, en als eerste op de Nederlandstalige DBpedia[5] toegepast.

In september 2014 is een nieuwe versie van DBpedia uitgebracht, DBpedia 2014 geheten. Vergeleken met vorige versies kunnen nu termen uit Wikipedia worden geëxtraheerd ook zonder terug te vallen op de data in sjablonen en categorieën. Dit wordt voornamelijk bereikt door efficiënter gebruik te maken van de samenvattingen aan het begin van elk Wikipedia-artikel. Ook van de enorme verzameling van rechtenvrij beeldmateriaal, Wikimedia Commons, worden nu de metadata geëxtraheerd en gekoppeld aan de DBpedia-ontologie. De complete dataset van DBpedia beschrijft nu 4,58 miljoen entiteiten, waarvan er 4,22 miljoen in de DBpedia-ontologie zijn opgenomen. Dit maakt dat we kunnen vaststellen dat - in de stand van zaken van mei 2014 - 1.445.000 personen, 735.000 plaatsen, 123.000 muziekalbums, 87.000 films, 19.000 videospellen, 241.000 organisaties, 251.000 diersoorten en 6.000 ziekten in DBpedia beschreven staan. Van deze entiteiten zijn er 1,8 miljoen specifiek voor het Nederlandse taalgebied.

DBpedia verzamelt uit Wikipedia 25,2 miljoen links naar beeldmateriaal en 28,8 miljoen links naar externe webpagina's. Als Linked-data toepassing bij uitstek bevat DBpedia circa 50 miljoen koppelingen naar andere datasets in RDF, 80,9 miljoen links naar de categorieen van Wikipedia en 41,2 miljoen categorieën van YAGO2. Als RDF-database bevat DBpedia 3 miljard triples, waarvan 580 miljoen uit de Engelstalige editie en 2,46 miljard uit andere talen.

Voorbeeld[bewerken]

DBpedia stelt gebruikers in staat om antwoorden te vinden op vragen waarop het antwoord verspreid ligt over talrijke verschillende Wikipedia-artikelen. De gegevens voor deze antwoorden worden opgevraagd met SPARQL als zoektaal. Stel, dat je geïnteresseerd bent in de Japanse shōjo manga serie Tokyo Mew Mew, en dat je wilt weten in welke genres de illustrator van deze manga-serie nog meer heeft gepubliceerd. DBpedia voegt informatie uit de Wikipedia-artikelen over Tokyo Mew Mew, Mia Ikumi en over werken zoals Super Doll Licca-chan en Koi Cupid samen tot een geheel. Omdat DBpedia deze data normaliseert binnen een enkele database, kan de volgende zoekvraag query worden gesteld zonder dat je hoeft te weten in welk artikel elk informatiefragment precies staat. Alle genres die door de zoekvraag worden geraakt komen in het resultaat:

PREFIX dbprop: <http://dbpedia.org/property/>
PREFIX db: <http://dbpedia.org/resource/>
SELECT ?who, ?WORK, ?genre WHERE { 
 db:Tokyo_Mew_Mew dbprop:author ?who .
 ?WORK  dbprop:author ?who .
 OPTIONAL { ?WORK dbprop:genre ?genre } .
}

Toepassingen[bewerken]

DBpedia bevat informatie over een groot aantal kennisgebieden. Als gevolg hiervan is het een vanzelfsprekend knooppunt voor het onderling relateren van begrippen uit externe datasets. [6] De dataset van DBpedia is via RDF gekoppeld aan diverse andere Open Data datasets op het Web. Applicaties maken van dit gegeven gebruik om data uit DBpedia te verrijken met data uit andere datasets. Van deze laatste zijn te noemen: Freebase, OpenCyc, UMBEL, GeoNames, MusicBrainz, CIA World Fact Book, DBLP, Project Gutenberg, DBtune Jamendo, Eurostat, Uniprot, Linked Data for the Life Sciences [7], en data uit de US Census dataset. OpenCalais, het Linked Open Data project van de New York Times, de Zemanta API en DBpedia Spotlight[8] zijn eveneens gekoppeld aan DBpedia. De BBC en het Nederlands Instituut voor Beeld en Geluid gebruiken DBpedia als hulpmiddel bij het organiseren van hun content. Faviki gebruikt DBpedia voor het semantisch markeren (tagging) van teksten.

Amazon voorziet in een DBpedia Public Data Set die kan worden geïntegreerd in applicaties met Amazon Web Services.

Externe links[bewerken]

Bronnen, noten en/of referenties
  1. DBpedia Mappings Nederlandse mappings
  2. de stichting Bibliotheek.nl
  3. [1]
  4. nl.dbpedia.org/sparql
  5. [2]
  6. E. Curry, A. Freitas, and S. O’Riáin, "The Role of Community-Driven Data Curation for Enterprises," in Linking Enterprise Data, D. Wood, Ed. Boston, MA: Springer US, 2010, pp. 25-47.
  7. [3]
  8. [4]