Wikipedia:GLAM/Koninklijke Bibliotheek en Nationaal Archief/Resultaten/KPIs/KPI9
Nieuws | Over onze samenwerking met Wikimedia | Projecten | Evenementen & bijeenkomsten | KPIs | Archief (2013-2014) | Alle pagina's |
Overzicht KPIs | Waarom wij KPIs meten | KPI 2 | KPI 4 | KPI 8 | KPI 5 | KPI 9 | KPI 10 | Publicaties | Verouderde KPIs |
KPI 9: Het aantal unieke artikelen op WP:NL waarin links naar KB-diensten zitten, en het aantal opvragingen daarvan[bewerken | brontekst bewerken]
Wat meten we?[bewerken | brontekst bewerken]
- We meten bij deze KPI primair twee dingen:
- Het aantal unieke artikelen op de Nederlandstalige Wikipedia (WP:NL, hoofdnaamruimte) waarin ( 1 of meer) links naar KB-diensten zitten.
- Het aantal opvragingen van deze artikelen in een bepaalde tijdsperiode.
- Daarnaast bepalen - als extraatjes - nog twee andere zaken:
- De externe links in die unieke artikelen, en hun aantallen. In feite dus een alternatieve meetmethode voor KPI 5
- Een overzicht van artikelen die (bijna) niet zouden bestaan zonder Delpher en/of DBNL.
Waarom meten we deze KPI?[bewerken | brontekst bewerken]
- Ad 1: Bij KPI 5 meten we uitsluitend het aantal links naar KB-diensten in WP:NL. Deze getallen zeggen echter weinig over het aantal unieke artikelen waarin deze URLs zijn opgenomen; één enkel artikel kan immers meerdere verwijzingen bevatten, zie bv. dit artikel met tientallen links naar Delpher
- Ad 2: Het is voor de KB natuurlijk heel fraai wanneer een Wikipedia-artikel bijvoorbeeld veel Delpher-kranten-URLs bevat (zoals bv. in Vuilnisman), maar als dat artikel vervolgens nauwelijks wordt opgevraagd (en dus gelezen), dan bereikt die Delpher-informatie/kennis over vuilnismannen helaas maar weinig mensen. Om iets over dat bereik te zeggen meten we het aantal opvragingen van de artikelen.
Hoe meten we?[bewerken | brontekst bewerken]
- We meten alleen de Nederlandstalige Wikipedia (WP:NL), en alleen de hoofdnaamruimte
- We meten alleen opvragingen door menselijke gebruikers, zowel op desktop als mobiel, maar geen spiders en/of bots
- We meten dit m.b.v. de tool Analyse verzamelde weergaven (voorbeeld voor http://www.kb.nl)
- Met een URL(beginpatroon) als input telt deze tool het aantal unieke artikelen op de meetdatum, en niet het aantal links in die artikelen (dat gebeurt wel bij KPI5). Als een artikel bv. drie links bevat die alledrie beginnen met https://www.kb.nl, dan wordt dit artikel in deze tool maar één keer meegeteld.
- Deze tool heeft één enkel(e) URL(beginpatroon) als input. Zoals kolom 3 van deze tabel laat zien bestaan bijna alle KB-diensten uit meerdere URL-beginpatronen, voor Delpher Kranten 1618-1995 zijn het er maar liefs 47. We moeten dus elk van die URLs apart in de tool invoeren. De 47 artikellijsten die dit oplevert zijn niet noodzakelijk 100% disjunct, m.a.w. een artikel kan in meerdere van die lijsten voorkomen. Omdat we in deze KPI aantallen unieke artikelen willen meten, moeten we deze verdubbelingen er uit filteren. Deze aanzienlijke klus voeren we handmatig (en m.b.v. Excel) uit. Zie die Excels bv hier bij de meting dd 05-02-2020.
Verwante KPIs[bewerken | brontekst bewerken]
- KPI 5: Het aantal links (URL's) naar diensten van de KB in de Nederlandstalige Wikipedia.
- KPI 5 en KPI 9 vormen een logisch vervolg op elkaar:
- KPI 5: Hoe veel keer wordt er vanuit zowel de 'voorkant' (artikelen, hoofdnaamruimte) als de 'achterkant' (overige pagina's) van de Nederlandstalige Wikipedia verwezen naar KB-diensten?
- KPI 5 zegt echter nog niets over het aantal unieke artikelen waarin al die KB-links staan. Daar zegt KPI 9 - voor zover het de hoofdnaamruimte betreft - iets over:
- KPI 9: Hoeveel unieke artikelen, die elk één of meer links naar KB-diensten bevatten, staan er in de Nederlandstalige Wikipedia, én hoe vaak worden deze artikelen in een bepaalde tijdsperiode (maand, jaar) opgevraagd?
- Uitgaande van KPI 9 kan KPI 5 - voor zover het de hoofdnaamruimte betreft - ook op een alternatieve manier gemeten worden, zoals hieronder bij Afgeleide data, relatie met KPI5 wordt uitgelegd.
Metingen[bewerken | brontekst bewerken]
Meting KB dd 20-02-2018[bewerken | brontekst bewerken]
De KB heeft in februari 2018 KPI 9 voor het eerst gemeten over een periode van 1 jaar (20-02-2017 t/m 20-02-2018). We hebben de resultaten op een deze pagina gezet.
Meting KB dd 05-02-2020 (Delpher, DBNL, kb.nl, KB-catalogus, GvN)[bewerken | brontekst bewerken]
De analyse van deze KPI voor de 5 grootste diensten (Delpher, DBNL, kb.nl, KB-catalogus, GvN) over een periode van bijna 2 jaar (21-02-2018 t/m 05-02-2020) is te vinden op deze pagina.
Historische ontwikkeling van KPI 9[bewerken | brontekst bewerken]
- Onderstaande tabel laat de absolute en relatieve groei van KPI 9 zien, met verwijzingen naar de meer detailleerde onderliggende cijfers.
- Kolommen 2,3, en 4 hebben betrekking op het aantal unieke artikelen (met daarin 1 of meer links naar KB-diensten) en
- kolommen 6,7, en 8 op het gemiddeld aantal dagelijkse opvragingen daarvan.
- Kolom 10 geeft het gemiddeld aantal opvragingen per artikel per dag.
- In de cijfers van 2018 zijn alle KB-diensten meegenomen, in die van 2020 alleen de (volgens KPI 5) vijf beste gelinkte diensten: Delpher, DNBL, kb.nl, KB-catalogus en Geheugen van Nederland. In onderstaande tabel worden dus niet helemaal appels met appels vergeleken, maar omdat de vijf beste gelinkte diensten (met opgeteld 37.049 links) goed zijn voor 96% van alle KB-links (38.534), is deze wat scheve vergelijking toch goed genoeg de om historische trend te kunnen duiden.
Datum meting | Aantal unieke artikelen op WP:NL (hoofdnaamruimte) met links naar KB-diensten (= KPI 9) |
Groeit t.o.v. vorige meting |
Groei in % | Gemiddeld aantal dagelijkse opvragingen van die artikelen |
Groeit t.o.v. vorige meting |
Groei in % | Aantal opvragingen per artikel per dag |
Details | |||
---|---|---|---|---|---|---|---|---|---|---|---|
20-02-2018 | 11.548 | - | - | 121.617 | - | - | 10,5 | Details | |||
05-02-2020 | 14.812 | 3.264 | 28% | 143.256 | 21.639 | 18% | 9,7 | Details |
We kunnen hieruit concluderen dat
- Er in twee jaar tijd (2018-2020) meer Wikipedia-artikelen beschikbaar zijn gekomen waarin bronmateriaal uit KB-diensten (mn. Delpher en DBNL) gebruikt is.
- Bovendien worden deze artikelen (dagelijks, gemiddeld) vaker opgevraagd.
- De absolute exposure van KB-informatie via Wikipedia is in die periode dus toegenomen. Dit komt vooral doordat er meer artikelen met KB-bronnen zijn bijgekomen. Echter, de relatieve exposure is (met afgerond 10 opvragingen per artikel per dag) in de afgelopen 2 jaar vrijwel gelijk gebleven. Het toevoegen van KB-bronvermeldingen aan een artikel heeft dus - zoals logischerwijs verwacht mag worden - geen invloed op het aantal dagelijkse opvragingen van dat artikel.
Afgeleide data, relatie met KPI5[bewerken | brontekst bewerken]
Het meten van deze KPI levert lijsten van artikelen (waarin 1 of meer links naar KB-diensten zijn opgenomen) op, zoals deze lijst van februari 2020 (1e tabblad, kolom D).
Voor elke van die artikelen kun je m.b.v. de MediaWiki API opvragen welke externe links het artikel bevat. Zie bv dit voorbeeld voor Hotel Des Indes (Den Haag), dat 85 externe links oplevert.
Met een kort (Python-)script kun vervolgens bepalen welke van die externe links naar KB-diensten wijzen, en welke naar andere online bronnen.
Je vindt hiermee dus links naar diensten van de KB in de hoofdnaamruimte van de Nederlandstalige Wikipedia, precies wat er bij KPI 5 ook gemeten wordt! Dit alleen als er bij KPI5 een onderscheid gemaakt wordt tussen de hoofdnaamruimte en de overige naamruimtes, zoals dat bij de metingen van 2018 bewust gedaan is.
De gebruikte Python-scripts en de lijsten van artikelen met de op deze manier gevonden externe links zijn hieronder bij Artikelen sterk gebaseerd op Delpher en/of DBNL gelinkt.
Artikelen sterk gebaseerd op Delpher en/of DBNL[bewerken | brontekst bewerken]
Bij het bovenstaande opsporen van externe links valt het op dat er artikelen zijn die hoofdzakelijk KB-diensten als bronvermelding gebruiken. Een paar voorbeelden:
- Het artikel over Hotel des Indes bevat (onderaan) tientallen Delpher-Kranten-links als bronvermeldingen. Van de 85 externe links verwijzen er 74 naar Delpher. M.a.w.: dit artikel is een kant-en-klare verzamelplaatst van Delpher-content rondom het onderwerp "Hotel des Indes".
- Theo van Hengel, van de 31 bronvermeldingen verwijzen er 27 naar Delpher (Kranten)
- Liedboek, van de 26 externe links verwijzen er 24 naar DBNL
Voor deze artikelen kunnen we zeggen dat hun inhoud grotendeels gebaseerd is op inhoud uit KB-diensten, in deze gevallen Delpher en DBNL. Het zijn m.a.w. plekken waar sterke aggregatie en herpublicatie van Delpher/DBNL-content plaatsvindt.
Andersgezegd: In dit soort artikelen wordt informatie uit Delpher, DBNL (en andere KB-diensten) over personen, plaatsen, gebeurtenissen en andere onderwerpen voor een miljoenenpubliek samengebracht. Bovenstaande artikelen zouden zonder Delpher en DBNL (vermoedelijk nog) niet bestaan.
Om dit soort aggregaties & herpublicaties beter in beeld te krijgen, hebben we in februari 2020 een overzicht gemaakt van alle artikelen op WP:NL die sterk gebaseerd zijn op Delpher en DBNL. Dat hebben we als volgt aangepakt:
- De Excel-lijsten van unieke artikelen voor Delpher en voor DBNL hebben we omgezet in artikellijsten in .txt, deze voor Delpher en deze voor DBNL
- Voor elk artikel in deze lijsten bepalen we m.b.v. van de MediaWiki API en een Python script (voor Delpher en voor DBNL) de externe links en welke daarvan naar Delpher/DBNL wijzen.
- We schrijven de resultaten naar .txt bestanden (Delpher, DBNL)
- We converteren deze tekstbestanden naar Excel (Delpher, DBNL, zie tabblad 'RAW Imported from txt')
- Het tabblad Verrijkt, unieke artikelen geeft voor elk (uniek) Wikipedia-artikel het aantal externe links, het aantal Delpher/DBNL links, en de zgn. linkratio, de verhouding tussen die twee. Een linkratio van 1,00 betekent dat alle externe links Delpher/DBNL-links zijn. Hoe lager de linkratio, deze kleiner het relatief aantal Delpher/DBNL-links in het artikel.
- Om te bepalen of de inhoud van een artikel grotendeels op Delpher/DBNL gebaseerd is - m.a.w. of het artikel zijn bestaan te danken heeft aan Delpher/DBNL - hanteren we twee drempelcriteria:
- 1) Het moet een minimum aantal externe links bevatten, de inhoud moet in voldoende mate gebaseerd zijn op externe bronnen
- 2) De linkratio moet boven een bepaalde drempel uitkomen, om zo voldoende vaak Delpher/DBNL als externe bron te hebben.
- De keuze van beide drempels is geen harde, in laatsgenoemde Excels hanteren we bv
- voor Delpher: Aantal externe links >=6, linkratio>=0.75
- voor DBNL: Aantal externe links >=4, linkratio>=0.7
- Door tenslotte voor elk van deze artikelen m.b.v. deze Excel het aantal opvragingen in de periode 21-02-2018 t/m 05-02-2020 op te zoeken, kunnen we het totaal aantal opvragingen van deze 'Delpher/DBNL-aggregatieartikelen' in die periode bepalen. Dit is verder uitgewerkt bij de metingen van februari 2020. Dit levert twee Excels op met Delpher aggregatieartikelen en DBNL-aggregatieartikelen.
XXXXXXXXXXXXXXXXXXXXXXXXX https://github.com/KBNLwikimedia/KB-Wiki-Stats-Graphs/blob/master/stories/Detecting%20Wikipedia%20articles%20strongly%20based%20on%20single%20library%20collections.md