Wikipedia:Wikiproject/WikidataOpWikipedia/Geboortelijsten

Uit Wikipedia, de vrije encyclopedie

Overzichten op Wikipedia[bewerken | brontekst bewerken]

Vanaf 21 oktober 2018 heb ik met RonnieBot op deze Wikipedia lijsten geplaatst met geboortegegevens van personen. Deze gegevens zijn later ook gebruikt voor het plaatsen van lijsten van overleden personen. Omdat er door een aantal mensen kanttekeningen zijn geplaatst bij deze lijsten, heb ik aangegeven daarover een discussie te willen opstarten met de gemeenschap. Dat wil ik bij deze graag doen.

Om dit onderwerp goed te kunnen bespreken, wil ik graag bij het begin beginnen.

Wikipedia[bewerken | brontekst bewerken]

Wikipedia is een encyclopedie. Wikipedia bevat heel veel artikelen over heel veel onderwerpen. In een papieren encyclopedie zie je zo dat er geen artikel bestaat tussen meisjesschool en Meisjesstad. In deze elektronische variant is dat wat moeilijker te zien.

Een deel van de bewerkers van Wikipedia biedt graag gegevens op een gestructureerde wijze aan. De aanwezigheid van veel samenhangende zaken kan zo in beeld worden gebracht met een categorie, zoals hier de burgemeesters van Antwerpen. Een categorie bevat echter alleen een aanduiding van de bestaande artikelen. Een lijst biedt meer mogelijkheden om informatie toe te voegen (zoals de periode, de collega, de verschillende titels en de partij) én om aan te geven welke onderwerpen nog beschreven moeten worden, zoals deze lijst. In de loop der tijden zijn zo heel veel lijsten ontstaan in deze encyclopedie.

Wikidata[bewerken | brontekst bewerken]

Een paar jaar geleden is Wikidata van start gegaan. In die tijd zijn 68 miljoen items aangemaakt (20 september 2019) en meer dan 1 miljard bewerkingen gedaan (per op 21 augustus 2019). In principe is iedere pagina in de hoofdnaamruimte van iedere Wikipedia gelinkt aan een item in Wikidata. Daarbij worden zo veel mogelijk gegevens over het onderwerp van deze pagina verzameld. Zo vermeldt Q727 veel informatie over Amsterdam, en Q42 over Douglas Adams.

De opzet van Wikidata is dat gegevens zo veel mogelijk taalneutraal worden opgeslagen. Dit wordt bereikt door zo veel mogelijk 'talige' elementen onder te brengen in losse items. Zo hoeft bij Mark Rutte niet ingetikt te worden dat zijn ambt 'minister-president van Nederland' is, maar kan volstaan worden met Q3058109. Het grote voordeel hiervan is dat dit ambt ook toegekend kan worden aan Jan Peter Balkenende, Dries van Agt, Joop den Uijl en andere voorgangers. Bovendien is een eenmaal ingevoerde vertaling, bijvoorbeeld in het Schots-Gaelisch of het Grieks ook meteen beschikbaar bij alle minister-presidenten die Nederlands gekend heeft, of in de toekomst zal kennen. Numerieke waarden en data (hier: meervoud van datum) kunnen wel gewoon ingevoerd worden, omdat die vrij universeel zijn (al zijn er ook andere kalendersystemen naast de Gregoriaanse).

Bij een persoon wordt getracht om in ieder geval naam, familienaam, geboortedatum, nationaliteit, beroep, eventuele sterfdatum, een afbeelding en nog meer gegevens vast te leggen. Een deel van deze gegevens is handmatig ingevoerd, soms met een bronvermelding erbij. Soms zijn gegevens overgenomen uit meer of minder betrouwbare verzamelingen gegevens van andere bronnen. Zo zijn veel gegevens ontleend, of mede bebrond als ontleend, aan het RKD. Of deze gegevens in een of andere (elektronische) lijstvorm door het RKD beschikbaar zijn gesteld of op enig moment van deze site zijn ingelezen, weet ik niet. Het overnemen uit een bron gebeurt normaliter eenmalig. Dat wil zeggen dat als er vandaag in het RKD staat dat Neeltje Vos op 15 maart 2019 is overleden en dat gegeven vandaag wordt overgenomen, er niet automatisch een signaal naar Wikidata gaat als er morgen (of over een week, of vijf jaar) wordt vastgelegd dat zij in werkelijkheid op de veertiende overleden zou zijn. Ik weet in ieder geval een persoon van wie de gegevens in het RKD later zijn verwijderd, op verzoek van betrokkene, waarna deze handmatig van Wikidata zijn verwijderd. Een deel van de gegevens die in Wikidata is toegevoegd, is netjes voorzien van een (externe) bron. Bij andere bewerkingen is geen bron vermeld. Ik moet zeggen dat ik zelf ook niet altijd de complete bronvermelding bij de geboortedatum én de geboorteplaats én de sterflocatie én de sterfdatum én de voornamen én de datum van uitvaart én de begraafplaats opneem als ik een rouwadvertentie uitpluis. En ja, ook is een deel van de gegevens overgenomen uit een Wikipedia-artikel. Dat kan een kwaliteitsartikel in de Engelse of Nederlandse Wikipedia zijn, maar ook een minder betrouwbaar artikel in een klein taalgebied.

Ook bestaat de mogelijkheid om een beschrijving van het onderwerp (de persoon) te plaatsen. De Nederlandse taal is de taal waarin de meeste beschrijvingen beschikbaar zijn, meer dan in enige andere taal. Over de volledigheid en kwaliteit van die beschrijvingen kunnen de meningen verschillen, daar kom ik later op terug.

Lijsten op Wikipedia[bewerken | brontekst bewerken]

Op de Nederlandse Wikipedia hebben we een veelheid aan lijsten. Veel van deze lijsten zijn handmatig samengesteld, een deel van de lijsten is specifiek geoormerkt als incompleet. De compleetheid van andere lijsten is soms meer verondersteld dan bewezen.

Wat mensen ertoe brengt om specifieke items toe te voegen aan een lijst, is lang niet altijd duidelijk. De aanname dat dit altijd gebaseerd is op raadpleging van relevante bronnen, zoals door sommigen noodzakelijk geacht wordt, blijkt doorgaans niet uit de lijst of bewerkingssamenvattingen van de bewerkingen op de lijst. Zie bijvoorbeeld Lijst van kooktoestellen of Biografielijst Wi en de ontstaansgeschiedenis daarvan. Bij geen van de door mij geraadpleegde lijsten is uit de bewerkingssamenvatting of de lijst duidelijk wat de bron is waarop de afzonderlijke bewerkingen zijn gebaseerd. Wel zijn er lijsten als World Happiness Report, waar een bron bij gegeven is voor een versie van die pagina, maar niet zelden worden dergelijke pagina's in de loop der tijd bijgewerkt, waardoor de relatie met de bron verloopt.

Onnauwkeurigheden in Wikipedia-lijsten[bewerken | brontekst bewerken]

De handmatig onderhouden lijsten vertonen inconsequenties, incompleetheid en (soms) tegenstrijdigheden.

Zo is Kees Witholt op 27 augustus 2010 aangemaakt met de vermelding Arend Winter Witholt als zijn complete naam. Op 25 april 2019 is dit in het artikel aangepast naar Arent, maar op de biografielijst en de lijst van personen onderscheiden met het Vliegerkruis bleef dit ongewijzigd staan tot 15 september 2019.

Lijsten uit Wikidata[bewerken | brontekst bewerken]

ListeriaBot biedt de mogelijkheid om, met een SPARQL-opdracht lijsten op een Wiki-gerelateerde pagina aan te maken. Voor een overzicht als Project Surinaamse plantages of kloosters is dat een mooie optie. Een nadeel is dat deze optie de gegevens enkel in tabelvorm weet te presenteren.

Geboorte- en overlijdenslijsten[bewerken | brontekst bewerken]

Een deel van de geboortes en overlijdens van personen die in deze Wikipedia zijn opgenomen, is vermeld op een pagina als 1939 of 9 oktober. Hiermee wordt een dergelijke pagina overheerst door dit deel aan gegevens. Op '1939' staan nu 310 geboortes vermeld. RonnieBot heeft, op basis van de gegevens uit Wikidata, er ruim vier keer zo veel in beeld gebracht. Op die pagina staan ook 63 overlijdens. RonnieBot vond er zes keer zo veel (379). Als we al die namen en data zouden vermelden, zou de balans van deze pagina nog veel verder verstoord worden.

Bij recentere jaren zijn we er al toe overgegaan om de overlijdens op aparte pagina's te zetten, zoals Lijst van personen overleden in 2003, gestart in oktober 2007. In de loop der jaren is dit uitgebreid, tot de aanmaak van Lijst van personen overleden in 1948 op 14 maart 2018. Hoe de gegevens voor deze lijst verzameld zijn, kan GeeJee mogelijk vertellen. Bij recente lijsten, zoals Lijst van personen overleden in april 2019, is er min of meer een afspraak dat alle (enigszins kansmakende) personen worden opgenomen in deze lijst, en dat na enkele maanden de rode links verwijderd worden. Of later aangemaakte artikelen dan weer worden toegevoegd, is altijd de vraag.

Toen ik, na een vraag in de kroeg, aan de slag wilde gaan met de geboortelijsten, ben ik in eerste instantie hiernaar gaan kijken. Zo ontstond deze lijst, een lijst waar heel veel op aan te merken viel. Naar aanleiding van het gesprek aldaar ben ik verder gegaan en ben tot de nu ontstane lijsten gekomen. Onder VJVEGJG en met deze vraag en reacties in de Kroeg zag ik daar geen bezwaar tegen.

Gaandeweg heb ik deze lijsten meer inhoud gegeven. Zo is er rekening gehouden met kwalificaties van geboorte- en sterfdata, is er voorrang gegeven aan beroepen en andere aanduidingen met een voorrangsindicatie, is het aantal opgenomen vermeldingen beperkt en zijn de lijsten van afbeeldingen voorzien. Eerst een klein groepje, afkomstig van de handmatige lijsten (waarbij de nodige fouten gesignaleerd zijn), daarna met een veel uitgebreidere verzameling afbeeldingen. Ook is er werk gemaakt van de vermelding van bronnen voor de gebruikte datumaanduiding. Voor de bron van de rest van de gegevens wordt steeds verwezen naar het betreffende item in Wikidata. Daarmee is dit duidelijk anders dan handmatige lijsten. Ook worden, zoals hier voor de maand juni, de rode links automatisch verwijderd, waarna alsnog aangemaakte artikelen gewoon weer toegevoegd worden (zoals hier.

Bezwaren[bewerken | brontekst bewerken]

De bezwaren tegen deze lijsten vallen in mijn ogen uiteen in vier groepen:

  1. bezwaren tegen lijsten in het algemeen;
  2. bezwaren tegen het gebruik van Wikidata in het algemeen;
  3. bezwaren tegen losse fouten in Wikidata;
  4. bezwaren tegen bepaalde keuzes die gemaakt zijn in de achterliggende algoritmes.
Bezwaren tegen lijsten in het algemeen[bewerken | brontekst bewerken]

Lijsten bestaan al sinds jaar en dag op nl-wiki, in allerlei vormen. Degenen die hier bezwaren tegen hebben, moeten in mijn ogen een andere discussie voeren, en zich niet primair op deze groep lijsten richten.

Bezwaren tegen het gebruik van Wikidata in het algemeen[bewerken | brontekst bewerken]

Interwiki's worden al lange tijd via Wikidata bijgehouden. Voor mij was dat de eerste ervaring met Wikidata, en ik denk dat het dat voor velen was. Het was even wennen, maar volgens mij is iedereen hier inmiddels aan gewend en tevreden over.

Wikidata bevat heel veel gegevens, waarvan sommige zich eenvoudiger lenen voor gebruik op nl-wiki dan andere. Als het inwonertal van Amsterdam in 1900 wordt opgehaald, verschijnt 523.577 als waarde, maar zonder enige bron. Het aantal van 825.080 inwoners op 31 maart 2015 is ontleend aan de Duitse Wikipedia, en bij 2018 staat het aantal 860.214, met een link naar het CBS. Het aantal kan verkeerd zijn overgenomen (handmatig of elektronisch), de bron kan verkeerd geïnterpreteerd zijn en de bron zelf kan in twijfel getrokken worden, maar dit feit staat er, compleet met bronvermelding.

De invoermogelijkheden van Wikidata zijn volgens sommigen niet gebruikersvriendelijk genoeg. Het is anders dan het bewerken van Wikipedia, waar we het in een ouderwets schermpje met handmatig in te voeren codes doen. Maar ook op WikiCommons word je geacht dingen in een bepaalde systematiek in te voeren. Daar hoor ik niemand over klagen. En de visuele editor, die ondersteunend kan zijn bij het schrijven van artikelen, wordt ook tot nu toe tegengehouden, omdat deze te onvriendelijk zou zijn.

Bezwaren tegen invoerfouten in Wikidata[bewerken | brontekst bewerken]

Zoals gezegd staan er in Wikidata heel veel gegevens. In een deel van die gegevens zitten fouten. Dat kan door allerlei redenen komen, van een simpele tikfout of gegevens die op het moment van invoer correct leken te zijn, in ieder geval volgens de geraadpleegde bron(nen), tot verkeerde interpretaties die tot structurele fouten leiden. Gelukkig kan ook op Wikidata alles aangepast worden, zodat alsnog de goede waarden bekend zijn en gebruikt kunnen worden. Dergelijke fouten zien we dagelijks op Wikipedia voorbij komen, en worden ook dagelijks opgepakt.

Het invoeren van deze gegevens is (meestal) niet door mij gedaan. Ik hoef me volgens mij dan ook niet verantwoordelijk te voelen voor eventuele onjuistheden in deze gegevens. Wel heb ik, als Wikipediaan, ook te maken met deze gegevens en zal ik mijn best doen om geconstateerde fouten te herstellen. Een groot deel van mijn bewerkingen op Wikidata sinds oktober 2018 heeft dan ook te maken het met herstellen of aanvullen van losse gegevens, met als doel nog betere gegevens in de geboorte- en overlijdenslijsten te krijgen.

Zaken als universiteitsdocent waar hoogleraar beter op z'n plaats is, vallen in mijn ogen onder invoerfouten. Dit heeft niets te maken met het algoritme, met wat RonnieBot doet, maar met de handmatige invoer van een enkele gebruiker. Wat mij betreft mag dit zo snel mogelijk ongedaan worden gemaakt.

Bezwaren tegen bepaalde keuzes die gemaakt zijn in de achterliggende algoritmes[bewerken | brontekst bewerken]

Dit zijn bezwaren die inderdaad aan RonnieBot, of eigenlijk beter aan mij als haar beheerder, kunnen worden geweten, gericht. Ik ben dit project alleen ingestapt, onder het motto VJVEGJG. Een aantal opmerkingen die in de loop der tijd gekomen zijn tegen een aantal gemaakte keuzes heb ik successievelijk aangepakt, voor sommige is dat eenvoudiger dan andere. En hoewel ik een aanvang heb gemaakt met het geven van uitleg, heb ik nog niet alle gemaakte keuzes verwoord en verantwoord.

Ik zal er hieronder een aantal punten bespreken, die (recent) genoemd zijn als bezwaar. Wat een goede manier is om hierover met elkaar tot een betere oplossing te komen, weet ik niet. Misschien is het een idee om deze punten onder mijn reactie te herhalen en daar met elkaar in gesprek te gaan.

  1. RonnieBot vermeldt te veel zaken als omschrijving: RonnieBot kijkt naar de volgende velden: adellijke titel, ambt en beroep. Van ieder van deze velden worden de waarden gelezen die niet een lage prioriteit hebben. Als er (inderdaad, subjectief) per groep meer dan twee waarden als 'preferred' zijn aangewezen, worden alleen deze waarden gebruikt (ongeacht hun aantal), anders worden alle waarden gebruikt. Tot slot worden de drie zo verkregen reeksen samengevoegd tot een omschrijving (met wat uitzonderingen);
  2. RonnieBot vermeldt soms alleen de aanduiding van de nationaliteit: dit klopt. In dat geval is er geen adellijke titel, geen ambt en geen beroep ingevoerd in Wikidata bij deze persoon. Ik heb ervoor gekozen om dat geen reden te laten zijn om de weergave van de persoon te onderdrukken, omdat dit juist een uitnoding is om deze gegevens aan te vullen;
  3. Maar er is toch ook een beschrijvingsveld bij ieder item in Wikidata? Ja, dat klopt. Dit veld is niet altijd ingevuld, dus alleen dit veld gebruiken kan niet. Daarnaast is dit veld vaak erg summier ingevuld. 'Nederlands politicus' kwam (rond 9 september 2019) 5082 keer voor (en 688 keer 'Nederlands politica'). Hieronder werden wethouders, burgemeesters, Kamerleden, gouverneurs van overzeese rijksdelen en meer samengevoegd tot een geheel: 'politicus'. Ik had en heb de hoop dat we tot omschrijvingen kunnen komen die meer over de persoon zeggen. Overigens valt RonnieBot op deze beschrijving terug als er noch een land van nationaliteit noch een titel, ambt of beroep is ingevuld. Hier wordt dan weer wel de eventuele jaaraanduiding uitgehaald, omdat die misstaat in de lijst;
  4. Kan je de beschrijving laten prevaleren boven iets dat de computer samenstelt? Ja, dat had ik kunnen doen. En dat zou alsnog kunnen. Maar ik heb hierboven al een reden gegeven waarom me dat geen goede keuze lijkt. Daarbij is dit veld vaak via een robot ingevuld, waarbij veel informatie is weggelaten, en waarbij geen gebruik is gemaakt van latere toevoegingen. De flexibele opzet die ik gekozen heb, volgt wel de ontwikkelingen op Wikidata;
  5. Soms worden Engelse termen gebruikt. RonnieBot is zo ingesteld dat deze altijd alleen gebruik maakt van de aanduidingen in het Nederlands (bronnen daargelaten). Als er echter een Engelse term gebruikt is voor een label in het Nederlands, is dat een losse fout in Wikidata. Er is mij geen voorbeeld hiervan bekend, maar stel dat bij voetballer de Engelse term association football player ingevuld zou zijn als Nederlands label, dan zou dat bij alle voetballers zo aangegeven worden. Het aanpassen van deze term bij het Wikidata-item voor dit beroep lost het in een keer op. Met dien verstande, dat RonnieBot pakweg maandelijks alle gegevens uit de database opnieuw leest, en daarna alleen de lemma's van personen bekijkt als dat lemma veranderd is. Een verandering in een achterliggend item wordt (voor nu) niet direct opgepakt. Wel heb ik een mogelijkheid ingebouwd om RonnieBot een lijst Qid's te geven die sowieso opnieuw ingelezen moeten worden. Dat heb ik onder meer gebruikt op het moment dat ik bepaalde term vertaalde die voorheen onvertaald was of, zoals na het uitsplitsen van de soorten turners, waarbij dit voor 4969 personen tegelijk is aangepast;
  6. RonnieBot verwart de doopdatum met de geboortedatum, of de datum van uitvaart met de overlijdensdatum. Dit is onjuist. RonnieBot maakt onderscheid tussen wat er in het veld geboortedatum en wat er in het veld d:P1636 staat, dan wel in overlijdensdatum en datum van begrafenis of crematie. Alleen de geboorte- en overlijdensdatum worden gebruikt om mensen in te delen op een bepaalde datum in de lijst. De doopdatum wordt wel gemeld bij het overlijden van die persoon, als de geboortedatum niet bekend is. Zo staat op Lijst van personen overleden op 30 oktober bij 1682 Adam François Schellaert van Obbendorf, heer van Leeuwen en heer van Schinnen (gedoopt op 22 februari 1624), omdat Adam Schellaert niet is opgenomen op de lijst van geboorten in 1624 of op de lijst van geboorten van 22 februari. Wat wel mogelijk is, is dat soms doopdata ten onrechte als geboortedata zijn opgenomen in Wikidata. Dan is het toch alleen maar mooi dat we deze onjuistheid kunnen herstellen, voordat het een nog veel grootser leven gaat leiden?
  7. Er worden soms onjuiste foto's gebruikt. Een onjuiste foto is in mijn ogen een foto die een verkeerd persoon laat zien, of geheel geen persoon. Ik kan niet uitsluiten dat op alle ruim 100.000 foto's altijd de juiste persoon staat afgebeeld. Om het controleren op afbeeldingen die geen persoon bevatten te vergemakkelijken, heb ik RonnieBot eind juli overzichten laten maken van alle afbeeldingen die gebruikt worden. Dit staat op pagina's als Gebruiker:RonnieBot/afbeeldingen 33. Zoals in de geschiedenis te zien is, is een deel van de afbeeldingen afgevoerd. Dit waren veelal kunstwerken gemaakt door die persoon of foto's waarop geen persoon te zien was (maar bijvoorbeeld een auto). Voor sommige van deze overzichtspagina's heb ik dat al gedaan, voor andere moet dat nog. Over hoe anderen daarbij kunnen helpen, wil ik het graag hebben. Het zo maar verwijderen van een afbeelding uit dit overzicht of uit een van de lijsten is niet de handige manier;
    Een foto waarop meerdere personen staan (mits niet te veel), is in mijn ogen niet 'fout'. In die gevallen maak ik zo veel mogelijk gebruik van een aangepast onderschrift om aan te geven dat Marietje (bijvoorbeeld) rechts op de afbeelding staat, zoals bij Hans Eijkenbroek op Gebruiker:RonnieBot/afbeeldingen 20 (die pagina is nog niet doorgelopen op foute afbeeldingen);
  8. Voor ... is een betere foto beschikbaar. Dat kan. Het is altijd mogelijk om RonnieBot met andere foto's te laten werken. Geef aan welke afbeelding het is en voor welk persoon deze gebruikt moet worden, en RonnieBot kan deze de volgende keer meenemen;
  9. Er staan te veel afbeeldingen op de afzonderlijke lijsten: Ik heb er inderdaad voor gekozen om geen subjectief onderscheid te maken of een bepaald persoon al dan niet een foto 'verdiend' op deze lijsten. In de geschiedenis van diverse handmatige lijsten zijn bewerkingsoorlogen te vinden over het opnemen van de ene foto of de andere. Ik heb gekeken of het mogelijk is dat te voorkomen door geen restrictie op het aantal te zetten. Dat is mogelijk. Of dit inderdaad de gewenste uitkomst is, daar kunnen we met elkaar over van mening verschillen;
  10. De omschrijving bij de afbeelding voor ... kan beter. Als er een aanduiding ter onderscheid tussen de meerdere personen op de afbeelding ontbreekt, kan die er inderdaad bij. Geef aan waar die ontbreekt, dan verwerk ik dat. Verder heb ik de omschrijvingen zo veel mogelijk geautomatiseerd, zodat er geen honderdduizend onderschriften met de hand ingevoerd hoefden te worden. Als dit algoritme verbetering behoeft, voel je vrij daartoe voorstellen te doen;
  11. Ongeldige nationaliteiten (door een verkeerde periode): dit probleem is volgens mij vrij recent gemeld, bijvoorbeeld personen uit de zevende eeuw die als Belgisch worden aangeduid. Een eenvoudige oplossing is het om te kijken of personen overleden zijn voor het ontstaan van de gemelde staat. Deze controle vindt ook in Wikidata plaats. Als ik daar bij Karel de Grote aan zou geven dat het land van nationaliteit 'België' is, dan volgt een melding. Ik heb als invoerder van gegevens de mogelijkheid om dat te negeren, of om het meteen op te lossen. Voor grofweg het gebied dat nu Europees Nederland beslaat, heb ik op de overlegpagina een lijstje opgesteld van de achtereenvolgende namen. Het voorstel om de nationaliteit dan maar gewoon weg te laten (bijvoorbeeld bij iemand die als België krijgt toegewezen, maar voor 1830 is overleden), is zeker een optie. Het aantal mensen bij wie geen nationaliteit wordt aangegeven, zal hierdoor stijgen, maar wellicht kunnen we dergelijke afwijkingen, nu of in een later stadium, ergens apart in beeld brengen;
  12. Dubbele nationaliteiten: Dit is inderdaad een uitdaging waar ik nog geen oplossing voor gevonden heb. Idealiter zou Wikidata bij iedere aanduiding van de nationaliteit de geldigheidsduur vermelden. Dat kan de geboortedatum of sterfdatum van de persoon zijn (al kan ik me indenken dat dat overdreven overkomt, zo is iedereen die sinds 1839 in Nederland geboren is en niet zelf verhuisd is, (wat grenscorrecties daargelaten) Nederlander gebleven), maar ook de begin- of einddatum van het bestaan van het aangegeven land. Misschien moeten we eens kijken of we dit in alle betreffende items in Wikidata kunnen opnemen als die gebeurtenis tijdens het leven van die persoon speelde. Daarnaast hebben we te maken met mensen die er bewust voor kiezen een andere nationaliteit te aanvaarden, al dan niet naast de al eerder verkregen nationaliteit.
    Een goede verwoording in deze is nog niet eenvoudig. Is iemand als Bart Veldkamp zomaar én Nederlander en Belg, dus een Nederlands-Belgische schaatser (of een Belgisch-Nederlandse schaatser)? In hoeverre weeg je de periode van activiteiten (voor zover bekend) mee? Is Gerard Depardieu een 'Russische acteur', nu deze in 2013 de Russische nationaliteit heeft verkregen? Of is het een Franse acteur, omdat hij (vooral) bekendheid heeft verkregen in zijn Franse jaren? 'Frans-Belgisch-Russische acteur' klinkt misschien compleet, maar dan kan de volgorde een uitdaging zijn, zeker als niet alle begin- en eventuele einddata zijn vastgelegd in Wikidata. Dit wordt nog erger als er een of meer landen bij betrokken zijn waarvan het bijvoeglijke naamwoord niet gebruikelijk is. Of bij een eerder genoemd persoon: 'Israëlische rechter uit het Keizerrijk Rusland'?
  13. De 'Russische problematiek' (als ik het zo mag noemen): personen die in de Sovjet-Unie / Rusland wo(o)n(d)en hebben mogelijk niet alleen te maken met een staatsburgerschap, maar ook met een nationaliteit die daarmee niet gelijk hoeft te lopen. Dit wil ik graag apart bespreken en oplossen, waarbij ik Sijtze Reurich wil vragen mee te denken, maar ook anderen die meer weten van de situatie in dat deel van de wereld en mensen die meer weten van Wikidata. Ik kan niet goed beoordelen of dit op te lossen valt door een andere eigenschap uit Wikidata te gebruiken, of dat hier iets heel anders voor moet gebeuren. Wikimedia heeft ook een actieve Russische geleding, ik kan me niet indenken dat zij dit niet op tafel zouden brengen als het voor hun gevoel relevant is;
  14. Verversingsfrequentie: Met het compleet opnieuw opbouwen van de database is mijn computer drie tot vier dagen bezig. Dit probeer ik eens in de een à twee maanden te doen. Daarna draait er een ander script, dat ik handmatig opstart, dat alle wijzigingen sinds de laatste keer controleren oppakt. De looptijd van dit script is afhankelijk van de verstreken periode én van de wijzigingen die in de tussentijd gedaan zijn op Wikidata. Als net iemand besloten heeft alle Wikidata-items te voorzien van een omschrijving in het Swahili, krijgt RonnieBot een hoop items voor zijn kiezen die bewerkt zijn, ook al is die bewerking niet van toepassing op de Nederlandse omschrijving. RonnieBot 'ziet' enkel of een item gewijzigd is, niet of het een relevante wijziging is. Dat blijkt pas na het inlezen van alle relevante gegevens, waarbij de actuele set gegevens gevormd wordt. En dan kunnen wijzigingen in onderliggende items meegenomen worden, ook als er in het item zelf niet relevants gewijzigd is. Als dit script te lang gelopen heeft (meerdere uren), laat ik het nogmaals draaien. Daarna start ik een ander script op, dat de gegevens daadwerkelijk gaat plaatsen op Wikipedia. Eerst de pagina's op geboortejaar, dan op geboortedag en dag van overlijden. Daarnaast laat ik dan een script draaien dat de recente overledenen (alle sinds 1 januari 2019) inleest, waarna de lijsten op overlijdensjaar worden geplaatst.
    Een tijdje geleden heb ik het wegschrijven van een pagina onderdrukt als deze gelijk is aan de al bestaande pagina. Dat maakte dat de totale schrijfcyclus een stuk korter duurde. Dit is echter weggevallen, nu ik recent het moment van het verkrijgen van de data heb opgenomen in de te plaatsen tekst. Dat verandert met iedere leesronde, dus wordt nu weer iedere pagina weggeschreven. (Op te lossen door de vergelijking niet over de hele pagina te doen, maar over het deel voor het melden van het moment van wegschrijven, maar dat heb ik niet doorgevoerd.) Het wegschrijven van 1500 pagina's met 1 pagina per minuut duurt ruim een dag, maar het kan sneller;
    Ook hier is een verbetering in aangebracht, waarbij zo veel mogelijk vergeleken wordt of de inhoud van de pagina voor de vermelding van het moment van de gegevens veranderd is. Hierdoor zijn minder wijzigingen nodig, dus loopt het script gewoonlijk korter~. RonnieV (overleg) 13 feb 2020 01:27 (CET)[reageren]
  15. Overlijdens in het lopende jaar (de laatste maanden): RonnieBot kijkt naar alle overlijdens in Wikidata vanaf 1 januari 2019. Hierbij wordt geen onderscheid gemaakt of deze persoon al dan niet een lemma heeft op de Nederlandse Wikipedia. Dat onderscheid maken we ook niet op de handmatige overlijdenslijsten van de laatste maanden. Deze gegevens worden, voor de lopende maand en de twee voorgaande maanden, meegenomen bij het aanmaken van de lijst op overlijdensjaar, net als alle overlijdens van dit jaar waarbij de datum niet is aangegeven. Is er na het verstrijken van twee volle maanden na de overlijdensdatum geen Nederlandse pagina bekend in Wikidata, dan wordt deze persoon bij de eerste verversing in de maand (UTC-tijd) weggelaten. Dit is nog niet netjes ingesteld voor de jaarovergang. In februari 2020 zouden de rode linken van 2019 voor datum onbekend en voor december nog zichtbaar moeten zijn, in maart 2020 zouden die alle moeten vervallen. Maar dat is een aanpassing in de code;
    Dit is opgelost. Ook in de maanden na een jaarovergang worden alleen voor de lopende en de twee voorgaande maanden alle overlijdens opgenomen, van andere maanden alleen de overlijdens die een persoon betreffen met een artikel op de Nederlandse Wikipedia. Met vriendelijke groet, RonnieV (overleg) 13 feb 2020 01:19 (CET)[reageren]
  16. Bronvermelding: een tijd geleden heb ik de code uitgebreid en sindsdien vermeld de overlijdenspagina van 2019 bronnen bij alle overlijdens waar deze bron vermeld is in Wikidata met 'URL voor bron'. De uitvoer is recentelijk aangepast na een tip van Romaine. Dit waren er 1143 op 8 september 2019, op 2635 personen. Verwijzingen naar een van de Wikipedia volstaan niet voor opname in deze lijst. Bij veel andere personen is in Wikidata wel meer informatie te vinden die leidt naar de bron, desnoods via het artikel in de betreffende taal of de lijst van overleden personen in ... van die Wikipedia.
    Op de Nederlandse Wikipedia is er geen verplichte bronvermelding in artikelen. Bij Albert Fritz, Katherine MacLean en Edo Zanki (allen overleden op 1 september 2019) staat in het artikel geen bron voor de overlijdensdatum. Die staat wel op Lijst van personen overleden in september 2019. Of de gemiddelde lezer van Wikipedia die gaat vinden, ik weet het niet. In de overlijdenslijsten is het wel gebruikelijk om deze altijd te vermelden. Meldt iemand een overlijden zonder bron, dan wordt er een bron bij gezocht. Graag, en neem die vooral ook op in Wikidata! Dan kan RonnieBot die de volgende keer ook vermelden;
  17. Ik vind dat de pagina meer/minder/andere/... kopjes moet hebben. Over smaak valt niet te twisten, maar als er verbeteringen wenselijk zijn, kunnen we daarover met elkaar in gesprek. Het had niet mijn hoogste prioriteit om de pagina's, net als de handmatige lijsten, vanaf een bepaald moment in maandpagina's te hakken. Dit is een stukje uitvoer, en dat kan opgepakt worden. Ook het vermelden van de afzonderlijke dagen als tussenkopje zou daaronder vallen;
  18. De link naar Wikidata vinden sommigen storend, dit doen we nergens anders. Het is nooit te vroeg om iets te proberen. Velen stellen het wel op prijs dat ze meteen naar de data kunnen en deze kunnen corrigeren of aanvullen. Anderen gaan liever eerst via de link naar het artikel, dan via 'Wikidata-item' naar het wikidata-item. Zullen we elkaar de ruimte geven om het op beide manieren te doen? Overigens heeft de Franse Wikipedia in de infoboxen standaard de mogelijkheid staan om gegevens direct aan te passen. Dit zal in de toekomst steeds meer gemeengoed worden;
  19. Er staan deels dubbele lijsten. De lijsten vanaf overlijdens vanaf 1948 zijn handmatig aangemaakt. Deze heb ik niet bruusk willen overschrijven. Daarom heb ik deze daarnaast gezet, zodat de verschillen duidelijk worden. Hopelijk kan het verschillende aantal vermelde personen bijdragen aan het verbeteren van beide lijsten. Natuurlijk is het op termijn wenselijk als er maar een variant bestaat.

Nut van de lijsten[bewerken | brontekst bewerken]

Het tonen van gegevens uit Wikidata, bijvoorbeeld in de vorm van de geboorte- en overlijdenslijsten, maakt inzichtelijk wat er in Wikidata beschikbaar is. Zonder dergelijke lijsten (en het gebruik van die gegevens op andere plaatsen) blijven onvolkomenheden verborgen en zullen die steeds weer ergens opduiken. Binnen of buiten Wikidata. Aangezien de gegevens in Wikidata ook door anderen gebruikt worden (net als informatie in Wikipedia) past het in mijn ogen bij een Wikimediaan om zich ook over deze gegevens te willen ontfermen. Maar als iemand persoonlijk niet die behoefte voelt, dan is het natuurlijk ieders vrijheid. Ik hoef me ook niet in te laten met de laatste uitslag van voetbalclub Feyenoord, de ontwikkelingen in de Israëlische regering of de weespagina's van het geslacht Earias.

Net als Wikipedia is Wikidata een project dat doorlopend verbetering en aanvulling behoeft. Op beide projecten hoeft de eerste versie niet perfect te zijn, en slechts zelden zal de eerste versie ook de laatste zijn. Laten we met elkaar kijken hoe deze projecten elkaar kunnen versterken.

Toekomst[bewerken | brontekst bewerken]

Hoewel mijn handen nu gebonden zijn door de blokkade van RonnieBot, wil ik graag met kritisch-positief meedenkende Wikipedianen aan de slag om dit project verder te vervolmaken. Daarbij zou het op bepaalde punten zeker welkom zijn als mensen met meer kennis van de situatie ter plekke (bijvoorbeeld Rusland en haar voorgangers) meedenken over een oplossing die enerzijds recht doet aan de feitelijke situatie, anderzijds uitvoerbaar is. Ik heb niet het afgelopen jaar heel veel tijd in dit project gestoken om het zo maar ter ziele te laten gaan (naast dat ik er natuurlijk dingen mee geleerd heb).

Ik zal niet ontkennen dat er een aantal punten ter verbetering ligt. Hoewel de systematiek generiek is, heeft het voor de doorlooptijd bij het inlezen van gegevens uit Wikidata, en dus ook op de duur van aanpassingen, de voorkeur om te beginnen met een jaarlijst, niet met een specifieke datum. Het is domweg sneller om alle personen die overleden zijn in 1918 uit Wikidata te lezen en hun gegevens te verwerken, dan alle personen die overleden zijn op 13 januari.

Het spijt me dat deze toelichting er niet, zoals gehoopt, op 9 oktober was, maar het opstellen hiervan heeft wat meer tijd gekost dan ik hoopte. Met vriendelijke groet, RonnieV (overleg) 12 okt 2019 05:57 (CEST)[reageren]

Algemene reacties[bewerken | brontekst bewerken]

  • Ik denk dat deze lijsten een goede aanvulling kunnen zijn op den duur, zodra de meeste schoonheidsfoutjes eruit zijn. Voor nu zijn de lijsten nog geen aanvulling voor de hoofdnaamruimte zoals velen aangeven. Als projectpagina's om enerzijds Wikidata te verbeteren en anderzijds om de lijsten (en de algoritme) te verbeteren, zijn ze wel een aanvulling. Ze moeten dan een plaats krijgen buiten de hoofdnaamruimte. Mbch331 (Overleg) 12 okt 2019 12:17 (CEST)[reageren]
  • Ik heb ernstige bedenkingen bij de huidige manier van werken, zowel wat betreft de botmatige bewerkingen als de kwaliteit. Echter, een hulplijst buiten de hoofdnaamruimte zou wel nuttig zijn. Op die manier kunnen eerst de fouten op Wikidata opgespoord worden en gecorrigeerd worden en voorkom je fouten in de hoofdnaamruimte. The Banner Overleg 12 okt 2019 14:17 (CEST)[reageren]
  • Ik vind de lijsten een aanvulling binnen de hoofdnaamruimte. Wanneer men dat niet wilt, dan binnen de naamruimte van Wikipedia.nl. Door botmatig te werken met de systemen kan men het hele systeem verbeteren. Fouten staan ook binnen Wikipedia.nl, dat accepteert men ook. Zelfs wanneer er lemma's, waar men fouten in vermoedt, binnen de gebruikersruimte plaatst "heb je hier de poppen aan het dansen". Lidewij (overleg) 12 okt 2019 15:24 (CEST) Aanvulling. Steeds meer Infoboxen voor personen worden vanuit wikidata met een bot gevuld. Het zijn de zelfde gegevens die nu in deze lijsten staan. Dus wat is het probleem? Via de volglijst is ook wikidata te volgen. Lidewij (overleg) 21 okt 2019 20:34 (CEST)[reageren]
  • Ik dacht dat ik hier al een reactie had gegeven, maar zie het niet (meer) terug. Ik ben voor behoud van deze lijsten, maar voorlopig buiten de hoofdnaamruimte. Het liefst als onderdeel van een Wikiproject (en dan is deze plek prima geschikt denk ik). Zet je het in de gebruikersruimte van bijvoorbeeld RonnieV dan maak je één gebruiker hoofdverantwoordelijk, terwijl deze lijsten juist een algemeen doel kunnen dienen waarbij meerdere gebruikers samen kunnen werken. Op korte termijn zie ik vooral voordelen in de lijsten als controlemiddel. We kunnen zowel Wikidata als artikelen hier op Wikipedia verbeteren, en we kunnen kijken op welke punten het misgaat zodat we ook een grotere verbeterslag kunnen slaan. Op lange(re) termijn zie ik de mogelijkheid om de lijsten in verbeterde vorm terug te plaatsen. GeeJee (overleg) 3 nov 2019 16:54 (CET)[reageren]
  • Categorie:Lijsten van overleden personen naar jaar bestaat al heel lang en de lijsten daarin bevatten feitelijk, alleen in een iets andere vorm, dezelfde info als in de door RonnieV gegenereerde lijsten in Categorie:Lijsten van overleden personen naar datum. Daardoor is die laatste lijstencategorie nu al in zeker opzicht niets dan een doublure t.o.v de eerste. Verder zou ik specifiek voor wat betreft de geboortelijsten waar het hier met name om schijnt te gaan, willen verwijzen naar d:Q7128862. Het valt meteen op dat vrijwel alle andere Wikipedia-taalversies voor dit soort overzichten al heel lang probleemloos met categoriebomen werken, alleen hier op Wikipedia-nl moet en zal het allemaal in de vorm van lijsten gebeuren. Is de hele huidige ophef dus niet eigenlijk vooral het gevolg van de wens van (een deel van) de gebruikersgemeenschap alhier om per se af te wijken van iets wat overal elders al heel lang de norm is (en in dat opzicht heel misschien wel een beetje ridicuul)? De Wikischim (overleg) 6 nov 2019 13:39 (CET)[reageren]
    Beste De Wikischim, ik weet dat jij een grote fan bent van categorieën en categoriebomen. De gemeenschap op deze encyclopedie heeft meerdere keren duidelijk uitgesproken tegen het toevoegen van allerlei categorieën aan pagina's, en zeker tegen gecombineerde categorieën (iets als Categorie:Nederlands wiskundige). Hierdoor is het bijna ondoenlijk om een overzicht te krijgen van alle wiskundigen die in deze encyclopedie zijn opgenomen, tenzij je voor ieder land de gegevens weer handmatig en buiten Wikipedia bij elkaar gaat sprokkelen.
    Vanaf de door jou aangegeven pagina d:Q7128862 kom ik via Category:Births by year met vier keer klikken op de geboortes uit 1824, waar ik niet meer zie staan dan de naam van de alfabetisch eerste 200 personen. Op dat moment weet ik alleen dat Nicholas Bain in 1824 geboren is (volgens degene die dit artikel in die categorie gestopt heeft). Een pagina als Lijst van personen geboren in 1824 laat me zien (voor de 175 hier bekende personen die geboren zijn in dat jaar) op welke dag ze geboren zijn, waar ze vandaan komen (nationaliteit, eventueel uit te breiden met etniciteit), wat ze gedaan hebben en in welk jaar ze overleden zijn.
    Ik waardeer je inzet voor Wikipedia en jouw gedrevenheid om Wikipedia in categorieën in te delen, maar ik denk dat je de gemeenschap en jezelf een groot plezier zou doen door categorieën overal als 'de oplossing' te presenteren. De gemeenschap kijkt daar (ook) in dit geval heel anders tegenaan. Categorieën zijn in mijn ogen vooral in het verre verleden ontstaan en gebruikt omdat er niets beters voor handen was. De (technische) ontwikkelingen van de afgelopen 18 jaar (misschien iets minder, ik weet niet wanneer de eerste categorie hier is aangemaakt) zijn hard gegaan, heel hard.
    Categorie:Lijsten van overleden personen naar jaar bestaat inderdaad al heel lang. Heel veel van de pagina's die je daar ziet, komen voort uit het werk dat ik verricht heb, naast enkele die met de hand zijn aangemaakt. Lijst van personen overleden in 1824 laat voor dezelfde personen dezelfde informatie zien als Lijst van personen overleden op 7 november (maar in dit geval is er geen overlap tussen deze lijsten). Het grootste verschil tussen Lijst van personen overleden in 1948 en Lijst van personen overleden in 1948/Voorstel is dat de laatste de ontwikkelingen van nieuwe artikelen en nieuw toegevoegde informatie automatisch volgt. Verplaatsingen van pagina's, correcties in data, nationaliteit, naam, beroepen, worden allemaal meegenomen. Bij handmatig aangemaakte lijsten gebeurt dat niet. Met vriendelijke groet, RonnieV (overleg) 7 nov 2019 11:19 (CET)[reageren]
    Misschien heb je wel ergens een punt, maar vooralsnog vind ik het allemaal veel te veel op een experiment lijken. Wat betreft info als geboorteplaats, precieze datum e.d.: als het goed is, is dat allemaal toch al te vinden in – natuurlijk – het artikel over de persoon zelf en tegenwoordig ook op Wikidata. Moet al dat soort info dan per se ook nog staan in een lijst die in principe alleen overzichten wordt geacht te geven van personen naar hun geboorte-/overlijdensjaar? Ook in dat opzicht kun je je dus afvragen of de hier ter discussie staande lijsten per definitie meerwaarde hebben.
    Een groot voordeel als er anderzijds voor het maken van overzichten op jaartal van geboorte en overlijden gewoon met categorisatie zou worden gewerkt (zoals op alle andere grotere WP's al heel lang doodnormaal is) is dat categorisatie nou juist zo werkt dat Wikidata er überhaupt helemaal niet bij te pas komt; zodra een artikel in de relevante cat. staat, heb je het overzicht daar al helemaal automatisch, zonder dat je ook maar iets aan gegevens vanaf Data hoeft te importeren e.d. (logisch natuurlijk, want categorisatie bestaat al heel veel langer dan Data). Daarnaast heb ik het argument dat een "te volle" cat. al snel onoverzichtelijk en moeilijk doorzoekbaar is ook altijd nogal vergezocht gevonden (voor zover dit al een probleem is, valt het goeddeels op te lossen door meer deelcats te maken). Kortom, dit alles komt op mij nog steeds wat over als water naar de zee dragen. Of eindeloos knutselen om via een slechte verbinding internet te krijgen terwijl je allang een kabel met een betere verbinding hebt, maar die weigert te gebruiken omdat je 'm te lelijk vindt o.i.d. De Wikischim (overleg) 7 nov 2019 11:50 (CET)[reageren]
Zijspoor over categorieën verplaatst naar het overleg.
Lidewij (overleg) 8 nov 2019 09:14 (CET)[reageren]

Reacties op de aangegeven kanttekeningen[bewerken | brontekst bewerken]

Omschrijving van Wikidata gebruiken (3 en 4)[bewerken | brontekst bewerken]

  • Je bent er tegen om de omschrijving van Wikidata te gebruiken, omdat deze vaak te algemeen is. Echter blijft hierdoor de foute omschrijving op Wikidata onzichtbaar. Samenhangend met mijn opmerking dat het beter buiten de hoofdnaamruimte geplaatst kan worden is het misschien een idee om zowel de Wikidata omschrijving als de omschrijving van de algoritme te vermelden, zodat beiden verbeterd kunnen worden indien nodig. Mbch331 (Overleg) 12 okt 2019 12:20 (CEST)[reageren]
Hoi Mbch331, van de mensen die geboren zijn in 1918 heb ik een lijst aangemaakt, waarin de omschrijving vanuit Wikidata, de samengestelde omschrijving op grond van Wikidata en enige informatie uit het nl-artikel getoond worden. Die vind je Gebruiker:RonnieV/Kladblok/Geboortelijst. Ik wil je graag uitnodigen om te kijken of we hiermee Wikidata en/of Wikipedia kunnen verbeteren. Of misschien vinden we de verschillen wel acceptabel.
Ik wil er met alle plezier meer werk van gaan maken en kijken of het mogelijk is een dergelijke lijst per jaar aan te maken. Voor een deel zal dat per jaar en maand moeten, omdat er best veel informatie in een dergelijke pagina zit. Met vriendelijke groet, RonnieV (overleg) 20 okt 2019 14:36 (CEST)[reageren]
Die 2 n/a bij ambt en adelijke titel zijn vreemd. En de lijst is te lang om alle sjablonen te tonen. Mbch331 (Overleg) 20 okt 2019 15:16 (CEST)[reageren]
Hoi Mbch331, eens over die 2 n/a; die zal ik onderdrukken. De bedoelde betekenis is Niet Available, maar een leeg vak kan natuurlijk ook. Ik zal het ook zo aanpassen, dat er per maand een pagina gegenereerd wordt, met een extra pagina voor de onbekende data, als het aantal geboorten per jaar hoger is dan 200. Daarmee zouden we de sjabloon-limiet moeten respecteren. Kan je er verder inhoudelijk wel iets mee? Met vriendelijke groet, RonnieV (overleg) 21 okt 2019 16:28 (CEST)[reageren]
dat er per maand een pagina gegenereerd wordt. Betekent dat dat deze jaarpagina voor checkdoeleinden 1 keer per maand vernieuwd wordt? Ecritures (overleg) 21 okt 2019 16:54 (CEST)[reageren]
@Ecritures: Ik denk dat hij voor iedere maand een aparte pagina maakt (dus 13 pagina's: 12 maanden + onbekend). @Ronnie: Opzet zag er goed uit. Kan je makkelijk vergelijken en kijken waar iets aangepast moet worden. Mbch331 (Overleg) 21 okt 2019 19:39 (CEST)[reageren]
De uitleg van @Mbch331 klopt: zie onbekend 1918, januari 1918, februari 1918, maart 1918, april 1918, mei 1918, juni 1918, juli 1918, augustus 1918, september 1918, oktober 1918, november 1918, december 1918.
Ik zal een overzichtspagina plaatsen op de oorspronkelijke plaats, zodat iedereen deze lijsten kan vinden. Bijdragen ter verbetering van een van de gebruikte bronnen zijn, indien nodig, welkom. Met vriendelijke groet, RonnieV (overleg) 22 okt 2019 15:51 (CEST)[reageren]
@RonnieV: Ik stelde mijn vraag niet duidelijk genoeg: ik vroeg me af hoe vaak deze (nu) maandlijsten geactualiseerd worden. Dus zeg ik verander vandaag iets op wikidata, wanneer zie je dat terug in de lijst? M.a.w. hoe vaak komt de bot langs om de lijsten te actualiseren? Ecritures (overleg) 22 okt 2019 16:19 (CEST)[reageren]
Deze lijst is niet door een bot aangemaakt en wordt niet door een bot onderhouden. Het doel van deze lijst is primair om aan te geven dat de ingevoerde omschrijvingen op Wikidata niet zaligmakend zijn. Secundair is het doel om duidelijk te maken dat de gegevens die RonnieBot verzamelde en toonde niet van dien aard zijn dat verwijdering uit de hoofdnaamruimte nodig is. Tertiair is het doel de lezers uit te nodigen om, waar dat nodig is, de kwaliteit van de lemmata in Wikipedia en/of Wikidata te verbeteren. De huidige versie van een lemma in Wikipedia of een item in Wikidata is tenslotte niet meer dan de huidige versie. Zo heb ik al enkele zaken in Wikidata aangepast naar aanleiding van deze lijsten, maar ook artikelen in Wikipedia verbeterd. Het overkoepelende doel blijft natuurlijk het verbeteren van alle onderdelen van de Wiki-familie.
Bijwerken gebeurt nu handmatig, waarbij eerst de gegevens van Wikidata opgehaald moeten worden en vervolgens de gegevens per pagina bij elkaar gesprokkeld worden. (En ja, dat verzamelen die ik niet compleet met de hand). Dat betekent dat ik me niet ga vastleggen op een verversingsinterval. Maar als je denkt dat de lijst aangepast moet worden, geef dat dan vooral aan! Met vriendelijke groet, RonnieV (overleg) 22 okt 2019 17:11 (CEST)[reageren]
Ah dat had ik verkeerd begrepen dan. Ik dacht dat dit een soort checklijsten waren om te kunnen checken of de data in wikidata correct zijn (en/of op wikipedia ontbreken/incorrect zijn). Nu ik weet dat het daar niet voornamelijk bedoeld is laat ik het even aan Mbch331 om te bekijken of die omschrijvingen naar zijn zin zijn. Als ze niet regelmatig ververst worden lijkt het mij ondoenlijk om aan de hand hiervan de gegevens op wikidata te controleren: dat zou immers inhouden dat de wijzigingen niet zichtbaar worden in dergelijke overzichten. Zeker wanneer meerdere mensen aan die opschonings-, uitbreidings- en correctie-acties samenwerken zou een toekomstige lijst wel zeer regelmatig ververst moeten worden. Ik begrijp zeker dat zoiets niet handmatig bij te houden is Glimlach. Groet, Ecritures (overleg) 22 okt 2019 17:24 (CEST)[reageren]
──────────────────────────────────────────────────────────────────────────────────────────────────── Qua verversingsratio (alleen op aanvraag) zijn de lijsten inderdaad niet echt bruikbaar. Qua opzet, ziet het er goed uit (voor vergelijken Wikipedia vs Wikidata), maar ik mis nog wel informatie: geboorte- en overlijdensplaats. Ik had net al een geval waarbij de geboorteplaats wel op Wikipedia stond, maar niet op Wikidata. (Ook de link vader <-> kind ontbrak op Wikidata, maar die is minder interessant om op te nemen in de lijst, aangezien die niet zo vaak voorkomt). Mbch331 (Overleg) 26 okt 2019 14:58 (CEST)[reageren]
Ik wil wel proberen ze met enige regelmaat te vervangen, maar de doorlooptijd van deze lijsten is redelijk lang, ik laat mijn computer niet 24/7 aanstaan en er zijn ook dagen dat ik minder achter de computer zit. Om een lijst te verversen haal ik iedere keer van alle personen de gegevens op van Wikidata, ook voor iedereen een stuk tekst van Wikipedia en voeg dat samen. Gaat het om een of twee jaar, dan is een aantal keren per week, afhankelijk van het aantal geborenen in dat jaar, nog wel toe te zeggen. Ik heb het ook geprobeerd voor 1986, maar dan loop ik per maand al tegen de beperking van het aantal sjablonen per pagina aan.
Mbch331: De geboorte- en overlijdensplaats staan niet in lijsten als Lijst van personen geboren in 1943 of in Lijst van personen overleden in 1986. Om die reden staan ze niet in deze lijsten. Als ze voor jou om een of andere reden heel veel zouden toevoegen, wil ik wel kijken of ik die gegevens ook mee kan nemen. Met vriendelijke groet, RonnieV (overleg) 28 okt 2019 01:00 (CET)[reageren]

Meerdere nationaliteiten (12)[bewerken | brontekst bewerken]

Inmiddels heb ik wat dingen zitten proberen, waardoor alle landen van nationaliteit die bij een persoon in Wikidata staan worden opgehaald. Bij sommigen is het eenvoudig: die hebben ergens gewoond, zijn verhuisd en hebben daar de nieuwe nationaliteit verkregen. Omdat niet (altijd) duidelijk is wat de volgorde van deze landen zou moeten zijn, kan ik daar iets van maken als '... uit Nederland en België'.
Ook zijn er situaties waarin landen elkaar hebben opgevolgd, waarbij de aanduiding van de inwoners in het Nederlands gelijk is gebleven. Dit leidt bijvoorbeeld bij Patsy Smart ertoe dat de landen Verenigd Koninkrijk en Verenigd Koninkrijk van Groot-Brittannië en Ierland bekend zijn. Om haar nu aan te duiden als actrice uit Verenigd Koninkrijk en Verenigd Koninkrijk van Groot-Brittannië en Ierland (of, historisch correcter: actrice uit Verenigd Koninkrijk van Groot-Brittannië en Ierland en Verenigd Koninkrijk) komt wat overdreven over: bewoners uit beide landen worden doorgaans als Brits aangeduid. Dat geldt bijvoorbeeld ook voor Dario Ambrosini, een motorcoureur uit Italië en Koninkrijk Italië en Fritz Thiedeman, Duitsland en Bondsrepubliek Duitsland. Dit brengt me tot het volgende voorstel:

  1. Bij meer dan alleen de huidige landen ga ik een vertaling mogelijk maken van de landnaam naar een bijvoeglijk naamwoord;
  2. Ik probeer alle landnamen bij een persoon om te zetten in een bijvoeglijk naamwoord;
  3. Dubbelen verwijder ik;
  4. Blijft er een (1, één) bijvoeglijk naamwoord over, dan gebruik ik dat (Patsy Smart). Blijven er meer over (Franco Modigliani), dan gebruik ik de langere omschrijving;
  5. Mocht ik landnamen vergeten zijn, dan kunnen die altijd toegevoegd worden aan de code.

Op dit moment vermeld ik nog alle landsnamen, zoals te zien is bij James Foulis, maar daar ga ik dus verder aan werken.

Houden we uiteindelijk mensen over als Kurt Waldheim, met kennelijk de nationaliteit van vijf landen: Oostenrijk, nazi-Duitsland, Standenstaat, Republiek Duits-Oostenrijk, Eerste Oostenrijkse Republiek. Met vriendelijke groet, RonnieV (overleg) 28 okt 2019 12:41 (CET)[reageren]

Etniciteit (13)[bewerken | brontekst bewerken]

Naar aanleiding van de Russische problematiek (al speelt het breder!) en de opmerkingen van Sijtze Reurich ben ik gaan kijken of er niet toch iets te vinden is dat de Russische Est van de Estische Rus kan onderscheiden. Bij redelijk wat mensen blijkt het veld etniciteit ingevuld te zijn. Daar ben ik inderdaad, Sijtze Reurich had me al gewaarschuwd, een groot aantal verschillende waarden tegengekomen. Met deze zoekopdracht in het bevragingsgedeelte van Wikidata krijg je (na een druk op de blauwe knop met witte pijl links) alle personen uit Litouwen te zien, bij wie een etniciteit is ingevuld. Door in de derde regel 'Q37' te vervangen door een andere aanduiding van een land (op de eerste regel worden enkele waarden genoemd), krijg je het overzicht voor dat land.

Ik ben aan het denken geweest over een generieke oplossing, omdat dat iets is dat 'makkelijk' aan een script, computer uit te leggen is. Ik kom dan op iets als Estisch politicus behorend tot de Armeense Joden. In samenhang met het bovenstaande kopje kan dat natuurlijk ook leiden tot politicus uit Estland en de Sovjet-Unie behorend tot de Armeense Joden en de Italianen. Is dit een omschrijving waar iedereen (voldoende) gelukkig van wordt? Met vriendelijke groet, RonnieV (overleg) 28 okt 2019 12:41 (CET)[reageren]

Zomaar wat gedachten bij het bovenstaande:
1. Bewerken van Wikidata is niet echt simpel. Ik zou bijvoorbeeld niet weten hoe je een ‘verklaring’ moet aanmaken. Het is me zowaar weleens gelukt om een juliaanse datum te vervangen door een gregoriaanse, om een gregoriaanse datum aan te maken naast een juliaanse en zelfs om de coördinaten van een plaats te veranderen. Ik vind mezelf heel knap als zoiets lukt. Maar regelmatig gebeuren er onverwachte dingen. Van Alois Lugger wordt op Wikidata beweerd dat hij ‘burgermeester’ is. Ik heb geprobeerd dat woord te vervangen door ‘burgemeester’. Om totaal onduidelijke redenen weigerde Wikidata mijn correctie op te slaan. Kortom, Wikidata is voor mij een apparaat waarvan ik een of twee knoppen kan bedienen, terwijl de rest voor mij compleet duister is, en zelfs die paar knoppen af en toe weigeren. Dus de bewering: ‘Zie je een fout in zo’n lijst, ga dan naar Wikidata’ is nogal gratuit.
2. Ik begrijp dat jij het anders ziet, maar Wikidata is toch een vrij rommelig geheel, omdat heel veel mensen en bots eraan hebben gewerkt en niet altijd op dezelfde manier. Ik kwam niet zo lang geleden op het idee om eens te gaan kijken wat er in Wikidata staat vermeld over plaatsen in Estland. Hier zijn enkele resultaten voor plaatsen in de voormalige gemeente Torgu:
  • Hänga: naam ‘Hänga’, geen omschrijving
  • Kaavi (Estland): naam ‘Kaavi, Estonia’, geen omschrijving
  • Läbara: naam ‘Läbara’, omschrijving: ‘dorp in Torgu, Estland’
  • Mäebe: naam ‘Mäebe, Torgu Parish’, geen omschrijving
  • Sääre (Saaremaa): naam: ‘Sääre’, omschrijving: ‘Torgu’
Kortom: systematiek is ver te zoeken. Wat zou je hebben gekregen als je botmatig een lijst van plaatsen in de gemeente Torgu had willen samenstellen (heel wat simpeler dan die geboorte- en sterflijsten)? Nu is die systematiek er trouwens wel. Alle plaatsjes hebben van mij de omschrijving ‘dorp in de Estlandse gemeente Saaremaa’ gekregen. Daar is Torgu in opgegaan.
3. Wat is een juiste omschrijving van een persoon? Een heel simpel antwoord: dat hangt van die persoon af. Van ‘Pieter Sjoerds Gerbrandy, Nederlandse minister-president van Nederland, Tweede Kamerlid, minister van Veiligheid en Justitie, advocaat en academisch docent’ is het wat minder relevant dat hij ook nog Fries was (overigens was hij géén minister van Veiligheid en Justitie, maar alleen van Justitie; waarschijnlijk is dit een systematische fout in Wikidata). Een beschrijving als ‘Obe Postma, Nederlandse schrijver, wiskundige en dichter’ voldoet echter niet, want hier is het heel relevant dat hij in het Fries schreef, en dat blijkt niet uit deze omschrijving.
4. Een omschrijving moet juist en eenduidig zijn. Dus
  • Jaan Poska, Russische Minister voor Buitenlandse Zaken, Lid van de grondwetgevende vergadering 1918, burgemeester van Tallinn, diplomaat en advocaat’ voldoet niet, want hij was de Estische minister van Buitenlandse Zaken en niet de Russische.
  • Konstantin Päts, Russische President of Estonia, Staatsoudste van Estland, journalist en advocaat’: begrijp je nou echt niet dat die man geen Rus was en het ook nooit is geweest?
  • Adam Mickiewicz, dichter, professor, publicist, toneelschrijver, essayist, vertaler, schrijver en publiek figuur uit Polen en Keizerrijk Rusland behorend tot de Polen en Wit-Russen’ is rommelig, maar het lijkt me ook onwaarschijnlijk dat hij tegelijk Pool en Wit-Rus was. Volgens de gids die in 1985 mijn reisgezelschap rondleidde door Vilnius (waar een standbeeld van hem staat) was hij trouwens een Litouwer die in het Pools schreef. Ik zou het maar houden op een Pool. Zijn Pan Tadeusz geldt in elk geval als het nationale epos van Polen.
  • Friedrich Reinhold Kreutzwald, Russische vertaler, dichter, kinderboekenschrijver, medisch auteur en schrijver’ schreef zijn Kalevipoeg, het nationale epos van Estland, toch echt in het Estisch en niet in het Russisch.
  • Józef Piłsudski, premier van Polen en Maarschalk van Polen uit het Keizerrijk Rusland, Tweede Poolse Republiek en Polen behorend tot de Polen’: ook dit maakt een rommelige indruk. De Tweede Poolse Republiek was een verschijningsvorm van Polen en ‘Maarschalk van Polen uit het Keizerrijk Rusland’ doet heel vreemd aan. ‘premier van Polen en Maarschalk van Polen’ voldoet eigenlijk al perfect als omschrijving.
  • Tomáš Masaryk, president van Tsjecho-Slowakije, filosoof, pedagoog, schrijver, socioloog, academisch docent en journalist uit Oostenrijk-Hongarije’: ‘uit Oostenrijk-Hongarije’ verzwakt de omschrijving eerder dan dat het iets toevoegt.
  • Anton Hansen Tammsaare, Russische schrijver en vertaler behorend tot de Esten’ suggereert dat de man in het Russisch schreef, hoewel hij een etnische Est was. Hij was echter een Estische schrijver die toevallig in het Keizerrijk Rusland geboren was. Wel even wat anders.
  • Dalia Grybauskaitė, Russische President van Litouwen, European Commissioner for Financial Programming and the Budget, minister van Financiën, diplomaat, econoom en academisch docent’ is echt geen Russin, maar een Litouwse.
  • Vladimir Nabokov, romanschrijver, dichter, schrijver, zoöloog, vertaler, toneelschrijver, autobiograaf, scenarioschrijver, lepidopterist, academisch docent, literatuurcriticus, journalist, sciencefictionschrijver, schaakcomponist en schaker uit het Keizerrijk Rusland en Verenigde Staten van Amerika behorend tot de Russen’: als ik een ouderwetse leraar was (ik heb een tijdlang met de gedachte gespeeld om dat te worden) zou ik een leerling die ik straf wilde geven, opdragen om deze regel uit zijn hoofd te leren. (Mag niet meer, ik weet het, tere kinderzieltjes en zo.) Wikidata geeft bovenin als omschrijving: ‘Russisch-Amerikaans romanschrijver’. Dat vind ik eigenlijk al mooi genoeg. ‘Amerikaans schrijver van Russische afkomst’ kan ook best.
5. Alles overwegende denk ik dat het idee dat je met een bot een perfecte lijst zou kunnen genereren te hoog gegrepen is. Wat wel zou kunnen is dat een aantal mensen met de stofkam door zo’n botgegenereerde lijst heenloopt, wat dingen verandert en vooral vereenvoudigt. Dan zou je een voorziening moeten treffen dat de bot geen zaken die al door een mens gecorrigeerd zijn gaat overschrijven. De bot voegt op een gegeven moment dan nog uitsluitend nieuwe regels toe. Zo kan het naar mijn idee wel werken. Sijtze Reurich (overleg) 8 feb 2020 11:24 (CET)[reageren]
Ik zag dat op de huidige overzichten van geboren en overleden personen ook de personen met een Britse nationaliteit aan de hand van 'etniciteit' verder worden onderverdeeld. De Noord-Ierse/Welsh/Engelse/Schotse 'etniciteit worden dan verwoord met de term 'behorende tot de Schotten e.d.' Ik vind dat dit leidt tot onnodige ingewikkelde constructies: juist bij de Britten zou het veel logischer zijn om dan - waar een 'etniciteit' is ingevuld - te spreken over Engels/Schots/Welsh/Noord-Iers i.p.v. Brits.
Zie bijvoorbeeld:
  • Samuel Taylor Coleridge, Britse dichter, filosoof, theoloog, schrijver en literatuurcriticus behorend tot de Engelsen (geboren in 1772) > Beter: was een Engelse dichter (...)
  • Christopher Wren, parlementslid in het parlement van Engeland, architect, astronoom, wiskundige, natuurkundige, anatoom, academisch docent en planoloog uit het Koninkrijk Engeland en Koninkrijk Groot-Brittannië behorend tot de Engelsen (geboren in 1632) > Beter: was een Engels parlementslid (...)
  • 1852 - Thomas Moore, Britse dichter, jurist, zanger, liedschrijver, componist, romanschrijver, schrijver, juridisch dichter, muzikant, liedtekstschrijver, dirigent, uitvoerend kunstenaar en historicus behorend tot de Ieren (geboren in 1779) > Deze is natuurlijk helemaal vreemd: Thomas Moore wordt normaal gesproken gezien als een Ierse dichter, geen Brit.
  • Mary Leakey, Britse antropoloog, archeoloog, prehistoricus, paleoantropoloog, bioloog en paleontoloog behorend tot de Engelsen > Beter: was een Engelse paleontoloog (...)
  • John Cale, Britse singer-songwriter, muziekproducent, acteur, liedtekstschrijver, autobiograaf, model, filmacteur, televisieacteur, arrangeur, experimenteel muzikant, pianist, filmcomponist en componist behorend tot de Welsh > Beter: is een Welsh (...)
  • Catherine Zeta-Jones, Britse televisieactrice, filmactrice, toneelactrice, woordvoerder, danser, balletdanser, zangeres, actrice en acteren behorend tot de Welsh > Beter: is een Welsh (...)
  • George Bernard Shaw, toneelschrijver, muziekcriticus, politicus, taalkundige, scenarioschrijver, kunstenaar, journalist, biograaf, fotograaf en auteur uit het Ierland, Verenigd Koninkrijk van Groot-Brittannië en Ierland en Verenigd Koninkrijk behorend tot de Ieren
  • Sean Connery, Britse acteur, filmproducent, filmacteur, karakteracteur, toneelacteur, scenarioschrijver en televisieacteur behorend tot de Schotten (Als trotse Schot wil hij vast vermeld worden als Schotse acteur...)
  • Alex Salmond, Britse First Minister of Scotland en econoom behorend tot de Schotten (idem)
  • Arthur Conan Doyle, Britse arts, medisch auteur, dichter, cricketspeler, romanschrijver, politicus, essayist, toneelschrijver, autobiograaf, librettist, scenarioschrijver, sciencefictionschrijver, kinderboekenschrijver, detectiveschrijver en schrijver behorend tot de Schotten > Correct: was een Schotse auteur
  • Dina Carroll, Britse zangeres en componist behorend tot de Afro-Amerikanen > Beter: is een Britse zangeres (...) (Afro-Amerikaans als etniciteit klopt niet bij deze combinatie)
Groet, Ecritures (overleg) 10 feb 2020 19:20 (CET)[reageren]
@RonnieV:: is het trouwens mogelijk alle punten die op deze pagina onder Bezwaren (punt 1 t/m 19) bijvoorbeeld op te splitsen op verschillende (19?) pagina's. Een discussie over een subbezwaar (zie hier over etniciteit) verwordt als snel tot een onleesbare brij.
@Sijtze Reurich: een reactie op het (belangrijke) punt dat jij haast tussen neus en lippen noemt: overigens was hij géén minister van Veiligheid en Justitie, maar alleen van Justitie; waarschijnlijk is dit een systematische fout in Wikidata. Het is niet zozeer (zoals ik het bekijk) een systematische fout in Wikidata, maar het wordt wel vaak genoeg fout gedaan. De werkgever is hier niet goed genoeg ingevuld. Alle (bv) departementen veranderen vaak genoeg van samenstelling, verdwijnen of verschijnen als nieuw. Ieder van deze departementen zou een eigen Wikidata-item moeten hebben zodat altijd de juiste verbinding gemaakt worden. Inderdaad Gerbrandy was alleen minister van Justitie. En niet van 'Justitie en Veiligheid' of 'Veiligheid en Justitie'! Het is een beetje hetzelfde als de verkeerde nationaliteiten die aan mensen worden gegeven: het systeem is niet foutief, het gebruik ervan wel. Wat te denken van:
* Rudolf II van Coevorden, Nederlandse condottiero (geboren in 1192)
* Jan III van Armagnac, Franse graaf van Armagnac en Fezensac, graaf van Comminges en feodaal (circa geboren in 1359)
* Thomas a Kempis, theoloog, schrijver, filosoof, rooms-katholiek priester en dichter behorend tot de Nederlanders (circa geboren in 1380)
* Cornelis de Groot, Nederlandse rector magnificus van de Universiteit Leiden en academisch docent (geboren in 1546)
* Geleyn Evertsen, Nederlandse Luitenant-admiraal (geboren in 1655)
* 1251 - Willem II van Vlaanderen, Belgische graaf en heer (geboren in 1224)
* 1581 - Johannes Otho, Belgische schrijver (geboren in 1520)
Bij al deze voorbeelden (die zeer veelvuldig voorkomen) is het systeem 'an sich' niet verkeerd, maar het geeft wel verkeerde output als de verkeerde data gekoppeld worden. (Dus dat iemand uit de twaalfde eeuw als 'Land van nationaliteit' 'Koninkrijk der Nederlanden' krijgt toebedeeld. Of iemand uit de dertiende eeuw 'België'. Ergens zou er dus een check moeten zitten op dergelijke beperkingen (die trouwens op Wikidata veelal worden vermeld). Ik ga ervan uit dat een botscript dergelijke beperkingen/constraints zou moeten kunnen signaleren en misschien overslaan of als problematisch aan kan geven? Dat lijkt me meer een vraag voor de scriptschrijver/botbeheerder in deze. Ecritures (overleg) 11 feb 2020 18:54 (CET)[reageren]
Hallo Sijtze Reurich, Bedankt voor je uitgebreide reactie, waarin je op heel veel punten ingaat, maar niet echt op de vraag of Estisch politicus behorend tot de Armeense Joden en politicus uit Estland en de Sovjet-Unie behorend tot de Armeense Joden en de Italianen een passende omschrijving kan zijn voor een bepaald persoon. Ik zal hieronder op al je punten ingaan.
1. Bewerken van Wikidata is niet echt simpel
Het helpt enorm als je het concept begrijpt. Wikidata is een meertalig project. Er is voor gekozen om iedere tekstuele aanduiding (behalve de aanduiding (label), de beschrijving (description) en de aliassen) van een item uit dat item te houden. Ik heb Wikidata ingesteld op het gebruik van de Nederlandse taal. Bij Hänga lees ik onder Verklaringen als eerste de eigenschap is een. Daarachter lees ik 'dorp'. Iemand die Wikidata in het Fins gebruikt, vindt onder Esitykset dezelfde eigenschap (P31) nu omschreven als esiintymä kohteesta, en met de waarde 'kylä', terwijl iemand met een voorkeur voor Engels onder Statements de eigenschap aangeduid ziet als instance of en de waarde 'village'. Dat kan omdat bij Hänga voor is een de waarde Q51049922 is ingesteld, waaraan in diverse talen passende labels gehangen zijn. Zou ik daar 'dorp' vervangen door 'Estisch dorp', dan werkt dat direct door in heel Wikidata, dus bij alle items die zijn aangemerkt als Q51049922. In de PDF hiernaast (gebruikt voor een presentatie bij de Wiki Techstorm in november 2019) wordt dit wat verder uitgelegd.
De tikfout 'burgermeester' zat dan ook niet in het item van Alois Lugger, maar in burgemeester van Innsbruck. Als je probeert bij Alois Lugger dit aan te passen, zal dat inderdaad niet werken: de functie 'burgemeester van Innsbruck' was niet bekend. Op 8 februari is dat hiermee aangepast, waarmee het bij de drie gekoppelde personen meteen is aangepast.
Door met items te werken (met een Q-nummer) kan er ook eenvoudig onderscheid gemaakt worden tussen Alois Lugger en Alois Lugger, en kan dorp naast dorp bestaan. Eenduidigheid is hierbij de leidraad, maar ik kan me indenken dat het soms moeilijk kiezen is. Gelukkig staan bij veel elementen omschrijvingen die veel verhelderen. Zo is de ene minister van Buitenlandse Zaken niet de andere.
2. Wikidata is rommelig
Ik zal niet ontkennen dat er meer eenheid mag komen in de gegevens in Wikidata. En bedankt dat je een deel van de gegevens gelijk hebt getrokken. Op deze lijst zie je het resultaat. Dat een deel van de plaatsen niet als link wordt getoond, komt omdat deze (nog) geen Nederlands artikel hebben.
Om meer lijn in Wikidata te krijgen, is het belangrijk dat er juist met lijsten, zoals deze en de geboorte- en sterftelijsten gewerkt wordt. Alleen door gegevens zichtbaar te maken valt op dat er verschillen zitten in de vorm van presentatie en in de compleetheid van gegevens. Zo heb ik het lijstje uitgebreid met nog wat meer velden, wat resulteert in deze lijst.
Een deel van de 'rommeligheid' probeer ik juist te voorkomen door de geboorte- en sterflijsten niet afhankelijk te maken van alle tikfouten in de beschrijving van alle (bijna) 220.000 personen, maar door deze samen te laten stellen uit de waarde van verschillende velden. Zo valt 'burgermeester van Innsbruck' eerder op als het bij drie personen te vinden is, dan wanneer het bij een persoon staat. Dat neemt niet weg dat er ongetwijfeld nog wel meer foutjes en fouten inzitten. Sommige vertalingen van functies (beroepen,...) naar het Nederlands ontbreken. Die waarden negeert RonnieBot, om te voorkomen dat er onnodig anderstalige aanduidingen in de lijsten komen. Een enkele keer kom ik ook tegen dat de anderstalige aanduiding zonder meer is overgenomen naar het Nederlands. Als dat alleen maar bij een beroep (of zo) blijft staan in Wikidata, komen we dat niet tegen. Door het zichtbaar te maken in deze lijsten (en op andere manier) valt het wel op en komt er eerder iemand aan toe om dit aan te passen. Zo bevatte deze lijst ooit meer dan 3000 personen, personen met een artikel in de Nederlandse Wikipedia maar zonder een duidelijke aanduiding van land van nationaliteit en/of beroep, ambt, titel op Wikidata. Daar is hard aan gewerkt en het aantal mensen waar dit nu nog voor geldt is minimaal (lijstje is al even niet meer bijgewerkt).
3. Wat is een juiste omschrijving?
Hierbij is het in mijn ogen inderdaad zoeken naar een balans. Enerzijds kan je het erg simplificeren, in extremis door bij iedereen 'mens' als omschrijving te zetten. In een groot aantal beschrijvingen op Wikidata worden velen aangeduid als 'Nederlands politicus'. Ik probeer RonnieBot zo veel mogelijk gebruik te laten maken van de beschikbare gegevens in Wikidata, waaronder geboortedatum (bij gebrek daaraan: doopdatum), sterfdatum (eventueel datum uitvaart), land van nationaliteit (dat kunnen er meer zijn), beroep, ambt, adellijke titel (kunnen er ook alle meer zijn) en etniciteit. Bij de data probeer ik ook steeds een bron uit Wikidata weer te geven. Bij de 32.731 politici is het makkelijker om deze uit te splitsen, omdat bij vele de functie als ambt is aangegeven. Toch blijven er nog 9.110 personen over bij wie dat (nu) niet gedaan is, waardoor 'politicus' een deel van hun omschrijving blijft. Bij 'voetballer' is dat wat moeilijker
5. Alternatief voorstel
Jouw voorstel om bij personen de omschrijving op de lijst te bevriezen is iets dat volgens mij te overwegen valt voor een (klein) aantal personen. In mijn ogen geeft RonnieBot bij veruit de meeste van de (bijna) 220.000 personen een afdoende omschrijving op grond van de beschikbare gegevens. Waar hier fouten in zitten (zoals 'burgermeester') is het effectiever om dat in Wikidata aan te passen, omdat dat doorwerkt voor alle 'burgermeesters', dan om dat in een 'vaste' omschrijving van een van deze personen aan te passen (en bij de rest te laten staan). Ik heb soms de indruk dat sommigen zich focussen op de paar personen waarbij een automatische oplossing (nog) niet bevredigend is en wellicht ook nooit mogelijk is. Daarvoor wil ik best een constructie bedenken, waarmee we dergelijke beschrijvingen kunnen realiseren. Denk bijvoorbeeld aan Eva Braun, voor wie een omschrijving op grond van haar nationaliteit, etniciteit, beroepen, ambten en adellijke titels (niet alle van toepassing) niet afdoende is.
4. Specifieke voorbeelden
Van de door jou en door Ecritures aangedragen personen heb ik een overzichtje gemaakt op Gebruiker:RonnieV/Lijst van personen geboren in Op verzoek. Hier staan ze geordend op hun (voor)naam, met de gegevens die in Wikidata staan. Dit lijstje kan ik vrij eenvoudig gericht bijwerken en eventueel kunnen hier een of enkele personen aan worden toegevoegd.
Kijk ik naar Konstantin Päts, die wordt nu door RonnieBot omschreven als "president van Estland, Minister van Binnenlandse Zaken, premier van Estland, Staatsoudste van Estland, journalist en advocaat uit het Keizerrijk Rusland, Estland en Sovjet-Unie". Zijn geboorteplaats lag (in 1874) in het Keizerrijk Rusland, Estland werd pas in 1920 onafhankelijk. Zijn dienstplicht zal hij niet voor Estland vervuld hebben. Is het dan echt onjuist om Päts (mede) aan te duiden als 'Russisch'?
In Wikidata staat over hem bij land van nationaliteit Keizerrijk Rusland, Estland, Sovjet-Unie'. In het verleden gebruikte RonnieBot alleen de eerste nationaliteit, die geïnterpreteerd wordt als 'Russische'. Die interpretatie zit er nog steeds in voor het eerste en het laatste land en worden zo mogelijk samengenomen. Maar de aanwezigheid van Estland maakt dat ik liever de verschillende landen achteraan vermeld dan bijvoeglijk gebruikt vooraan.
Zou het hem recht doen door aan zijn gegevens toe te voegen dat hij behoort tot de etnische groep der Esten (Q173302)? Dan wordt zijn omschrijving "president van Estland, Minister van Binnenlandse Zaken, premier van Estland, Staatsoudste van Estland, journalist en advocaat uit het Keizerrijk Rusland, Estland en Sovjet-Unie behorend tot de Esten". De interpretatie in de Nederlandstalige Wikipedia, waarin Estse (in 'Estse staatsman') gekoppeld is aan Estland is misschien ook voor verbetering vatbaar. In de Engelse Wikipedia is dat gekoppeld aan de pagina Estonians en misschien zouden we dat bij ons moeten doen aan de overeenkomstige variant.
Ook bij de andere personen hoop ik dat de verbeteringen je kunnen bekoren. In ieder geval bedankt voor het meedenken, hopelijk komen we met elkaar verder.
Met vriendelijke groet, RonnieV (overleg) 26 feb 2020 16:27 (CET)[reageren]

Ik heb het allemaal doorgenomen. Puntsgewijs:

1. Ik ben er zelf ook achter gekomen hoe het precies werkt, toen ik op Wikidata probeerde de beschrijving van Marc-Jan Ahne (een oud-collega uit mijn tijd bij Wolters Kluwer) aan te passen. Ik kon niet toevoegen dat de man burgemeester van Ommen is geweest. Toen viel het kwartje. Waarom kan ik dat niet toevoegen? Omdat er geen Wikidata-item “Burgemeester van Ommen” bestaat. Ik zou kunnen proberen dat aan te maken, maar ik vrees dat zulks mijn Wikidata-vaardigheden te boven gaat.

2. Het is wel grappig om op die lijst van plaatsen in Saaremaa te kunnen zien welke Wikidata-items ik al gehad heb en welke nog niet. Ik heb inmiddels nog wat meer Wikidata-items aangepast. Als het goed is, zie ik die dus binnenkort op jouw lijstje terug.

3-5. Eerst de personen uit het lijstje Gebruiker:RonnieV/Lijst van personen geboren in Op verzoek. Als ik een naam niet noem, heb ik daar geen opmerkingen bij.

  • Adam Mickiewicz: ja, die wil iedereen wel hebben. Maar omdat hij in het Pools schreef, lijkt het me toch het meest voor de hand liggen om hem een Pool te noemen. Ik denk dat de Polen liever niet Feliks Dzerzjinski willen claimen. Toch was dat een etnische Pool. Volgens de geboorte- en sterflijsten was hij een ‘Russische State Political Directorate, Lid van de Russische grondwetgevende vergadering 1918 en revolutionair’. Nu worden die arme Russen met hem opgescheept.
  • Alex Salmond, Schotse eerste minister van Schotland, lid van het Schotse parlement, lid van het parlement en econoom’. Dat is dus tweemaal ‘lid van het parlement’. Is het tweede parlement soms dat van het Verenigd Koninkrijk? Dubbel noemen kom ik trouwens wel vaker tegen. Bijvoorbeeld: ‘Robert Ransom, Jr., Amerikaanse generaal en generaal’. Bij deze man zou het trouwens aardig zijn om erbij te zetten: ‘Vocht aan de kant van de Confederatie.’
  • Anton Hansen Tammsaare, schrijver en vertaler uit het Keizerrijk Rusland en Estland behorend tot de Esten’. Beter zou zijn: ‘Estische schrijver en vertaler uit het Keizerrijk Rusland en Estland’.
  • Christopher Wren, Engels parlementslid in het parlement van Engeland, architect, astronoom, wiskundige, natuurkundige, anatoom, academisch docent en planoloog’. ‘Engels parlementslid in het parlement van Engeland’ is dubbelop. Ik zou de nationaliteit er alleen bij zetten als je die niet verwacht. Bijvoorbeeld: ‘Iers parlementslid in het parlement van Engeland’. Is het trouwens niet ‘parlement van het Verenigd Koninkrijk’?
  • Dalia Grybauskaitė, President van Litouwen, European Commissioner for Financial Programming and the Budget, minister van Financiën, diplomaat, econoom en academisch docent uit Sovjet-Unie en Litouwen’. Dit is wel goed. Nu alleen nog een Nederlandse omschrijving voor haar titel. In haar Wikipedia-artikel wordt ze ‘Europees commissaris voor de Begroting’ genoemd. Dat is lekker kort.
  • Dina Carroll, Britse zangeres en componist behorend tot de Afro-Amerikanen’. Ik ben niet thuis in de popmuziek van na 1970 en ik had dus nog nooit van haar gehoord, maar een Britse Afro-Amerikaan?
  • Friedrich Reinhold Kreutzwald, Russische vertaler, dichter, kinderboekenschrijver, medisch auteur en schrijver’. Hij schreef niet in het Russisch, maar in het Estisch. Ik zou voorstellen: ‘Estische vertaler, dichter, kinderboekenschrijver en medisch auteur, levend in het Keizerrijk Rusland’. Zo kun je ook Lydia Koidula behandelen: in plaats van ‘Russische dichter, vertaler, journalist en schrijver behorend tot de Esten’ ‘Estische dichter, vertaler, journalist en schrijver, levend in het Keizerrijk Rusland’. ‘Woonachtig’ in plaats van ‘levend’ kan ook.
  • Jaan Poska, Minister voor Buitenlandse Zaken, Lid van de Russische grondwetgevende vergadering 1918, burgemeester van Tallinn, diplomaat en advocaat uit het Keizerrijk Rusland en Estland’. Kan ook wel. Alleen was de volgorde van zijn functies 1. ‘burgemeester van Tallinn’ 2. ‘lid van de Russische grondwetgevende vergadering 1918’ en pas 3. ‘minister van Buitenlandse Zaken’. Vergelijkbaar geval: ‘Jaan Tõnisson, Russische Minister voor Buitenlandse Zaken, Lid van de grondwetgevende vergadering 1918, Staatsoudste van Estland, diplomaat, advocaat en journalist’. Die man was niet de Russische, maar de Estische minister van Buitenlandse Zaken. Beter zou zijn: ‘Lid van de grondwetgevende vergadering 1918, Staatsoudste van Estland, minister van Buitenlandse Zaken, diplomaat, advocaat en journalist in het Keizerrijk Rusland en Estland’. Dan heb je zijn functies in de juiste volgorde.
  • Józef Piłsudski, premier van Polen en Maarschalk van Polen uit het Keizerrijk Rusland, Tweede Poolse Republiek en Polen behorend tot de Polen’. Minder is beter: ‘premier van Polen en Maarschalk van Polen’ is genoeg. In het Keizerrijk was hij alleen verzetsstrijder.
  • Konstantin Päts, president van Estland, Minister van Binnenlandse Zaken, premier van Estland, Staatsoudste van Estland, journalist en advocaat uit het Keizerrijk Rusland, Estland en Sovjet-Unie’. Klopt wel, al heeft hij in de Sovjet-Unie maar één functie vervuld: die van politieke gevangene.
  • Obe Postma, Nederlandse schrijver, wiskundige en dichter behorend tot de Friezen’. Beter is gewoon ‘Friese schrijver, wiskundige en dichter’ of ‘Nederlandse Friestalige schrijver, wiskundige en dichter’. Vergelijkbare gevallen: ‘Gysbert Japicx, Nederlandse dichter en schrijver’ (‘Nederlandse Friestalige dichter en schrijver’), ‘Maarten Maartens, Nederlandse dichter en schrijver’ (‘Nederlandse Engelstalige dichter en schrijver’) en ‘Robert Morton Nance, Britse taalkundige en schrijver’ (‘Britse Cornischtalige taalkundige en schrijver’ of ‘Britse taalkundige en schrijver die zich toelegde op het Cornisch’).
  • Vladimir Nabokov, romanschrijver, dichter, schrijver, zoöloog, vertaler, toneelschrijver, autobiograaf, scenarioschrijver, lepidopterist, academisch docent, literatuurcriticus, journalist, sciencefictionschrijver, schaakcomponist en schaker uit het Keizerrijk Rusland en Verenigde Staten van Amerika behorend tot de Russen’. Blijft nog steeds een hele mond vol. Er kan best wat uit. Wie gaat bijvoorbeeld op zoek naar de lepidopterist Nabokov? Ik blijf trouwens staande houden dat ‘Amerikaans ... van Russische afkomst’ de man het meeste recht doet.

In het kader van deze discussie heb ik een hoop mensen opgezocht in de geboorte- en sterflijsten. Je wilt niet weten hoe veel. Deze mensen vielen mij op:

  • Stanisław Moniuszko, Russische componist, dirigent, musicoloog, muziekpedagoog en academisch docent’. Hij was toch echt een etnische Pool en geen Rus. De eerste regel van zijn Wikipedia-artikel luidt dan ook terecht: ‘Stanisław Moniuszko (...) was een Pools componist, muziekpedagoog, dirigent en organist.’
  • Edgar Savisaar, Russische burgemeester van Tallinn en lid van de Estse Riigikogu’. Die man is ook al geen Rus, maar een Est. Je kunt in Estland als etnische Rus best tot burgemeester gekozen worden; de burgemeester van Narva heet bijvoorbeeld Aleksei Jevgrafov. Dat klinkt behoorlijk Russisch. Maar Savisaar klinkt toch niet Russisch? Er is toch geen enkele aanwijzing dat die man een etnische Rus is? Overigens was hij ook nog Estlands minister-president; dat verdient ook te worden vermeld.
  • Alexander von Middendorff, Russische bioloog, ontdekkingsreiziger, zoöloog, ornitholoog, botanicus, academisch docent, landeigenaar en arts’, ‘Karl Ernst von Baer, Russische ontdekkingsreiziger, antropoloog, zoöloog, arts, bioloog, entomoloog, professor, botanicus en landeigenaar’, ‘Nikolai von Glehn, Estische architect en landeigenaar’. Dit waren dus niet twee Russen en één Est, maar alle drie Baltische Duitsers. Dat kan toch best in de omschrijving van de drie heren? Als Paris Hilton van beroep ‘prominent’ kan zijn, kan von Baer zeker ‘Baltische Duitser’ zijn. In zijn geval krijg je dan iets als ‘Baltisch-Duitse ontdekkingsreiziger, antropoloog, zoöloog, arts, bioloog, entomoloog, hoogleraar, botanicus en landeigenaar, levend in het Keizerrijk Rusland’.
  • Harout Pamboukjian, Russische muzikant en zanger behorend tot de Armeense Amerikanen’. Armeense Amerikaan, okee, maar wat is er Russisch aan die man?

O ja, had ik al eens gemeld dat in de lijsten gregoriaanse en juliaanse datums door elkaar worden gebruikt? Ik kwam vanochtend weer een voorbeeld tegen: Ze'ev Jabotinski. Hij wordt vermeld in Gebruiker:RonnieV/Lijst van personen geboren op 5 oktober. Volgens de Gregoriaanse tijdrekening is hij echter geboren op 17 oktober (1880). Leonid Brezjnev staat in Gebruiker:RonnieV/Lijst van personen geboren op 19 december. Dat is wel de gregoriaanse datum; de juliaanse datum was 6 december (1906). Persoonlijk ben ik ervoor om consequent de gregoriaanse datum te gebruiken. Dat voorkomt verwarring.

Toch weer een heel verhaal. Maar ik hoop dat het de zaak verder helpt. Sijtze Reurich (overleg) 28 feb 2020 16:24 (CET)[reageren]