Naar inhoud springen

Wikipedia:Botcafé/Archief/2023-04

Uit Wikipedia, de vrije encyclopedie

Top 100 ontbrekende interwiki's?[bewerken | brontekst bewerken]

Naar aanleiding van Wikipedia:Artikelen in veel andere talen maar niet in het Nederlands vroeg Erik Wannee zich af of het botmatig mogelijk zou zijn om de Wikidata-items langs te lopen, en periodiek een lijst te laten genereren van de (pakweg 100) items waarover geen NL-talig artikel bestaat maar wel de meeste anderstalige versies. Dat lijkt me een prima suggestie, als zoiets zou kunnen? Karmakolle (overleg) 30 apr 2023 15:35 (CEST)[reageren]

Nog wat verduidelijking: ik bedoel dus een lijstje in volgorde van het aantal anderstalige versies van een bepaald artikel waarvan de NL-talige versie ontbreekt. Er zijn momenteel 322 taal-edities; artikelen die in 321 edities maar niet in NL voorkomt, komen dus helemaal bovenaan de lijst te staan; dan volgen artikelen die in 320 edities voorkomen maar niet in NL, enzovoorts.
Ter inspiratie: en:Wikipedia:Articles in many other languages but not on English Wikipedia.
Ik zie trouwens dat de lijst en:Wikipedia:Articles in many other languages but not on English Wikipedia/Update een grote tekortkoming heeft: daar staan enorm veel Duitstalige termen in, en die artikelen hebben wel degelijk een Engelstalige editie. Kennelijk is daar een programmeerfoutje gemaakt. Erik Wannee (overleg) 30 apr 2023 15:56 (CEST)[reageren]
Ik weet niet of de software van Wikidata al bepaalde faciliteiten heeft; zo niet dan wordt het een pittige klus om de ruim 102.870.000 items langs te lopen. Maar in principe zou het eenvoudig te programmeren moeten zijn:
  1. Neem een Wikidata-item.
  2. Heeft dat item een Nederlandstalig artikel? Zo ja, ga terug naar 1 en neem het volgende wikidata-item.
  3. Tel het aantal taal-versies van dat item en onthoud het getal.
  4. Als dat getal kleiner is dan het kleinste van de huidige 100 opgeslagen getallen in de lijst, ga dan terug naar 1 en neem het volgende item.
  5. Sla dit getal op en verwijder het item met het kleinste getal uit de lijst.
  6. Ga door tot alle items doorlopen zijn; dan bevat de lijst de 100 gewenste items.
Eventueel kan het script tegelijkertijd hetzelfde kunstje doen voor meer taalversies.
Erik Wannee (overleg) 30 apr 2023 16:28 (CEST)[reageren]
Wikidata heeft al wel bepaalde faciliteiten, want Wikidata is een database. Onderaan de genoemde Engelse equivalent staat een link naar een subpagina en:Wikipedia:Articles in many other languages but not on English Wikipedia/30 or more versions. De geschiedenis daarvan brengt me op een query-request op Wikidata. Als n00b op het gebied van Sparql vervang ik "en" door "nl", maar dan krijg ik een time-out. Met ">60" in plaats van ">40" lukt het wel: 105 resultaten in een halve minuut (klik nog even op de grote pijl in de linkermarge). Wikiwerner (overleg) 30 apr 2023 18:22 (CEST)[reageren]
Fantastisch! Ik vroeg me af of we er boven de 100 zouden hebben, en jawel hoor, zes keer. Waaronder de tekenfilm Go, Dog, Go! Glimlach Ik ga de lijst aanvullen en dit elk jaar draaien. Veel dank! Karmakolle (overleg) 30 apr 2023 18:43 (CEST)[reageren]
Het lijkt er wel op dat de query systematisch meer resultaten oplevert dan er interwiki's zijn. Bv. voor het eerste item en:Food: 215 vs 178; voor en:Liturgy: 61 vs 56. Enig idee waaraan dit ligt? Karmakolle (overleg) 30 apr 2023 19:01 (CEST)[reageren]
De query telt alle sitelinks, dus niet alleen Wikipedia-sitelinks. –bdijkstra (overleg) 30 apr 2023 19:14 (CEST)[reageren]
Als ik bijv voor Food de interwiki's tel, en alle projecten bij elkaar optel dan kom ik op 215, er word dus geen onderscheid gemaakt tussen interwiki's naar wikipedia, of naar wikinews of wikisource oid.
En nog een klein hint, een link naar wikidata kan je met d:Q2095 leggen, hoef je geen externe link voor te gebruiken.
Is elk jaar niet mogelijk wat weinig trouwens? Akoopal overleg. 30 apr 2023 19:16 (CEST)[reageren]
Laat ons zeggen dat een hogere frequentie zinvol is als er veel respons komt. Want het blijft een uithoekje in onze gigantische website he. Ik ga eens nadenken hoe ik dit best onder de aandacht houd. Karmakolle (overleg) 30 apr 2023 19:20 (CEST)[reageren]
Ik heb dit lijstje - rauw en onbewerkt - onderaan Wikipedia:Artikelen in veel andere talen maar niet in het Nederlands gezet. Waarschijnlijk zit er veel tussen dat meteen afgevoerd kan worden; we moeten er nog kritisch naar kijken. Maar het beginnetje is er! Erik Wannee (overleg) 30 apr 2023 19:07 (CEST)[reageren]
Ja, vaak is de oplossing niet een nieuw artikel maar een andere match op Wikidata. Ik ga er nog eens met de kam door wanneer ik tijd heb (straks snooker, sorry ;-)) Karmakolle (overleg) 30 apr 2023 19:10 (CEST)[reageren]
Ik zag er een heleboel waarover wel een NL-artikel bestaat, maar dan onder een iets andere naam, zoals dat we geen artikel Homo sapiens hebben, maar het bestaat wel als redirect, naar Mens. Dit soort items kunnen dus allemaal uit de lijst verwijderd worden. Wel leuk trouwens dat we kennelijk tot nu toe te lui zijn geweest om een artikel Luiheid te schrijven. Glimlach Erik Wannee (overleg) 30 apr 2023 19:22 (CEST)[reageren]
Zeker, hopelijk veel zulke gevallen. Maar soms is het ook subtiel. We hebben natuurlijk voedsel, maar gekoppeld aan en:nutrition terwijl en:food leeg is. Dan denk ik dat er een nuance is die we niet capteren. Zie ook het verwarwoordenboek voeding/voedsel. Karmakolle (overleg) 30 apr 2023 19:29 (CEST)[reageren]
Zou wellicht anders gekoppeld moeten worden: en:nutrition gaat over een proces, nl:voedsel over materiaal. –bdijkstra (overleg) 30 apr 2023 19:31 (CEST)[reageren]
Het artikel Burgerlijk recht is op wikidata gekoppeld aan privaatrecht en niet aan burgerlijk recht waardoor het lijkt alsof daar geen artikel over is. TheGoodEndedHappily (overleg) 30 apr 2023 19:48 (CEST)[reageren]
Niet mee eens. Homo sapiens is een biologische soort, 'mens' is een iets ruimer begrip waaronder ook andere soorten vallen. –bdijkstra (overleg) 30 apr 2023 19:29 (CEST)[reageren]
Toch kon ik met een snelle zoektocht geen taal vinden waarin er twee afzonderlijke artikelen over deze diersoort bestaan; steeds bleek een van beiden een redirect. Maar misschien zocht ik niet goed genoeg. Overigens: we hebben wel het artikel Homo (geslacht), waar ook veel uitgestorven mensensoorten worden gerekend. Eigenlijk zou dàt dus moeten redirecten van of naar Mens; niet Homo sapiens. Lastige materie... (En dan hebben we het nog niet eens over homo stupidus.) Erik Wannee (overleg) 30 apr 2023 19:33 (CEST)[reageren]
Dat zijn al twee gevallen die direct de nodige discussie oproepen. Er zal dus regelmatig overleg nodig zijn, maar het is in elk geval een lijst die interessante vragen oproept. Karmakolle (overleg) 30 apr 2023 19:38 (CEST)[reageren]
Mooie lijst, wat veel werk zeg. Het kan ook automatisch via wikidata, maar dan is er geen controle. Zo heeft HenkvD voor mij de query "Nederlandse vrouwen zonder artikel op NL met veel interwiki links" gemaakt. Klik op de link en dan op de blauwe pijl. Af en toe "doe" ik er een die mij interesseert. De sportvrouwen heb ik tot nog toe overgeslagen. Hier de link. Met zoete (itt zure) groet, Elly (overleg) 30 apr 2023 19:46 (CEST)[reageren]
De Wikidata query die hierboven door (n00b?) Wikiwerner is genoemd is inderdaad correct. Timeout komt door het enorme aantal entries die verwerkt moeten worden. Limiteren tot 60 lijkt me ruim voldoende voor deze lijst. Er is echter geen garantie dat deze query volgend jaar niet opnieuw een timout geeft. En inderdaad het aantal sitelinks bevat ook links naar ander projecten als wikinews en wikiquote. Voor een artikel als Food levert dat een groot verschil op, voor de meeste anderen zal het maar een heel klein verschil wezen. HenkvD (overleg) 30 apr 2023 20:18 (CEST)[reageren]