Wikipedia:Botcafé/Archief/2022-02

Uit Wikipedia, de vrije encyclopedie

Bot voor bijwerken/toevoegen IUCN Rode Lijst status[bewerken | brontekst bewerken]

Hallo allen, ik ben momenteel bezig met een bot die de IUCN Rode Lijst status op artikelen bijwerkt/toevoegt. In mijn huidige implementatie werkt dat als volgt:

  • Haal alle artikelen op uit de categorie Categorie:Wikipedia:Diersoorten;
  • Haal de broncode van ieder artikel op en parse deze;
  • Haal specifiek de Taxobox er uit (of een variant op Taxobox);
  • Vind de soortnaam in de Taxobox, door te kijken naar de volgende parameters (in volgorde van prioriteit);
    • rl-id;
    • w-naam;
    • naam;
    • paginanaam
  • Haal de soortevaluatie op via de API van het IUCN;
  • Kijk of de gegevens op de pagina bijgewerkt moeten worden, en zo ja, werk deze bij.

Ik vroeg me af wat jullie van het idee van zo'n bot vinden, en of er nog dingen zijn die ik mogelijk heb gemist. De broncode (die overigens nog niet zo net is), staat op GitHub. Met vriendelijke groet, Xxmarijnw overleg 11 feb 2022 22:30 (CET)[reageren]

Waarom alleen dieren? –bdijkstra (overleg) 11 feb 2022 23:02 (CET)[reageren]
Goed punt. Ik zal ook de lemma's in de categorie Categorie:Wikipedia:Plantenlemma meenemen. Xxmarijnw overleg 11 feb 2022 23:16 (CET)[reageren]
De Categorie:Wikipedia:Diersoorten bevat alleen diersoorten, maar er zijn ook ondersoorten met IUCN-evaluatie (bv. Somalische wilde ezel, met overigens conflicterende info). En er zijn ook bedreigde schimmels en Chromista. En er zijn ook artikelen zonder taxobox maar met IUCN-evaluatie, bv. Brughagedis van North Brother Island. –bdijkstra (overleg) 12 feb 2022 01:53 (CET)[reageren]
@Bdijkstra Wat zou een goed onderscheidingscriterium zijn om een artikel door de bot meegenomen te laten worden? Ik denk dat voor deze proof-of-concept de makkelijkste optie is om alleen bovenstaande categorieën mee te nemen. Dit criterium kan dan later uitgebreid worden met mogelijk meer categorieën, of andere criteria zoals het bevatten van een (variant van) Sjabloon:Taxobox. Wat denk jij? Xxmarijnw overleg 12 feb 2022 12:54 (CET)[reageren]
Vanwaar de focus op categorieën? De categorieën die je noemde worden (conditioneel) gegenereerd door de taxobox, dus dat sjabloon is een beter aanknopingspunt. Ik zou beginnen met de taxoboxen met een rl-id (dus deze) en die updaten inclusief de [[Categorie:IUCN-status ...]]. Daarna kan je kijken of er taxoboxen zijn waar je een rl-id bij kan vinden en dáárna kan je misschien een lijst maken met op de rode lijst genoemde taxa met een artikel zonder taxobox. –bdijkstra (overleg) 12 feb 2022 16:05 (CET)[reageren]