Gebruiker:Hooft/robot/Interwiki

Uit Wikipedia, de vrije encyclopedie


Ideeënhistorie[bewerken | brontekst bewerken]

Nog een idee voor een bot: Het komt steeds meer voor (en ik maak mezelf daar ook schuldig aan) dat ik bij een neiuw artikel wel een link naar de engelse wiki maak, maar niet vanuit de engelse wiki de andere wikis bijwerk. Ik vermoed dat andere wikis aan hetzelfde euvel leiden.

Zelf ontbreekt me de tijd om uit te zoeken hoe ik een bot moet schrijven, maar mijn idee voor een bot zou zijn een bot die de nederlandse pagina's bijwerkt met taallinks uit de engelse wiki:

  1. doorloop tabel cur met huidige artikelen. Doe niets als er geen link naar de eneglese wiki is.
  2. wanneer er een link naar de engelse wiki is, haal dat artikel dan op
  3. breidt de lijst met taallinks in het nederlandse artikel uit met de taal links die in het engelse artikel staan.

Op deze manier kunnen we de nederlandse wiki snel bijwerken met al die taallinks die andere wiki's wel in de engelse wiki maar niet in de nederlandse wiki hebben aangebracht. Mocht dit idee eerder zijn gepubliceerd: excuus. TeunSpaans 28 jun 2003 11:36 (CEST)

Er is een probleempje. 99 van de 100 keer gaat het goed, maar de honderdste keer is de verdeling over onderwerpen net dusdanig dat de Nederlandse en Engelse, en de Engelse en anderstalige wel bij elkaar passen, maar de Nederlandse en anderstalige niet. Wat overigens niet wil zeggen dat ik hier niet blij mee zou zijn - als ervaren aanlegger van interwiki-links weet ik dat dit een hels karwei is (een artikel als wijn met 7 interwiki-links betekent dat je 8 keer iets moet editen om de zaak goed te doen. Als dat geautomatiseerd kon worden, zou dat mooi zijn, en die paar foutjes moeten we dan wellicht maar voor lief nemen.
Er zijn overigens plannen geweest om een veel betere manier van het regelen van de taallinks te krijgen. Ze zijn zelfs al op de test-wiki ( http://test.wikipedia.org ) verschenen, maar de laatste paar weken of zelfs maanden hoor je er niets meer over. Jammer. Andre Engels 28 jun 2003 14:27 (CEST)
Klopt dat af en toe bijvoorbeeld het Nederlandse a overeenkomt met het Engelse A, en het Engelse A met het Poolse ä, terwijl a niet overeenkomt met ä.
Maar wanneer ik zoiets met de hand moet doen, is er nog een probleem: ik ken onvoldoende Pools om dat te herkennen. Met Duits zou zoiets me misschien nog opvallen, maar ik kom regelmatig Pools, Deens, Esperanto en Zweeds tegen en dan kan ik weinig anders dan automatisch kopieren. TeunSpaans 28 jun 2003 23:16 (CEST)
Daar kan het nog een keer voorkomen dat je ziet 'he, dit is mis'. Zo zag ik ooit dat het engelse 'Warsaw' aan het Poolse 'Warszawa' was gekoppeld, maar dat 'Warszawa' een doorverwijspagina a la onze Utrecht of Groningen was (de link moest 'Warszawa (miasto)' zijn; inmiddels is 'Warszawa' wel weer over simpelweg de stad). Maar Japans en Chinees, daar is echt geen andere keus dan 100% blind kopiëren. Andre Engels 29 jun 2003 00:11 (CEST)
Ja, en hieruit blijkt nog erger: de andere wiki's zijn in ontwikkeling. Links moeten dus regelmatig worden gecontroleerd. Rob Hooft 30 jun 2003 08:19 (CEST)

Zo'n bot heb ik inderdaad al in ontwikkeling. Die gaat zelfs nog een stap verder: hij bouwt de hele boom op van alle interwiki links. Gaat net zolang door tot ie niks nieuws meer vindt. Ik krijg inderdaad soms inconsistente (of foute!) links, maar dat is niet mijn grootste probleem: je moet dit soort dingen toch gedeeltelijk met de hand doen net als ik de eerste paar eeuwen stuk voor stuk met de hand heb gedaan (de robot doet het werk, stelt de verandering voor, en dan moet ik handmatig accoord geven). Nee, het grootste probleem dat ik nu heb met de interwiki links is dat er verschillen in character-encoding zijn. Ik kan nu een fr: interwiki link van de eo: wiki niet zomaar met de fr: interwiki link van de de: wiki vergelijken omdat de een in UTF-8 en de ander in 8859-1 zit. Ook daar moet uit te komen zijn, maar dat gaat me nog even denkwerk vergen. Ik ga ook proberen een beetje af te kicken, want ik heb de laatste tijd een beetje veel tijd aan wikipedia besteed.... Rob Hooft 30 jun 2003 08:19 (CEST)

Rob, als je nog op zoek bent naar hoe UTF-8 werkt: zie hier voor beschrijving formaat, inclusief voorbeeld in Perl om UTF-8 codes naar numerieke waarde om te zetten (in dit geval om er &nnn; html codes van te maken) Op de 8859-1 sites kun je ascii tekens en &nnn; html codes ook in een numerieke waarde omzetten, dan heb je in ieder een geval een vergelijkingstest. Eerst afkicken natuurlijk. Groet, Erik Zachte 30 jun 2003 11:30 (CEST)

Twee problemen met je interwiki-robot. Een kleine en een joekel. De kleine is dat wanneer de pagina oorspronkelijk de interwiki-links op verschillende regels had, het deze regels laat staan met alleen spaties erop. Een regel met een spatie, en verder leeg, zorgt voor extra tussenruimte tussen paragrafen. Lelijk. En vooral als dat aan de top van een pagina gebeurt.

Maar het echt grote probleem zijn gevallen zoals deze, waarbij het de tekst van een andere pagina op de pagina zet. Behalve bij atmosfeer heb ik dit ook aangetroffen op filosoof en 8 oktober, maar ik ben bang dat het nog wel een flink aantal keren meer is voorgekomen (deze heb ik gevonden omdat de pagina waarin ze veranderd zijn naar hen verwijst, en ze dus op de lijst van zelfverwijzende pagina's terechtkwamen). Het lijkt me het beste om totdat dit verholpen is, het bewuste script niet te laten lopen. Andre Engels 14 jul 2003 00:11 (CEST)

Andre, gelukkig heb ik dit probleem al eergisteren verholpen, maar me niet gerealiseerd dat het zulke gevolgen had gehad. Ik ben het hele jaar aan het nalopen (dat is het grootste risico). Wat er misging is als een buitenlandse pagina terugverwees naar een valide ANDERE Nederlandse pagina, dan werd deze soms als basis genomen voor degene die de robot onder handen had. Ik zal terugkijken in de robot's historie of ik die gevallen kan vinden. In de toekomst zal dit probleem gelukkig niet meer voorkomen. Sorry aan iedereen. Rob Hooft 15 jul 2003 07:33 (CEST)


Kleine probleem is nu ook opgelost. Dank voor de feedback. Rob Hooft 15 jul 2003 15:14 (CEST)

Ok. de eerste ronde van deze bot is op 26 juli 2003 afgerond. Het grootste deel daarvan heb ik met de hand begeleid. Nu is het denk ik goed genoeg om het grootste deel van de beslissingen zelf te nemen, en dus maak ik een tweede ronde. Daarin worden nog een flink aantal wijzigingen doorgevoerd omdat:

  • er sinds de vorige ronde nieuwe pagina's op anderstalige wikipedia's zijn;
  • ik de vorige ronde met de hand heb gezegd "doe toch maar niet";
  • Belangrijke andere verbetering is dat hij nu ook een verandering maakt als de talen niet veranderen, maar de namen van de pagina's waarnaar gelinkt wordt wel (zie bijvoorbeeld de: in Broodje-aapverhaal)

Kritiek welkom. Rob Hooft 26 jul 2003 17:29 (CEST)

Gefeliciteerd met het afronden van de eerste ronde! Fruggo 26 jul 2003 22:37 (CEST)

De tweede ronde is binnen 24 uur na de eerste ronde ook afgerond. In het laatste stuk (vanaf Prisma in het alfabet) werden nog een paar nieuwe links toegevoegd: dat waren dus echt nieuwe pagina's of in elk geval nieuw ge-interwikide pagina's. Rob Hooft 27 jul 2003 07:26 (CEST)


Ik heb nog een idee om de robot te verbeteren. Neem een gedetailleerde pagina bij ons, waarvan op de corresponderende pagina in een van de andere talen veel meer wordt besproken. Bijvoorbeeld nl:Deens en da:Dansk. Die laatste pagina's kan dan in andere talen linken naar dingen die niets met nl:Deens te maken hebben. Ik zou dus in een algemeen tabelletje neer kunnen zetten: "da:Dansk is groter dan nl:Deens". Voor de robot zou dat betekenen dat de verwijzingen tussen deze twee pagina's ok zijn, maar dat dat niet betekent dat alle interwiki links vanaf da:Dansk relevant zijn voor nl:Deens. Ofwel: de robot moet daar stoppen, en niet meer links afzoeken.

Het risico zit hem natuurlijk in evolutie: wat als wij of zij iets aan die pagina's veranderen waardoor de relatie niet meer opgaat? Kunnen we dat ontdekken? Als bijvoorbeeld da:Dansk een doorverwijzingspagina wordt, en één van de doorverwezen pagina's correspondeert exact met nl:Deens? Dan moeten we hopen dat er handmatig links worden gelegd zodat er in de robot een conflict ontstaat.... Maar ja, de robot vertrouwt toch al op handmatige links.

Het voordeel van de toevoeging is dat de exacte correspondentie zoals de robot die nu eist kan worden opgeheven, en de eskimo-wikipedia dus 27 pagina's voor sneeuw kunnen maken. (Ik weet, dat is een Broodje-aapverhaal).

Graag opinies of andere ideeën Rob Hooft 30 jul 2003 08:18 (CEST)

Wel, misschien heb ik er overheen gekeken, maar kun je misschien ergens documenteren wat die robot nu eigenlijk doet, en wanneer hij nu wel of niet een verbinding maakt? Ik wel overal verwijzingen tegen, met kommentaren dat iets wel of niet werkt, of wel of niet kan werken, maar wat gebeurt er nu eigenlijk precies wel?
(In een eerdere versie waren het maar 17 woorden voor sneeuw. Nu hebben de Eskimo's inderdaad een kleine verzameling woorden voor sneeuw (zoals wij ook verschillende soorten sneeuw herkennen, neem ik aan, alleen hebben wij er weinig vaste aanduidingen voor), maar belangwekkender is misschien dat ze ver over de honderd woorden hebben die ijs omschrijven. (En dan gaat het niet om "Aardbei", "Vanille", ...) They have a word for it - Howard Steingold, 1988.)
Blue Peter