Naar inhoud springen

Wikipedia:De kroeg/Archief/20220816

Uit Wikipedia, de vrije encyclopedie

Internet Archive Bot[bewerken | brontekst bewerken]

Op de pagina Zuiderkerk (Emmen) heeft Internet Archive Bot tot twee keer toe van een werkende archieflink een niet-werkende link gemaakt. Doet de bot dit vaker? Zo ja, wordt het dan geen tijd om de bot te stoppen? Sijtze Reurich (overleg) 8 aug 2022 12:59 (CEST)[reageren]

De structuur *was* al fout, in URL moet je geen archief-url steken, en die bot herkent dat blijkbaar ook niet. Ik zie hier ene mix van een gebruiker en een bot die "het" niet snappen. Laten we de bot samen met die gebruiker stoppen. Urinoise (overleg) 8 aug 2022 13:04 (CEST)[reageren]
Zie verschil, de URL lijkt wel in orde. Waaruit is geconcludeerd dat de bot een niet-werkend link gemaakt heeft? Démarche Modi (overleg) 8 aug 2022 13:11 (CEST)[reageren]
Voeg er dan nog een gebruiker aan toe die het onzalige sjabloon "Citeer web" niet snapt. Die gebruiker ben ik. Bedankt voor je hulp, Urinoise! Dat de bot de link niet-werkend had gemaakt, had ik trouwens gewoon geconstateerd door erop te klikken. Dat leverde de melding ‘Pagina niet gevonden’ op. Sijtze Reurich (overleg) 8 aug 2022 13:15 (CEST)[reageren]
De bot lijkt inderdaad iets fout te doen. Echter, de aanpassing van Urinoise was ook niet juist. Zojuist heb ik de urls aangepast naar de archive urls. Nu staat de url er dubbel in, wellicht dient archiefurl= nog verwijderd te worden. Démarche Modi (overleg) 8 aug 2022 13:27 (CEST)[reageren]
Heb je wel gecontroleerd wat je hebt gedaan? Nu heb je allebei de links weer onbereikbaar gemaakt. Sijtze Reurich (overleg) 8 aug 2022 13:41 (CEST)[reageren]
Ja ik heb gecontroleerd wat ik heb gedaan en beide links verwijzen nu naar een bereikbare web archive url. Démarche Modi (overleg) 8 aug 2022 13:46 (CEST)[reageren]
Die andere drie, daar zat ik ook net naar te kijken. Nu is volgens mij elke bron weer bereikbaar. Démarche Modi (overleg) 8 aug 2022 14:07 (CEST)[reageren]
Dat "Citeer web"-sjabloon heb ik nooit begrepen, begrijp ik niet en zal ik ook nooit begrijpen. Maar nu werkt alles tenminste. Daar gaat het maar om. Sijtze Reurich (overleg) 8 aug 2022 14:17 (CEST)[reageren]
Het komt omdat InternetArchivebot de waarde "unfit" heeft geïntroduceerd zonder de relevante sjablonen hierop aan te passen. –bdijkstra (overleg) 8 aug 2022 14:13 (CEST)[reageren]
Weet jij waar we iets meer kunnen lezen over 'unfit'? (Wanneer of waarom classificeert de bot iets als unfit en welke sjablonen zijn relevant?) Démarche Modi (overleg) 8 aug 2022 14:22 (CEST)[reageren]
Ik heb vragen gesteld op meta:User talk:InternetArchiveBot#url-status=unfit. De relevante sjablonen zijn die die een parameter 'archiefurl' hebben. –bdijkstra (overleg) 8 aug 2022 14:54 (CEST)[reageren]

Het wordt wel een rommeltje zo. Wanneer mensen menen dat de parameter URL altijd moet werken, en archiefurl er als zijn debiele broertje bijhangt, en daarom de archiefurl in de parameter URL gaan steken, dan snap ik ook de verwarring. Maar daar dan de archiefbot de schuld van geven, dat lijkt me dan niet de juiste oplossing. De archiefbot de schuld geven omdat je het sjabloon niet snapt vind ik trouwens ook niet heel opportuun. Ik blijf er wel weer vanaf, want het wordt toch weer kapot gemaakt. Urinoise (overleg) 8 aug 2022 15:42 (CEST)[reageren]

In jouw versie ontbrak de dode-url=ja, waardoor de gewone niet werkende link ook zichtbaar was. En dan gaan mensen de archiefurl maar in de gewone stoppen, om te zorgen dat men niet op een 404 uitkomt. Mbch331 (overleg) 8 aug 2022 15:59 (CEST)[reageren]
Er is vast een naam voor het fenomeen dat het schier eindeloos toevoegen van extra mogelijkheden de boel niet simpeler maakt, en mensen het spoor bijster raken. Ik zal deze parameter eens gaan onthouden. Ik heb vast nog niet genoeg met dat sjabloon gedaan, zeker niet met archieven. Maar we blijven het proberen, bedankt voor de tip! :-) Urinoise (overleg) 8 aug 2022 16:57 (CEST)[reageren]
Ik heb me ook schuldig gemaakt aan dat zogenaamde 'niet snappen'. Ik dacht juist dat ik het sjabloon en iedereen hielp door een definitief dode URL die wel gearchiveerd is, in een nieuwe toepassing (op een andere pagina) niet als parameter URL op te voeren, maar daar meteen de archiefurl in te stoppen. Dat scheelt een paar honderd karakters. Ik zie wel eens 'controleurs' langskomen die extra spaties verwijderen, waarvan ik denk "ok....". Dus ik ging er vanuit dat besparing op "zinloze" karakters in het citeer sjabloon wel "slim" van mij was, maar nu blijkt ik een "domme" gebruiker die "het niet snapt". Excuus voor deze wat cynische en ondiplomatieke spot. Maar ik hoop dat zo het punt duidelijk is. We doen allemaal ons best om er wat van te maken en niet iedereen kent meteen de intriges van de techniek. Daarnaast is deze bot wel degelijk een beetje dommig, of niet slim genoeg om het positiever te verwoorden. Ik heb op een reeks pagina's een ref URL toegevoegd als bron waar (helaas) een anti-bot CAPTCHA ('I am human') opzit. De bron is echter te cruciaal en belangrijk om niet weg te laten. De internet archiver kan daar niet mee overweg, ziet dat vervolgens als (permanent) dodeurl, kan niet archiveren en markeert dat als zodanig. Gebruikers misleidt. Heel slim. Daar heb ik wat op bedacht, en maak nu dus misbruik (foei!) van het sjabloon. Ik heb de documentatie (pdf) zelf maar in een bekende archief site gehangen en de archief URL zo maar ingevuld, om de bemoeienis van de internet archiver af te stoppen. Overigens, het citeer sjabloon is helemaal niet verkeerd wat mij betreft, in tegenstelling tot wat sommigen hier zeggen. De omgang van de bot ermee is niet ideaal. Misschien liggen daar technische beperkingen aan ten grondslag, dat kan. Maar eisen dat bij kennis een definitief dodeurl perse in de URL parameter moet en de archiefurl daar niet in mag staan... Dat kan slimmer. Bijvoorbeeld: de bot kan zien of een URL (en/of domein) permanent dood is. Immers die kan de oorspronkelijke URL herleiden (dat is precies wat er gebeurt). Dan zou de bot in deze situatie de "verkeerde toepassing" toch toe kunnen staan. Het heeft tenslotte geen enkele waarde om tot een paar honderd karakters extra toe te voegen. En voor wie het echt wil, kan uit de archiefurl toch het origineel halen. Labrang (overleg) 8 aug 2022 16:29 (CEST)[reageren]
Wat bedoel je met 'de documentatie (pdf) zelf maar in een bekende archief site gehangen'? Kun je een voorbeeld van je werkwijze geven, want er is voor mij wel meer onduidelijk in wat je hierboven schrijft. Ik zou er graag van leren →bertux 8 aug 2022 16:37 (CEST)[reageren]
Bijvoorbeeld hier:
{{Citeer web | url=https://cesko.ge/static/res/docs/2021sakrebuloswevraddameradarcheulipirebi.pdf | formaat=pdf | paginas=p.46-47 | titel=Protocol gekozen raadsleden en burgemeesters 2021 | bezochtdatum=2022-04-05 | werk=CESKO Centrale verkiezingscommissie | taal=ka | archiefurl=https://ia801501.us.archive.org/26/items/local-elections-georgia-final-result-protocols/2021%20-%20Local%20elections%20Georgia%20-%20final%20result%20protocol.pdf |archiefdatum=2022-04-05 |dodeurl=nee}}
Labrang (overleg) 8 aug 2022 17:45 (CEST)[reageren]
Maar wat heb je nu precies gedaan? Bedoel je eigenlijk 'bron' waar je 'documentatie' schrijft?
Ik kreeg bij cesko.ge overigens geen captcha, alleen werd gedurende 10 seconde of zo mijn browser gecontroleerd, ik kan me dus voorstellen dat automatische raadpleging geweigerd wordt. Archiveren bij de Wayback Machine lukte mij niet, heb je een omweg genomen door een kopie te maken in je eigen cloud en die te archiveren?  →bertux 8 aug 2022 18:33 (CEST)[reageren]
Ja, klopt, het is een browser check. Ik zei het vorige verkeerd uit mijn hoofd (blijkt maar weer dat ik dat niet moet doen en alles controleer wat ik zeg ;-) ) - neemt niet weg dat het effect hetzelfde is. Met documentatie bedoelde ik dus inderdaad 'bron', wat in dit geval een online pdf document is (en niet een internet pagina). Ik heb dus inderdaad een kopie in de archive.org cloud omgeving gemaakt. Niet regulier de bedoeling begrijp ik maar dit is het soort bokkesprongen waar je dus als gebruiker naar grijpt als bots elke keer een url als dood aanmerken. Maar met de tip van Mbch331 hieronder kan ik wat. Dus ik zal met terugwerkende kracht dat uitvoeren op de pagina's waar van toepassing. Labrang (overleg) 8 aug 2022 18:43 (CEST)[reageren]
(na bwc) Als een bot tegen een captcha loopt, kan je de bot de URL laten negeren. Je kan via de webinterface van de bot een expliciete status van een url opgeven. Het sjabloon is niet de makkelijkste. Maar dat komt deels ook, omdat er gepoogd wordt het compatible te houden met de Engelstalige variant en ook het geautomatiseerd invoegen via VE loopt niet altijd soepel. Mbch331 (overleg) 8 aug 2022 16:38 (CEST)[reageren]
Dank je, daar heb ik wat aan. Daar zal ik dan mee aan de gang gaan. Labrang (overleg) 8 aug 2022 17:23 (CEST)[reageren]
De oorspronkelijke bot-edit is gewoon goed: de oorspronkelijke URL gaat naar veld "url=", de archief-URL gaat naar "archiefurl=" en de archiefdatum wordt erbij gezet. De oorspronkelijke URL is dood, dus plaatst de bot ook "dodeurl=unfit". Het probleem was dat de waarde 'unfit' niet herkend werd als alias voor 'ja', en daardoor werd ook de dode URL weer getoond samen met de archieflink, maar dat is inmiddels gefixt. Het sjabloon toont nog steeds alleen de archief-URL, met de archiefdatum daaraan toegevoegd. Wikiwerner (overleg) 8 aug 2022 18:41 (CEST)[reageren]
Ha, dus de melding van Sijtze Reuring heeft het uiteindelijk beter gemaakt! Dat is dan toch ook de kracht van de wiki. 2001:1C02:1E03:9B00:4012:6D27:848:5D4C 9 aug 2022 07:08 (CEST)[reageren]

Tech News: 2022-32[bewerken | brontekst bewerken]

8 aug 2022 21:49 (CEST)