Naar inhoud springen

Wikipedia:De kroeg/Archief/20150815

Uit Wikipedia, de vrije encyclopedie


Lemma's met 'schuinschrift' en de 800.000 lemma's over diertjes[bewerken | brontekst bewerken]

Hi, Het valt me op dat er verschillende lemma's zijn in schuinschrift/italics (zie b.v. "categorie:Beginnetje biologie" of Cepora licaea). is daar een bepaalde reden voor? Overigens in die categorie zitten zo'n 800.000 lemma's. Dat vult de NL-wikipedia lekker. Misschien ook eens alle straatnamen in lemma's vatten ;-)Butch (overleg) 27 jul 2015 19:58 (CEST)[reageren]

Dat zijn biologische artikelen en het is gebruikelijk om de officiële namen schuin te schrijven. En nee, we gaan niet alle straatnamen een artikel geven, uitsluitend die straten en wegen die er ook echt toe doen. Straten in nieuwbouwwijken zijn doorgaans (nog) niet relevant genoeg voor een eigen artikel. Dqfn13 (overleg) 27 jul 2015 20:00 (CEST)[reageren]
OK Dat verklaart het schuinschrift. Dat van die straatnamen was niet serieus bedoeld. Ik blijf het opvallend vinden dat er bijna 800.000 lemma's (45% van alle NL-lemma's!!) zijn met slechts een paar regels per lemma. Was het niet praktischer geweest om dit in hoofdcategorieen in te delen en dan per hoofdcategorie één lemma met al de ondergeschikte beestjes. En als de informatie zoals tot welke familie het beestje behoorde of wanneer het voor het eerst beschreven is enz, dan vervolgens in een grote tabel was opgenomen was dit veel duidelijker geweest. In geval er meer bekend wordt over een specie kan altijd nog een volledige lemma worden aangemaakt. Bijkomend voordeel is dat als je de functie "willekeurige pagina" gebruikt om eens door de wikipedia te bladeren je niet om de haverklap bij een beestje uit komt. Is hierover wel eens een discussie in de wikipedia gemeenschap geweest? --Butch (overleg) 27 jul 2015 20:56 (CEST)[reageren]
Over en over en over. Daar is eindeloos over gepraat, gediscussieerd en geruzied. Zo nu en dan komt de discussie terug, maar brand je er maar niet aan. Velocitas(↑) 27 jul 2015 21:21 (CEST)[reageren]
Het was me geheel onbekend dat dat kon. Ik heb de gewoonte om boektitels altijd cursief te schrijven, en ik heb nogal wat lemmmata aangemaakt over boeken (zie bijvoorbeeld hier). Kan iemand mij uitleggen hoe dat moet, en kan ik de aangemaakte lemmata aldus wijzigen? Paul Brussel (overleg) 27 jul 2015 21:31 (CEST)[reageren]
Beste Paul, jij schrijft lemma's die langer dan drie woorden zijn, dan is schuinschrift ten strengste verboden. Peter b (overleg) 27 jul 2015 21:40 (CEST)[reageren]
Is dat echt verboden?! Dat zou vreemd zijn, ook al is Historisch gedenkboek der herstelling van Neêrlands onafhankelijkheid in 1813 een lange lemmatitel, of: Verzaameling van zes- en zestig aangenaame gezichten in de vermakelijke landsdouwen van Haarlem... Paul Brussel (overleg) 27 jul 2015 21:43 (CEST)[reageren]
Ziehier de Engelstalige richtlijn hiervoor. Tja, kennelijk doen we het de hele tijd fout met die boektitels.MackyBeth (overleg) 27 jul 2015 21:47 (CEST)[reageren]

Het klopt dat al die korte lemma's de "willekeurige pagina"-functie wat 'verpesten'. Ik heb er jaren geleden al eens voor gepleit om het algoritme dat "willekeurig" een lemma kiest aan te passen, door de kans waarmee een lemma gekozen wordt proportioneel te maken aan de lengte van dat lemma. D.w.z. dat een artikel met 30 regels tekst, een 10x zo grote kans heeft om langs te komen dan een beginnetje met 3 regels tekst. M.i. wordt die willekeurige-pagina-functie dan interessanter; al blijft het marginaal interessant: er is bij iedereen gewoon enorm veel dat buiten het interessegebied ligt - bij de een een vlindertje, bij de ander een voetballer, bij weer een ander een middeleeuws schilder, en bij ons allen muzikanten uit Volendam - en zo'n willekeurige pagina is dus met flinke regelmaat niet interessant voor de lezer. CaAl (overleg) 27 jul 2015 22:00 (CEST)[reageren]

Er was een peiling in 2010 waarbij 65 gebruikers deelnamen en de conclusie was dat voor soorten de titel van het lemma cursief mag zijn. Mvg, Taketa (overleg) 27 jul 2015 22:13 (CEST)[reageren]
>>>>>Het blijft me verbazen dat er bijna 800.000 lemma's zijn over één onderwerp. Ik hoop niet dat iemand voor alle bekende sterren en dergelijke een lemma gaat schrijven ;-).Butch (overleg) 27 jul 2015 22:33 (CEST)[reageren]
Ja mee eens, dat is ook buitenproportioneel, en kan volgens mij ook best in de vorm van enkele tabellen of lijsten gegoten worden. Het idiote is alleen dat zulke mini-artikeltjes om een of andere wonderlijke reden wel allemaal "encyclopedisch relevant" worden geacht, maar een hele hoop andere onderwerpen niet - zie onderstaand bericht van mijn hand. Groeten, Paul2 (overleg) 28 jul 2015 06:54 (CEST)[reageren]
Oh ik zie nu dat er idd al zulke lijsten zijn: Lijst_van_witjes - dan is er toch geen noodzaak meer voor aparte artikeltjes, waar verder geen extra info meer in staat? Het is dat dit er al meer dan 1100 zijn, anders had ik er graag het verwijdersjabloon op geplakt.... Paul2 (overleg) 28 jul 2015 07:00 (CEST)[reageren]
Ik hoop het wel. Die pagina's staan eigenlijk alleen "in de weg" wanneer je de willekeurig-knop gebruikt. Als je geïnteresseerd bent in een onderwerp - de geschiedenis van Zweden o.i.d. - en je daarover leest op Wikipedia, kom je al die artikelen over sterren, vlinders en kevers niet tegen. CaAl (overleg) 27 jul 2015 22:42 (CEST)[reageren]
Nomen est omen. Die lijst bevat veel witruimte. Klusje voor Norbert Zeescouts :-)  Klaas `Z4␟` V28 jul 2015 09:25 (CEST)[reageren]
Juist. :-) Maar over het eigenlijke onderwerp: dat vind ik ook. Sommige gebruikers (ik wil geen namen noemen) maken zodanig veel lemma's aan, dat het begint te lijken op een bot. En inderdaad: als je de "willekeurige pagina"-functie gebruikt, kom je bijna altijd op zo'n eenzinner van een dierengeslacht uit. Dat kan niet de bedoeling zijn, hier moet snel iets aan gedaan worden. Courgette 28 jul 2015 19:27 (CEST)[reageren]
De (voormalige) divisies Railion Nederland, Railion Duitsland, Railion Italië, Railion Denemarken, Railion Zwitserland, Railion Zweden hebben geen van allen een eigen artikel, maar zijn als kopjes op de pagina van DB Schenker Rail onder het hoofdstuk Railion opgenomen (De naam Railion is gewijzigd in DB Schenker Rail, vandaar dat het lemma de huidige naam als titel heeft). En zo zullen er nog wel meer lemma's zijn waarbij onderwerpen (die an-sich ook encyclopedisch zijn) zijn samengevat op één overkoepelende lemma in plaats van verdeeld over tig individuele lemmata. Waarom zou dat met de diertjes niet ook kunnen? Waarbij wellicht ook de overeenkomsten of juist bepaalde verschillen tussen individuele soorten ook duidelijker kunnen worden beschreven. Dh3201 (overleg) 29 jul 2015 13:54 (CEST)[reageren]
Dit artikel is inderdaad een mooi voorbeeld. Courgette 3 aug 2015 11:10 (CEST)[reageren]
Overigens kom je regelmatig met de willekeurige paginafunctie wel eens op een doorverwijzingspagina. Niet bepaald zaken waarvan je zegt: "Dat ga ik nu eens op mijn gemak lezen" ;-) Courgette 7 aug 2015 20:56 (CEST)[reageren]
Precies. Jaren geleden heb o.a. ikzelf al voorgesteld om de individuele dierensoorten hier een eigen artikel te geven als er echt wat meer gegevens over zijn gevonden dan alleen een gedetailleerde taxonomie, het jaar van de ontdekking en de naam van de ontdekker (met een paar artikelen is dit sindsdien ook gebeurd, het kan dus wel). Tot dat moment kunnen al die botpaginaatjes bijv. worden geparkeerd in een of een paar lijsten, of op een nog op te richten Nederlandstalige versie van Wikispecies. Zoals het nu is, bestaan de bijna 2 miljoen "artikelen" hier op nl:wikipedia echter voor pakweg de helft uit gekopieerde databasegegevens (waarbij ook nog eens de discussie is geweest of ze wel echt rechtenvrij waren). De Wikischim (overleg) 7 aug 2015 21:30 (CEST)[reageren]

Ik vind het voorstel van gebruiker:Paul2 hierboven helemaal niet slecht, in grote lijnen komt het ook overeen met wat o.a. ikzelf jaren geleden al voorstelde. Nl:wikipedia moest en zou destijds zo snel mogelijk aan een miljoen artikelen komen, dus werd er bedacht dat een hoop informatie uit databases over eenmalig beschreven diersoorten (die overigens, mits uiteraard rechtenvrij, prima zou passen op bijv. Wikispecies, maar daar bestaat weer geen nl:versie van) maar hierheen gekopieerd moest worden. Resultaat: nl wikipedia bestaat nu voor pakweg de helft uit iets wat je in meer of mindere mate artikelen zou kunnen noemen, en voor de andere helft gewoon uit gekopieerde databases. Maar goed, het merendeel van de gemeenschap hier vindt dat allemaal meer dan prima, zolang het weergegeven "aantal artikelen" in de teller op de voorpagina maar hoog is. Soit/I rest my case. De Wikischim (overleg) 29 jul 2015 22:01 (CEST)[reageren]

Amen ;-) Paul2 (overleg) 30 jul 2015 02:26 (CEST)[reageren]
Ik weet niet goed waarom het erg is dat we zoveel biologie-lemma's hebben. Mij lijkt dat elke dier- en plantensoort E is, of wordt ook dat betwijfeld? Dat cynische "zolang het weergegeven "aantal artikelen" in de teller op de voorpagina maar hoog is" is echt nergens voor nodig. Wel lijkt me aanpassing van de functie willekeurige pagina gewenst, zoals CaAl voorstelt. Vinvlugt (overleg) 30 jul 2015 10:53 (CEST)[reageren]
Elke diersoort mag misschien wel encyclopedisch zijn, maar hoeft daarom nog niet geforceerd een eigen artikel te krijgen als er verder weinig of niets meer over te melden valt dan wat het is en tot welke familie het behoort. Dat kan net zo goed in een tabel dan, mede ook gezien de enorme aantallen. Talloze soorten zijn enkel gering afwijkend van een hoofdsoort. Groeten, Paul2 (overleg) 7 aug 2015 22:45 (CEST)[reageren]
Ter illustratie hier enkele pagina's: species:Cayratia trifolia, species:Leptoglossus corculus en het wat uitgebreidere species:Panthera tigris. Dat is toch prima zo? Dezelfde soort info, maar dan op een project dat speciaal daarvoor is ontworpen. De Wikischim (overleg) 7 aug 2015 22:56 (CEST)[reageren]

Sinds de invoering van Wikidata worden er geen links meer toegestaan naar delen van een artikel in een andere taal. Het samensmelten van een serie artikelen in een lijst (en dan de artikelen verwijderen, neem ik aan, wordt hierboven gesuggereerd) geeft dan dus grote problemen. Als de kleine artikelen blijven bestaan is er echter geen probleem. Alleen het opsplitsen in veel kleine artikelen maakt het mogelijk wikilinks te leggen naar andere talen over een deelonderwerp. VanBuren (overleg) 30 jul 2015 10:33 (CEST)[reageren]

Inderdaad. Bovendien kun je de lezer het beste van dienst zijn als die iets zoekt en precies uitkomt waar de gezochte informatie staat in plaats van te moeten zoeken in een lijst. Daarnaast is het makkelijker de artikelen evenwichtig te houden als die over een specifiek onderwerp gaan. Wikipedia is niet van papier: gebruik hyperlinks waar ze voor bedoeld zijn. Samenvoegen kun je eigenlijk pas doen als alle informatie compleet is, en dan nog zou ik het niet doen. Gewoon de artikelen niet tellen: wmb verdwijnt de teller van de hoofdpagina. — Zanaq (?) 30 jul 2015 19:48 (CEST)

Wiki labels & Revision Scoring as a Service for Dutch Wikipedia[bewerken | brontekst bewerken]

Hello Dutch Wikipedia,

I apologize for my complete lack of Dutch skills. I would most welcome if my post is translated to Dutch.

So computers are very good at crunching numbers. Your average calculator can out smart you in arithmetic. However computers are terrible at pretty much in everything else. Programming computers to under take any task no matter how simple beyond computing tends to be very difficult. This is where Artificial Intelligence comes in. With Artificial Intelligence we teach computers how to solve problems without explicit programming for the solution. This is what we are doing.

We are working on a project called m:Research:Revision scoring as a service which aims to provide quality control Artificial Intelligence infrastructure for Mediawiki and Wikimedia projects. We already have our system implemented and running on Azerbaijani, English, French, Indonesian, Persian, Portuguese, Spanish, Turkish and Vietnamese editions on Wikipedia. We are hoping to adapt our tool to serve Dutch language as well as a number of other languages.

We are currently mainly focusing on vandalism detection where we provide an API (m:ORES) that provides scores. We have made an effort to keep our system robust.

The examples I'll provide are based on a machine learning algorithm that was trained to use 20,000 reverted edits. This is kind of modelling is problematic for two reasons. First is, there are non-vandalism related reasons for edits to be reverted such as mistakes from new users, this would develop such an unproductive bias. Second problem would be it lacks the ability to distinguish good faith users from malicious ones. To demonstrate our system I will give three examples from English wikipedia. I have picked these three semi-random.

  • Score of 90% diff en:Moncef Mezghanni
    • As visible in the diff, it is clearly something that shouldn't be welcome on English wikipedia. Algorithms confidence also matches my human assessment.
  • Score of 75% diff en:Monin
    • When I look at the diff it isn't immediately clear to me if this should be reverted. Detailed look reveals that prior version had more neutral information, but new version at a glance isn't exactly clear cut vandalism, albeit spammy. Algorithms confidence drops just as my human assessment.
  • Score of 19% diff en:Curiosity killed the cat, but satisfaction brought it back
    • As visible in the diff this edit clearly improves the article. The algorithms confidence plummets as well. Algorithm is more confident that this edit should NOT be reveted.

We are also working towards a system for article quality where we use existing assessment by en:Wikipedia:Version 1.0 Editorial Teamto train our system. We only have this system on English wikipedia at the moment but we would be more than happy to expand to other language editions. I am uncertain if Dutch Wikipedia has a similar quality assessment scale. I have picked 5 random articles to demonstrate this.

Typical problem is that humans typically do not re-asses articles over time or articles are never assessed in the first place. Our system circumvents this problem by automating this.

We have already gathered some language features such as bad words, informal words and stop words. So what we need is

  1. A localization on en:Wikipedia:Labels so that we have a local landing page.
  2. We would then start an edit quality campaign where we request the local community to hand code/label ~2000 revisions labeling them productive/damaging and good faith/bad faith. This would be similar to the campaign on English wikipedia en:Wikipedia:Labels/Edit quality.

After this we will be able to generate scores for revisions that is usable by gadgets such as ScoredRevisions as well as (potentially) tools like huggle. If community desires it, it can even be used to create a local vandalism reversion bot.

So in a nutshell our algorithm relies on community input to support the community. Feel free to ask any questions. Either here, on meta or on IRC on the freenode server and #wikimedia-ai channel where we hang out. You can also reach us at https://github.com/wiki-ai

-- とある白い猫 chi? 7 aug 2015 19:14 (CEST)[reageren]

Een korte Nederlandse samenvatting:
  • Er wordt gewerkt aan een programma, ORES, dat automatisch edits 'rankt' op vandalisme/geen vandalisme. Die tool doet verder zelf niets (draait geen bewerkingen terug), maar maakt de ranking beschikbaar aan andere tools.
  • Om goed te werken op de Nederlandstalige wikipedia moet ORES getraind worden. Dat gebeurt door een set edits handmatig te ranken op 'vandalisme' of 'geen vandalisme', waarna het programma daarvan leert. Hoe meer edits handmatig gerankt worden, hoe beter het programma kan inschatten of een edit vandalisme is of niet. Op de Engelstalige Wikipedia is dat gedaan met het project en:Wikipedia:Labels / en:Wikipedia:Labels/Edit_quality.
  • Die tool moet nog naar het Nederlands vertaald worden (maar ik kan zo 1-2-3 niet terugvinden hoe -- daar kom ik nog op terug).
  • Er zijn al een aantal tools beschikbaar om gebruik te maken van deze informatie: meta:Research:Revision_scoring_as_a_service#Tools_that_use_ORES
  • Bestaande tools (bv de bot in het antivandalismekanaal) kunnen ook gebruik maken van de informatie: meta:Objective_Revision_Evaluation_Service
valhallasw (overleg) 7 aug 2015 19:45 (CEST)[reageren]

Wikipedia printinstellingen voor langere artikelen[bewerken | brontekst bewerken]

Wanneer je een artikel wilt printen dat een bepaalde lengte overschrijdt, dan wordt dit vanzelf in een kleinere letter gezet. Is er een manier om dit uit te schakelen? Het artikel Lucifer (toneelstuk) wordt nu zo klein afgedrukt dat het niet meer te lezen valt.MackyBeth (overleg) 7 aug 2015 19:14 (CEST)[reageren]

Dat lijkt op een bug in Chrome. In Firefox werkt het wel, en als ik in Chrome expliciet voor de print-stylesheet kies (via de knop 'printervriendelijke versie' in de balk links) dan wordt de pagina wél goed gelayout... Ik heb er ook een phabricator-bug voor aangemaakt; wellicht dat er in mediawiki omheen gewerkt kan worden: phab:T108350 valhallasw (overleg) 7 aug 2015 19:21 (CEST)[reageren]
Het ligt inderdaad aan (de instellingen van) jouw browser, hoe een printje van een artikel er uit ziet. Wat je zou kunnen doen is een boek aanmaken met dit artikel als inhoud. Dit boek kan je vervolgens als pdf exporteren en zal op elke printer hetzelfde geprint worden. CaAl (overleg) 7 aug 2015 19:37 (CEST)[reageren]
Mijn hartelijke dank voor jullie behulpzame reacties. Zo kan ik het artikel printen en nog eens rustig nakijken.MackyBeth (overleg) 7 aug 2015 19:43 (CEST)[reageren]