Wikipedia:De kroeg/Archief/20160416

Wiki-labels: detectie kwaliteit en vandalisme[bewerken | brontekst bewerken]

Beste,

Zoals voorheen aangekondigd (links) is de Nederlandstalige Wikipedia-campagne voor "Revision scoring as a service" in volle gang. Help mee via Wikipedia:Labels en train de diverse zelflerende modellen van ORES. Dit helpt onder andere met gebruik van RTRC en Controlelijst vandalismebestrijding. Momenteel is alleen het "reverted model" (terugdraaimodel) beschikbaar voor nl.wikipedia.org. Zodra we genoeg labelmateriaal hebben kunnen we ook slimme modellen aanmaken voor opsporing van "damaging" (beschadigende) en "goodfaith" (goede wil) bewerkingen (phab:T130267). --Krinkle (overleg) 6 apr 2016 02:10 (CEST)[reageren]

Hoe technisch moet je hiervoor zijn? Ik wil best helpen en heb de gadget op Meta geïnstalleerd, maar op Wikipedia:Labels blijft het scherm hangen op "verbinden met server" en ik zie geen verschil met voorheen als ik een wijziging bekijk. Ciell 6 apr 2016 13:42 (CEST)[reageren]

Als je op "verbinden met server" klikt, verschijnt er als het goed is een popup (mogelijk moet je het blokkeren van popups in je browser uitzetten) waarin je om toestemming wordt gevraagd. Als je vervolgens op "Allow" klikt, verandert Wikipedia:Labels en verschijnt daar de campagne "Kwaliteit bewerken". Daar kun je vervolgens een serie wijzigingen opvragen om te beoordelen. MrBlueSky (overleg) 6 apr 2016 15:51 (CEST)[reageren]

@Ciell: Eenmaal verbonden is er een vriendelijke interface (zie schermafdruk). --Krinkle (overleg) 7 apr 2016 05:28 (CEST)[reageren]

Gelukt, duidelijk! Ciell 7 apr 2016 21:31 (CEST)[reageren]

@Krinkle: 'goede wil' bewerkingen zou ik eerder 'goedbedoelde' bewerkingen noemen. Richard 7 apr 2016 12:04 (CEST)[reageren]

Ik zie dat de doelstelling drastisch verlaagd is van 20.000 labels naar 4.161 labels (raar getal). Dan ben je natuurlijk zo klaar (ik had zelf al tegen de 3.000 bewerkingen van een label voorzien). Maar bij mij verschijnt de interface ook niet meer (ik gebruik Opera). Woody_|(?) 7 apr 2016 12:38 (CEST)[reageren]

Bij mij werkt het wel (Chrome), en zo te zien is de doelstelling nog steeds 20.000. Cattivi (overleg) 7 apr 2016 17:24 (CEST)[reageren]

Interessant project Over het algemeen geldt in machine learning hoe meer data (in dit geval bewerkingen met een label) hoe beter. Is de doelstelling nu niet 4.400, met 4.161 als het huidige aantal wat af is? Mvg, Bas (o) 7 apr 2016 20:32 (CEST)[reageren]

Volgens de huidige statistieken zijn 3.939 bewerkingen van een label voorzien. De doelstelling is door EpochFail verlaagd naar 4.161. 4.400 is het totaal aantal toegewezen bewerkingen (iedere keer dat je een nieuwe werkset opvraagt worden er 50 nieuwe bewerkingen toegewezen). Woody_|(?) 7 apr 2016 20:38 (CEST)[reageren]

Ok, apart getal inderdaad. Ik hoop dat als het zo goed gaat wat meer getagde edits gehaald worden, komt de kwaliteit enkel ten goede. Ik zag dat we via deze site huidige revisions kunnen testen. Momenteel enkel nog de kans op reverts. Ik zie trouwens dat voor bijna elke bijdrage in de hoofdnaamruimte van een anoniem die ik getest heb (ca. 20) deze kans boven de 50% in wordt geschat. Bas (o) 7 apr 2016 20:47 (CEST)[reageren]

@Bas: Klopt, is mij ook opgevallen. Zie phab:T129624. Het was in eerste instantie zelfs boven de 80% in de meeste gevallen, dat is nu verbeterd. We houden het in de gaten! --Krinkle (overleg) 8 apr 2016 22:20 (CEST)[reageren]

Dat hoge aantal hoeft niet per se iets te zeggen over de kwaliteit van die inschatting. Ik denk dat het vooral illustrerend is voor dingen die spelen. Het maakt een bepaalde problematiek inzichtelijk, dat nieuwe gebruikers met weinig edits (en anoniem) gewoon vaak teruggedraaid worden. Dat zou dan weer twee dingen kunnen indiceren: ofwel zijn wij erg wantrouwig naar nieuwe gebruikers, ofwel is de kwaliteit van de bijdragen van nieuwe gebruikers erg slecht. Ik zie op phabricator dat wordt aangegeven dat SVC wat ongenuanceerd was. Ik vraag me af wat daarmee precies bedoeld wordt, grote kans namelijk dat het voor accuracy best een redelijke strategie is om te zeggen dat deze edits redelijk vaak teruggedraaid moeten worden. Het is namelijk slechts een klein aantal van de edits (de meeste edits komen van mensen met veel edits) en heeft daardoor niet een heel hoge invloed op de accuracy. Ik ben wel benieuwd hoe het precies zit met de algoritmen die gebruikt worden en welke maat gebruikt wordt om de algoritmes te vergelijken. Accuracy is niet altijd de beste methode om een algoritme te testen, soms zijn bijvoorbeeld de false positives of false negatives belangrijker en dan zijn maten als en:precision and recall belangrijker (als de precisie heel hoog is zijn er minder verdachte meldingen, maar kloppen die meldingen beter, als recall omhoog gaat gebeurt het tegenovergestelde). Ook ben ik benieuwd hoe een ensemble van verschillende algoritmes (RF, GB/xGB, SVM, lin regressie, MLP) of het tegenwoordig opkomende gebruik van neurale netwerken/een MLP zou werken. Ik vond het niet heel makkelijk om in het hele geheel zo gauw te vinden waar dit stukje in elkaar gezet was, maar het lijkt me wel interessant om met de dataset te testen of op deze manier betere voorspellingen gedaan kunnen worden. Bas (o) 9 apr 2016 17:18 (CEST)[reageren]

IJslandse namen sorteren[bewerken | brontekst bewerken]

Wikipedia leert me dat IJslandse namen geen familienaam of achternaam bevatten. Groot is dan ook mijn verrassing boven de categorie Categorie:IJslands persoon en alle hieronder liggende categorieën in de noot bovenaan te lezen: "Noot: Deze lijst volgt niet de IJslandse gewoonte, namen van personen op voornaam te sorteren." Vervolgens heb ik via de zoekfuncties gezocht in de Wikipedia en Help naamruimte of hieromtrent ooit overleg, een peiling of stemming was geweest, maar kwam niets tegen, met uitzondering van Wikipedia:Taalcafé/Archief/40#Aanduiding IJslandse personen waar alle participanten in het item het in 2014 roerend eens waren op voornaam te sorteren. Zou het niet aangewezen zijn dit dan ook te doen, of heb ik toch het relevante overleg of de peiling hieromtrent gemist? 81.164.79.48 7 apr 2016 21:38 (CEST)[reageren]

Waar leest u dat precies in die discussie? Er is destijds met geen woord gerept over sortering, enkel over het aanduiden van de persoon in de lopende tekst van een artikel. Woody_|(?) 7 apr 2016 21:44 (CEST)[reageren]

U hebt absoluut gelijk. Even mijn internet browser geschiedenis van deze avond nagekeken... Er was nog een tweede referentie, en ik heb die niet meegenomen... En daar wordt verwezen naar het tegendeel. Romaine schreef op 13 feb 2014 15:08 (CET) in Wikipedia:De Nulmeridiaan/Archief/2014-1#Afkorting dat IJslandse namen niet op de IJslandse manier gesorteerd zouden worden. Ik vrees dat ik verward heb met de Engelstalige Wikipedia waar ze wel het tegengestelde doen. Nu, mijn opbouw en referenties waren dus onvolledig en niet correct in weergave van standpunten, maar de kern blijft wel: waar is beslist dat de IJslandse naamgeving niet wordt gereflecteerd in de gekozen sorteermethode, want die beslissing vind ik niet, en lijkt me ook zeker niet zo evident. Als je in een lemma iemand wel ofwel met de volledige naam ofwel met de voornaam aanduidt mbt IJslandse personen, lijkt het me nog steeds logisch dit ook in sortering aan te houden. 81.164.79.48 7 apr 2016 23:25 (CEST)[reageren]

Dat lijkt mij ook heel logisch, en in een categorie met alleen IJslandse personen is dat volgens mij ook geen probleem. Maar hoe ziet u dat voor zich in categorieën waarin niet alleen IJslanders staan? Alleen de IJslanders op voornaam sorteren, of in die gevallen toch sorteren op patroniem? Woody_|(?) 7 apr 2016 23:52 (CEST)[reageren]

In lijsten waar personen uit landen met meerdere gebruiken voorkomen, kan sortering altijd voor enige verbazing zorgen. Ik verwijs maar naar een lijst waar Nederlanders en Belgen samengevoegd zijn en de Belgen gesorteerd zijn op de gehele achternaam (met voorvoegsels als onderdeel van de achternaam), en Nederlanders gesorteerd worden met weglating van die voorvoegsels. Uiteindelijk ben je in zo'n lijst waar IJslanders deel van uitmaken ook patroniemen, en andere achternamen aan het mengen ... Wij hanteren regelmatig in de Nederlandse Wikipedia het sjabloonachtige DEFAULTSORT. Daarmee geef je - wanneer toegepast op een lemma van een persoon - de voor die persoon (in zijn culturele context - waaronder de door omgeving zoals nationaliteit bepaalde elementen) een normale sortering aan. Laat dat de sortering in ELKE lijst bepalen. Daarmee zou een IJslander met voornaam in de gesorteerde lijst komen, de Belg met voorvoegsels van de familienaam, en de Nederlander zonder voorvoegsels. Mogelijk verwarrend? Zonder twijfel. Kritiek mogelijk dat je al de nationaliteit van een persoon moet weten om die persoon te zoeken? Ook waar, maar gelukkig zijn er meerdere - vrije - zoekmethodes in Wikipedia waarbij zoeken via categorieën maar een mogelijkheid is, en kan je evengoed aanvoeren dat je vooraf ook de categorie, en de schrijfwijze moet weten in voorkomend geval. Het lijkt me gewoon het beste compromis ... 81.164.79.48 9 apr 2016 08:46 (CEST)[reageren]

De Belgische gewoonte om familienamen op voorvoegsel te sorteren komt vanwege het feit dat het meestal met hoofdletter wordt gespeld. In Nederland (en dus ook Nederlanders die in België wonen) staan deze voorvoegsels in onderkastletters gedrukt op paspoortbladzijden. Klaas `Z4␟` V: 9 apr 2016 09:30 (CEST)[reageren]

Zeker, en nog eens aanvullend ook het feit dat verschillende familienamen al dan niet samengetrokken zijn tot een woord of niet. Van De Woestijne, Vande Woestijne, Van de Woestijne, Vandewoestijne ... En je erft daarbij als individu volgens de Belgische identiteitsregels de exacte schrijfwijze van vader of moeder... Maar dan blijft mijn vraag, waarom is men begonnen IJslandse personen toch op patroniem te sorteren in de Nederlandstalige Wikipedia, en - gegeven dat ik toch geen echt overleg vond - is het niet te overwegen dit aan te passen al dan niet na een uitgebreidere overlegprocedure? 81.164.79.48 9 apr 2016 11:38 (CEST)[reageren]