Overleg Wikipedia:Labels/Kwaliteit van artikelen/Archief

D en C[brontekst bewerken]

Laatste bericht: 2 jaar geleden15 berichten5 personen in discussie

Na een steekproef bij een paar van mijn aangemaakte artikelen ben ik wel benieuwd waarom Aart Arnout van Schelven (D) lager wordt geschaald dan Daniël van der Meulen (1554-1600) (C). Aan de kb-grootte kan het in ieder geval niet liggen, en beide hebben hetzelfde aantal voetnoten. Encycloon (overleg) 24 mei 2021 20:37 (CEST)Reageren

De "D"-groep is met name tot stand gekomen vanuit artikelen die begonnen met jet slabloon beginnetje, en waar dit sjabloon op een later moment weggehaald is. De "C"-groep was (net als eigenlijk ook de D-groep) moeilijk om te definiëren, en is voor nu enkel op basis van "hoort niet in een van de andere vier klasses" en de kb grootte van het artikel. Als je hier ideeen over hebt hoe we deze groep verder zouden kunnen fine-tunen, hoor ik het graag! Meer over hoe de huidige inschattingen tot stand zijn gekomen, vind je in Wikipedia:ORES/Kwaliteitsschaal voor artikelen. Ciell need me? ping me! 29 mei 2021 18:50 (CEST)Reageren

Die pagina had ik al gelezen, maar dat geeft geen duidelijkheid over concrete aspecten waar ORES naar kijkt. Daardoor is het ook lastig een finetune-suggestie te doen.

Zoals gezegd is Aart Arnout van Schelven qua bytes groter dan Daniël van der Meulen (1554-1600). Ik lees hier Voorbeelden van deze kenmerken zijn: het aantal paragrafen, de aanwezigheid van een infobox, het aantal bronnen en het gebruik van citeer-sjablonen., maar ook dat zie ik bij dit voorbeeld niet terug in de score. Van Schelven heeft meer paragrafen/kopjes, een infobox en evenveel referenties. Misschien ligt het dan aan de verhouding referenties/tekst of de hoeveelheid tekst per kopje? Encycloon (overleg) 29 mei 2021 19:03 (CEST)Reageren

Goed opgemerkt. Dat zijn inderdaad voorbeelden die gebruikt werden met de training van het model op de Engelstalige Wikipedia: deze zijn hier nu nog niet gebruikt. Ik ben dus wel benieuwd of je vind dat op basis daarvan een bepaald artikel een schaal hoger of misschien lager moet. Wat zegt volgens jou het ontbreken van een bron over de kwaliteit van een artikel? En als het artikel een infobox heeft, wat zegt dat? C en D willen we graag op basis van dit soort argumenten beter uit elkaar trekken - de eerste trainingsmethode (aantal bytes) zegt natuurlijk inhoudelijk heel weinig. Ciell need me? ping me! 29 mei 2021 19:29 (CEST)Reageren

(Trouwens wel benieuwd waarom Daniël nog steeds een beg-sjabloon heeft...? ;-) ) Ciell need me? ping me! 29 mei 2021 19:38 (CEST)Reageren

(Dat was iets te onderschattend van mij omdat ik vind dat dat nog geen volledig artikel is. ;))

Een onbebrond artikel zou wat mij betreft zeker lager moeten scoren dan een bebrond artikel. Een infobox kan daarentegen wijzen op visueel meer kwaliteit, maar is voor abstractere onderwerpen vaak niet in te passen. Mocht ik zelf een schaal bedenken, zou ik een infobox niet veel zwaarder wegen dan een gewone afbeelding.

Echter is daarmee mijn beginvraag nog niet beantwoord. Kunnen de ontwikkelaars wellicht 'onder de motorkap' zien welke factoren er uit die artikelen die begonnen met het sjabloon beginnetje zijn gedestilleerd? Encycloon (overleg) 29 mei 2021 20:08 (CEST)Reageren

Ik was van plan om aankomende week zeker alle 'vreemde eenden' mee te nemen: deze worden op verzoek van de ontwikkelaars nu al verzameld. Daarom vraag ik ook even door, dan kan ik het hopelijk goed uitleggen aan ze.

We begonnen met de database dump van de Nederlandstalige Wikipedia, en daar is botmatig aan de hand van de eerste versie van de artikelschaal een schifting van gemaakt in de 5 gradaties. Dat is een grove schifting, en daarvan moesten we gebruik maken van (onderhouds)-categorieën en -sjablonen die al op de Nederlandstalige Wikipedia aanwezig zijn momenteel. Dat is aan de ene kant het {{Etalage}} en aan de andere kant van de schaal het {{beginnetje}}: voor beiden ging het om om zowel artikelen die dat sjabloon nù hebben, als om activiteit in een artikelgeschiedenis voor het toevoegen of weghalen van het sjabloon wat maakte dat een artikel een schaal hoger of lager kwam. Is dat wat je bedoelt, of bedoel je nog iets anders met 'factoren'? Kun je noemen waar je dan aan denkt? Ciell need me? ping me! 29 mei 2021 22:18 (CEST)Reageren

Ja, ik snap hoe die eerste schifting tot stand kwam. Maar vervolgens zal ORES uit die 'input' kenmerken/factoren moeten hebben verzameld om te kunnen voorspellen in welke schaal een artikel thuishoort toch? Dat is wat ik bedoel. Encycloon (overleg) 29 mei 2021 22:30 (CEST)Reageren

Hoi Encycloon, ik begrijp je vraag. Ik weet niet wat de precieze condities zijn die zijn ingesteld om een artikel uiteindelijk een kwalificatie van 1,23 of 4,56 te geven. De grens tussen de waarden die als A-B of D-E worden aangeduid, is vast eenvoudiger te achterhalen. Ik zal de vragen doorspelen naar de ontwikkelaars. Met vriendelijke groet, RonnieV (overleg) 30 mei 2021 22:21 (CEST)Reageren

Bedankt. Encycloon (overleg) 30 mei 2021 22:38 (CEST)Reageren

Verschil tussen Kevin Willis en Jimmy Collins toch beidde een C, ik snap de D voor Willis niet echt. Was even een controle op mijn eigen artikelen gestart en verschil tussen C en D is soms maar her en der getrokken. En sommige lijsten doen het zeer goed met zelfs B als resultaat. Themanwithnowifi (overleg) 19 jun 2021 21:11 (CEST)Reageren

Het zou misschien kunnen liggen aan de hoeveelheid tabellen? Gebruiker:Dajasj/Kladblok/test resulteert in een C bijvoorbeeld. Maar dat strookt dan niet met de observatie dat lijsten een B opleveren... Dajasj (overleg) 19 jun 2021 21:27 (CEST)Reageren

Correct opgemerkt beiden. Alle lijsten worden er nu uitgefilterd in de trainingen van het model voor de volgende training, het is wel heel erg fijn dat we echt super consistent zijn in de naamgeving van onze artikelen. Oa "Lijst van.." en "... in het seizoen ..." (=sportartikelen) worden er nu buiten gelaten op basis van de titel van het artikel. Beide soorten artikelen hebben veel karakters/kB, en vaak zelfs ook een infobox, en dus scoren daarom automatisch hoger, maar inhoudelijk is het niet meteen veel soeps en zou kunnen leiden tot 'false positives'. Ciell need me? ping me! 19 jun 2021 21:43 (CEST)Reageren

Het verschil tussen Jimmy Collins (2,96) en Kevin Willis (2,67) is een leuke. Van Collins is het model er erg van overtuigd dat het een C-artikel is (91% zeker), van Willis is het een stuk minder overtuigd: 59% kans dat het een D-artikel is, maar ook 24% dat het een B-artikel is. De kans dat het een C-artikel is, wordt op minder dan 10% gesteld. Naar het waarom gis ik nog even. Met vriendelijke groet, RonnieV (overleg) 24 jun 2021 17:19 (CEST)Reageren

Kijk, dat was dan weer een makkelijke vraag... Voor de selectie van 'willekeurige' artikelen die een eerste groep C-artikelen zouden kunnen zijn, hadden we gezegd dat een artikel niet meer dan x bytes groot mocht zijn. De voorbeeldjes van C-artikelen zouden daaraan moeten voldoen. Het artikel van Willis is bijna 12 kB, dus kan het absoluut niet voldoen aan de eisen voor een C-artikel.

Kunnen wij met elkaar tot een beschrijving komen waar artikelen in de vijf groepen aan zouden moeten voldoen? Let daarbij niet op wat er technisch (on)mogelijk is, maar aan wat ons redelijk lijkt.

Een voorbeeld zou kunnen zijn dat een A-artikel gemiddeld minstens twee bronnen per paragraaf moet hebben, minimaal twaalf paragrafen en minimaal vijf hoofdstukken moet hebben en tenminste drie afbeeldingen heeft. Met vriendelijke groet, RonnieV (overleg) 25 jun 2021 01:07 (CEST)Reageren

Lijst[brontekst bewerken]

Laatste bericht: 2 jaar geleden7 berichten3 personen in discussie

Is er een mogelijkheid om de lijst van inschattingen te zien? Bijvoorbeeld een lijst met de hoogste en laagste scores? Dajasj (overleg) 28 mei 2021 14:16 (CEST)Reageren

Oei. Dan vraag je eigenlijk om een ranglijst te geven van al onze 2 miljoen artikelen?

ORES beoordeelt 'live' op basis van de oldid, dat zie je bijvoorbeeld aan de ORES-kleurtjes die nu in op je geschiedenistab bij elke versie zichtbaar zijn. Deze kun je zelf door de api halen via deze user interfase (UI) (hier de toegang tot de volledige api). De code die je nu in je common.js (dank voor de correctie!) hebt ingevoerd zorgt ervoor dat deze score automatisch wordt aangeroepen en zichtbaar wordt boven alle Wikipedia-artikelen die je bezoekt.

Je kunt wel zelf een lijst maken: van een bepaald interessegebied, of een Wikiproject over een zeker onderwerp, en daar voor alle artikelen met een sjabloontje in één keer de ORES-inschatting van de kwaliteit van de artikelen opvragen. Zo krijg je in een keer zicht op het werk dat er nog ligt, en willen we bijvoorbeeld dus meer aan de kwaliteitskant van de encyclopedie gaan werken, kun je schrijvers inzicht geven in welke artikelen nog echt wat extra werk nodig hebben zonder dat je alles handmatig na moet lopen. ORES geeft dan een ruwe inschatting van de artikelkwaliteit. Ik ben even op zoek geweest naar het voorbeeld op de baskische Wikipedia die dit zo doen voor de vitale artikelen, maar kan hem even niet terugvinden. Ciell need me? ping me! 29 mei 2021 19:17 (CEST)Reageren

Ah, gevonden. De symbolen voor de artikellinks op deze pagina op de Baskische Wikipedia worden aanroepen met een sjabloon dat gebruikt maakt van de article quality zoals getraind in ORES. Ciell need me? ping me! 29 mei 2021 19:21 (CEST)Reageren

Nadat ik de vraag hier stelde, vermoedde ik al dat het niet zou kunnen, in ieder geval niet voor heel Wikipedia. Bedankt voor je antwoord in ieder geval! Ik ga me eens verdiepen in dat sjabloon en wat er mee kan!

Heel erg tof dat jullie het hierheen importeren overigens! Ik kwam dit toevallig tegen en het bevalt me wel. Elke keer als ik een lage ORES beoordeling zie, ben ik toch even extra gemotiveerd om dat aan te pakken! Dajasj (overleg) 29 mei 2021 19:25 (CEST)Reageren

Haha, leuk om te horen! Het is nog geen gadget, dus ik weet niet zeker of alle sjablonen hierop gebaseerd al kunnen gaan werken. Dat is meer Ronnie's field of expertise. ;) Ciell need me? ping me! 29 mei 2021 19:35 (CEST)Reageren

Ik weet niet of er een lijst met inschattingen van alle artikelen mogelijk is. Dat zou inderdaad ruim 2 miljoen schattingen vergen en dan een sortering op 'maar' vierhonderd of zo zichtbare uitkomsten (ergens tussen de 1,00 en 5,00 lijken de scores te liggen). Heb je echter een lijst(je) artikelen die je wil laten beoordelen, dan kan dat:

Met een spreadsheet en een beetje gegoochel heb je zo een lijst met artikeltitels omgezet in een lijstje dat je ergens kan neerzetten: =tekst.samenvoegen("#{{ORES schaal|";A1;"}}"). Iedere keer als je gaat kijken, wordt het bijgewerkt (vergt wel wat rekenwerk voor de server). Met vriendelijke groet, RonnieV (overleg) 29 mei 2021 21:20 (CEST)Reageren

Thanks! Ik ga hier eens naar kijken! :D Dajasj (overleg) 31 mei 2021 11:44 (CEST)Reageren

Sjablonen van (negatieve) invloed op beoordeling[brontekst bewerken]

Laatste bericht: 2 jaar geleden16 berichten5 personen in discussie

Ik las dat ORES kijkt naar de aanwezigheid van infobox sjablonen en citeer sjablonen. In het verlengde vroeg ik me af of we ook andere sjablonen in negatieve zin kunnen toevoegen. Het zou, mijn inziens, ideaal zijn als ORES ook handmatige beoordelingen, die er toch al zijn, in acht neemt. Zo schreef ik al op de andere pagina dat Grijze Wolven opvallend is, omdat handmatig al geoordeeld is dat de neutraliteit betwist wordt. Ook zijn er acht bronvragen, die wellicht in ideale situatie meetellen. Hetzelfde geldt ook voor pagina's die een sjabloon hebben die aangeeft dat het verouderd is, zoals Lijst van Nederlandse ministers. Kortom, is het mogelijk deze specifieke sjablonen mee te laten wegen? Dajasj (overleg) 31 mei 2021 11:53 (CEST)Reageren

Hallo Dajasj, ik heb op dit moment de vraag uitstaan welke onderdelen precies meetellen (en met welk gewicht) bij het bepalen van de score. Als er iets gedaan wordt met sjablonen (lijkt me niet onredelijk, maar een bevestiging zou fijn zijn), zal het vast ook mogelijk zijn om de aanwezigheid van bepaalde sjablonen van een negatieve score te voorzien. Laten we deze testperiode vooral met elkaar gebruiken om te kijken of we de huidige beoordelingen kunnen verfijnen, en kijken welke factoren daarvoor nodig zijn. Als wij met elkaar denken dat het tijd is voor een tweede versie van de berekening, wordt die ongetwijfeld gerealiseerd. Met vriendelijke groet, RonnieV (overleg) 31 mei 2021 15:07 (CEST)Reageren

Hoi! Het was ook niet direct mijn suggestie om iets aan te passen per se. Daarvoor snap ik er momenteel ook nog niet genoeg van (ik probeer me beetje in te lezen). Ik wilde vooral aankaarten dat deze groep artikelen bestaat, waar een A toch wel twee treden te hoog is. Daarbij heb ik hierboven inderdaad al wellicht teveel ingezoomd op een oplossing. Desalniettemin lijkt het me op lange termijn een interessant vraagstuk. Dajasj (overleg) 31 mei 2021 15:15 (CEST)Reageren

Is het productief om vast een lijstje te maken met sjablonen die een beoordeling negatief, dan wel positief zouden kunnen beïnvloeden? Ciell need me? ping me! 31 mei 2021 21:12 (CEST)Reageren

Ik denk het wel! Ik denk overigens dat ^[bron?] al een negatieve impact heeft op de beoordeling van een pagina! De beoordeling van een pagina daalde namelijk na toevoegen van twee van die sjablonen. Dajasj (overleg) 6 jun 2021 18:08 (CEST)Reageren

Sjablonen die de waardering verhogen of verlagen[brontekst bewerken]


Sjabloonnaam	hogere waarde	lagere waarde	opmerkingen & handtekening
{{NPOV}}		x	Ciell need me? ping me!
{{references}}	x		En alle andere bronsjablonen. Ciell need me? ping me!
{{Twijfel}}		x	Ciell need me? ping me!
{{bron?}}		x	Dajasj (overleg)
{{bijwerken}}		x	Dajasj (overleg) Geïnspireerd door Encycloon
{{Wikify}}		x	Mvg, TheDragonhunter \| Vragen?‍ 20 jun 2021 18:44 (CEST)Reageren
{{infobox}}	x?		Ciell need me? ping me! 20 jun 2021 19:35 (CEST)Reageren
{{wanneer?}}		x	PAvdK (overleg) 25 okt 2021 11:47 (CEST)Reageren
{{bijwerken}}		x	PAvdK (overleg) 25 okt 2021 11:47 (CEST)Reageren
{{twijfel-gedeelte}}		x	PAvdK (overleg) 25 okt 2021 11:47 (CEST)Reageren

Voel je vrij om er meer toe te voegen! Ciell need me? ping me! 10 jun 2021 18:25 (CEST)Reageren

Hi @Dajasj:, tav je toevoeging van {{bron?}}: betekent 1 bronvraag in een artikel voor jou dat het hele artikel een klasse lager gescoord moet worden? Ik had hem eerst ook in gedachten, maar koos uiteindelijk toch alleen voor de sjablonen die een waardering geven over het hele artikel in plaats van bij een of misschien twee feiten. Hoe zie jij dat? Ciell need me? ping me! 19 jun 2021 21:47 (CEST)Reageren

Hey @Ciell:, ik vroeg me inderdaad al af waarom je het weggelaten had! Ik volg je redenering en ben het op zich wel met je eens. Maar als we de invloed (expliciet of door training) beetje kunnen beperken, lijkt het me wel fijn. Ik kan me voorstellen dat (in orde van grootte) 0.05 omlaag voor elke bronvraag bijvoorbeeld wel redelijk is? Bij een etalageartikel zou ik zeggen dat een bronvraag op lange termijn wel problematisch is namelijk. En zoals ik hierboven al aangaf, in de praktijk heeft de bronvraag eigenlijk nu al een negatief effect van die orde van grootte. Dus het is eigenlijk niet iets om later meer toe te voegen.. Dajasj (overleg) 19 jun 2021 21:53 (CEST)Reageren

Ahja, dat snap ik inderdaad ook wel ja. Ik zal even kijken of ik nu de tabel met 100 artikelen kan overzetten, dan kunnen jullie vanavond al beginnen met beoordelen als je wilt. Ciell need me? ping me! 19 jun 2021 22:37 (CEST)Reageren

Ik heb er na dinsdag tijd voor, dus haast je voor mij niet vanavond alsjeblieft :p Dajasj (overleg) 19 jun 2021 22:38 (CEST)Reageren

Opmerking ORES kan ook getraind worden op bepaalde woorden zoals we ook gebruiken voor edit-filters, zoals bijvoorbeeld woorden uit een lijst van relatieve tijdsaanduidingen. Dit is dan het effect: [1]. Ciell need me? ping me! 24 jul 2021 21:36 (CEST)Reageren

Set van 100 artikelen om testen[brontekst bewerken]

Laatste bericht: 2 jaar geleden2 berichten1 persoon in discussie

Hallo allemaal!

We hebben afgelopen donderdag een (random) selectie gemaakt van 100 artikelen, 20 per klasse, die we graag ter beoordelingen aan jullie voor willen leggen. Zijn de beoordelingen door ORES correct, en indien niet: waarom niet? Opmerkingen kunnen onder de artikellink gegeven worden. Zie hier voor de lijst!

Vriendelijke groet, Ciell need me? ping me! 19 jun 2021 22:49 (CEST)Reageren

(vriendelijke ping naar @Encycloon, Sylhouet, TheBartgry, Spinster, Dajasj, Bas dehaan, DimiTalen: omdat zij dit aan hadden gegeven op de projectpagina) Ciell need me? ping me! 19 jun 2021 22:49 (CEST)Reageren

A?[brontekst bewerken]

Laatste bericht: 2 jaar geleden2 berichten2 personen in discussie

Diplomatieke betrekkingen tussen Japan en ASEAN is een item op de lijst Ruwe diamanten en behoorde dus tot de B klasse wat ik ook al overdreven vindt aangezien het artikel niet meer up tot date is sinds 2007. Daarnaast heeft het dus een rating van A terwijl de artikelen in de lijst van ruwe diamanten de basis vormde voor categorie B. Themanwithnowifi (overleg) 20 jun 2021 17:14 (CEST)Reageren

ORES zal uit zichzelf niet kunnen zien hoe actueel een artikel is, maar ik heb er nu in ieder geval dit sjabloon boven gezet. Encycloon (overleg) 20 jun 2021 17:40 (CEST)Reageren

Tussenstand[brontekst bewerken]

Laatste bericht: 2 jaar geleden1 bericht1 persoon in discussie

Dank jullie wel voor de feedback op het trainingssysteem. Dankzij jullie hulp is er waarschijnlijk een bug gevonden waardoor de waarderingen op basis van het referentie-sjabloon mislopen, en dit wordt nu aangepast in de code voor alle wiki's. Daarna wordt ORES voor nl-wp ook verder aangepast onder meer op basis van de sjablonen die hierboven verzameld zijn. Dit zou het systeem beter af moeten stemmen en de uitslagen accurater moeten maken. Ik houd jullie op de hoogte waar ik kan: voor geïnteresseerden is het mogelijk om te abonneren op het phabricator ticket en de voortgang van de ontwikkelaars te volgen. Ciell need me? ping me! 9 jul 2021 08:48 (CEST)Reageren

Tussenkopjes/Lege pagina[brontekst bewerken]

Laatste bericht: 2 jaar geleden2 berichten1 persoon in discussie

Ik heb een vermoeden dat als je meerdere kopjes toevoegt dat de kwaliteit zogezegd naar boven gaat ook al is het niet beter dan als je er een witregel zou tussen plaatsen. Iemand die dat kan testen? Themanwithnowifi (overleg) 25 jul 2021 08:53 (CEST)Reageren

Hoe geeft een lege pagina een D (2.4)? Het zijn uitzonderlingen maar toch. Themanwithnowifi (overleg) 14 aug 2021 14:22 (CEST)Reageren

Uitslag van de labelcampagne okt 2021[brontekst bewerken]

Laatste bericht: 2 jaar geleden4 berichten3 personen in discussie

Hallo allemaal,

Bedankt voor de hulp bij deze labelcampagne, er zijn enkele interessante dingen naar voren gekomen.

Voor de set van 100 artikelen was er een willekeurige selectie gemaakt van 25x een D-artikel, 50x een C-artikel en 25x een B-artikel - scores volgens de ORES b-versie, dus nog niet dus de versie die hier op de pagina ontwikkeld wordt (=c-versie). Deze 100 artikelen zijn door 3 personen per artikel beoordeeld, en er kwam de volgende uitslag uit:

41 E

40 D

16 C

2 B

We kozen voor de drie middenklasses D/C/B omdat deze het moeilijkste waren om te duiden. Toch is de meerderheid van de artikelen (81 van de 100) ingeschaald in D of E. De volledige uitslag voor alle 100 artikelen is hier te inden. Graag zou ik aan de hand van twee voorbeelden uit de C-artikelengroep een vraag willen voorleggen:

Anduze
- ORES voorspelt: C
- Drie verschillende labels: E, D, en C
- De voorgestelde criteria zeggen: het kan geen C of D zijn zonder een bron.
Criollo (paard)
- ORES voorspelt: C
- Twee D labels en een C label
- De voorgestelde criteria zeggen: het kan geen C of D zijn zonder een bron.

Kijkend naar deze uitslagen, denken jullie dat de 'geen bron-voorwaarde' (beide voorbeeldartikelen hebben geen bron) in de C-versie van de kwaliteitsschaal juist is? Of moet deze misschien versoepeld worden aangezien beide artikelen van redelijke lengte zijn en dus de E categorie overstijgen?

Persoonlijk snap ik dat dit de meest wenselijke situatie is ("alles boven E heeft minimaal 1 bron"), maar veel van onze bronvermeldingen werden in de afgelopen 20 jaar ook gedaan op manieren die (nog) niet door machines leesbaar zijn. Ze was het hier jaren gebruikelijk om de bron vermelding in de bewerkingssamenvatting te doen, of onder een kopje "externe links" je bronnen te noemen. Dit is voor ORES niet te lezen, en ik ben met de hulp van Valhallasw wel bezig om in ieder geval die bronnen uit de bewerkingsgeschiedenis zichtbaar in het artikel te gaan krijgen, maar zover is het nog niet.

Is, met dit in het achterhoofd, het dan terecht om het systeem nu al te trainen met een dergelijke kwaliteitseis, of is dat een aanpassing die we kunnen gaan doen als al die bronvermeldingen nagelopen en leesbaar zijn, èn als de gemeenschap consensus kent dat een bron per artikel in ieder geval zéér gewenst is? De laatste peiling hierover uit 2020 is an sich veelbelovend, maar moet nog grondig gepolijst worden. Ciell need me? ping me! 24 okt 2021 18:12 (CEST)Reageren

Beste Ciell, veel dank voor de uitslag. Van de 100 B-C-D-lemma's werden er dus door de analisten liefst 41 in de E-categorie geplaatst, van de 50 C-lemma's bleven er in deze categorie nog maar 16 over, en van de 25 B-lemma's nog maar 2. Dat is een dramatische uitkomst voor de kwaliteit van ORES. Blijkbaar kan dat systeem zijn eigen voorwaarden niet beoordelen of het deugt sowieso niet. Wat betreft je vragen over de lemma's Anduze en Criollo. Lastig hoor! In elk geval lijkt het mij niet dat we moeten gaan veronderstellen dat er toch ergens bronnen zijn geplaatst, zonder dat we dat zeker weten. Ik heb vlug gekeken en ik denk dat het lemma Criollo een samenvatting is van het Engelstalige lemma, dat mogelijk ook weer een vertaling is van een andere WP-versie. Enfin, mijn dringend verzoek zou in elk geval zijn om voor nu van de ORES-weergave een opt-in te maken. Dat lijkt mij vooralsnog de enige conclusie uit de labelcampagne, evenals uit de reacties op de projectpagina bij de andere lemma's. HT (overleg) 25 okt 2021 00:30 (CEST)Reageren

Als aanvulling nog iets over de ORES-kwalificaties voor de A-kwaliteit. Een lemma als Neutraal Moresnet kreeg als onafhankelijke dwergstaat een kwalificatie A 4,67. Het was echter geen onafhankelijke dwergstaat; het was niet eens een land. Nadat ik er tal van grove inhoudelijke fouten uithaalde, steeg de waardering met 0,05 punt. Het lemma Beleg van Leiden (1573-1574) was met een waardering van A 4,72 voor een groot deel in lijdende vorm geschreven, terwijl de ORES-voorwaarden zeggen dat je alleen een A-kwaliteit kunt krijgen als het lemma voornamelijk in actieve vorm geschreven is. Dan heb ik het nog niet over de talrijke inhoudelijke fouten in dit lemma. Het meeste werd verholpen, maar de waardering bleef hetzelfde. Feitelijk geven beide voorbeelden aan dat het voor een ORES-kwalificatie niets uitmaakt of er wel of geen feitelijke onjuistheden in een lemma staan, maar dat is niet de indruk die de lezer zal hebben van de omschrijving "Kwaliteitsinschatting door ORES". HT (overleg) 25 okt 2021 11:35 (CEST)Reageren

Ik denk dat je inderdaad niet kunt verwachten van een machine learning systeem dat het feitelijke juistheid beoordeelt. Hooguit kun je een voorspelling proberen te doen op basis van zaken die vaak gepaard gaan met feitelijke onjuistheden (als een artikel veel spelfouten bevat, zou het best wel eens ook inhoudelijke fouten kunnen bevatten. Als het slecht is uitgewerkt als artikel, idem dito. etc.). Wat dat betreft kunnen we denk ik beter wat realistisch zijn in wat je van zo'n systeem verwacht. ORES kun je hopelijk na goed trainen van verwachten dat het een goede voorspelling doet van kwaliteit, die iemand die totaal geen kaas heeft gegeten van het onderwerp, maar wel ervaren is op Wikipedia, ook zou maken. Ik zou eigenlijk zelf liever spreken van 'volwassenheid' van een artikel, dan van kwaliteit: alle kenmerken die we hebben besproken geven vooral aan dat er goed naar een artikel is gekeken in de loop van de tijd.

Ik ben het er eigenlijk ook wel mee eens dat deze score niet bijster geschikt is voor de lezer. Het is vooral een visualisatie. ORES voorspelt diverse karakteristieken, waaronder of een bewerking waarschijnlijk teruggedraaid wordt, een artikel verwijderd zou worden etc - het is vooral bedoeld om tools en processen te ondersteunen. Die tools kunnen dan potentiële probleemgevallen naar boven laten drijven, maar er moet altijd een menselijke controle op plaatsvinden. Er is nog flink wat werk aan de winkel, maar ik vind de resultaten vooralsnog bemoedigend. Het is wel duidelijk dat het Engelse systeem niet een-op-een op de Nederlandstalige Wikipedia past, en dat we onderling misschien ook nog wat werk te verzetten hebben om op een lijn te komen met betrekking tot wat voor score een artikel 'verdient'. Bedankt aan iedereen die hieraan meewerkt! -- Effeietsanders (overleg) 26 okt 2021 07:50 (CEST)Reageren

Invloed plaatjes;)[brontekst bewerken]

Laatste bericht: 2 jaar geleden14 berichten6 personen in discussie

Als u ontevreden bent over de score van uw artikel: doe er een stel plaatjes bij. Zojuist uitgetest met Olargues: zonder plaatjes 2,67, met deze 5 plaatjes 3,04. Tel uit je 0,37 punt winst.;) MartinD (overleg) 28 okt 2021 17:22 (CEST)Reageren

O, het viel mij juist op dat plaatjes niet zo'n sterk effect hebben. Maar op zich goed dat afbeeldingen leiden tot hoger cijfer! Dajasj (overleg) 28 okt 2021 17:36 (CEST)Reageren

Gepaste foto's toevoegen mag wel een positief effect hebben, maar een galerij met minimale bijschriften is nu niet bepaald een indicator van kwaliteit, toch? DimiTalen 29 okt 2021 08:39 (CEST)Reageren

Zo slecht vond ik deze toevoeging niet :'( Dajasj (overleg) 29 okt 2021 08:43 (CEST)Reageren

Zeker niet! Ik bedoel vooral: het lijkt me niet juist dat toevoegingen van afbeeldingen automatisch als positief beoordeeld worden. Soms zijn ze dat, maar soms niet. DimiTalen 29 okt 2021 09:42 (CEST)Reageren

Ik beoogde dit niet als aansporing om artikelen vol te duwen met plaatjes die slechts zijdelings met het onderwerp te maken hebben. ;) Ik wilde slechts mijn bevindingen met u delen. MartinD (overleg) 29 okt 2021 10:23 (CEST)Reageren

En terecht! :-) DimiTalen 29 okt 2021 10:28 (CEST)Reageren

Als je over je ORES-score ontevreden bent, kan je ook gewoon lorem-ipsumtekst toevoegen. Dat gebeurde bijvoorbeeld in het lemma Ernst Joachim Förster, dat geschreven werd voor de Schrijfwedstrijd van 2020. In de volgende versie had het lemma een waardering van D 2,45 (hier). Na het toevoegen van een flinke lading lorem ipsum steeg die meteen naar C 2,65 (hier). Dat geeft aan dat het niet uitmaakt waarover en wat je schrijft. Zolang het maar extra tekst is. Dat maakt het ORES-beoordelingssysteem feitelijk nutteloos en zelfs belachelijk. HT (overleg) 31 okt 2021 08:03 (CET)Reageren

Gelukkig zijn er altijd wikipedianen die deze onzin weer weghalen, dus van 'feitelijk nutteloos en zelfs belachelijk' is dan geen sprake meer. Sprongen in ORES-beoordeling moeten wel steeds bekeken worden. PAvdK (overleg) 31 okt 2021 09:33 (CET)Reageren

@PAvdK: Kan je ingaan op de stelling dat om de ORES-waarden te verhogen, dat je dan tekst kan toevoegen, waarvan het niet uitmaakt of die inhoudelijk klopt? En dat dit ORES-systeem dus geen waarde heeft, want dáár gaat het om. HT (overleg) 31 okt 2021 09:41 (CET)Reageren

Ik zie dat teksten, die minder goed zijn tot onzin, meestal redelijk snel worden geïdentificeerd en meestal ook snel gecorrigeerd. ORES werkt dan in samenwerking met het menselijk oog. Correcte en zinvolle teksten zullen door ORES vast wel redelijk goed beoordeeld kunnen worden. Als ik b.v. in een ongestructureerde lap tekst de boel orden m.b.v. tussenkopjes, dan heb ik alweer ca. 0,01 pt gewonnen - dat is natuurlijk wel erg weinig (niet significant zou ik zelfs zeggen), maar het systeem nodigt wel uit tot verbeteringen, bijvoorbeeld met plaatjes met toelichting. Maar er zijn natuurlijk ook situaties waar het niet werkt. Hopelijk is daar wat aan te doen door niet-nederlandse tekst te negeren. PAvdK (overleg) 31 okt 2021 09:51 (CET)Reageren

Om de discussie nog verder te verlevendigen ;) : ik kan niet zien dat een extra plaatje een vaste waarde heeft qua score. Bij volgende scoreophoogpogingen constateerde ik dat er per plaatje slechts 0,02 punt winst werd gemaakt. Tja. MartinD (overleg) 31 okt 2021 12:02 (CET)Reageren

Hi! Ik vind het leuk dat jullie zo diep op het ophogen en verlagen van de ORES scores ingaan, en wil jullie zeker niet hierin ontmoedigen. Maar het hele ontleden hiervan is niet het doel van de labelcampagne, noch van de kwaliteitsschaal. Ik ben mijn presentatie over AI en Wikipedia aan het voorbereiden voor de WikiConNL op 13 november en zal daar ingaan op hoe ORES vanaf volgend jaar over zal gaan op Lift Wing. De getrainde data en een afgestemd kwaliteitsmodel gaat daarin van groot nut zijn want zullen komend jaar worden overgezet, maar de scores die jullie nu zien zijn enkel de uitkomst van deze data en het kwaliteitsmodel dat ervoor ligt, en zullen er in Lift Wing naar waarschijnlijk (mijn aanname) anders uit gaan zien.

Nogmaals: ik wil jullie zeker niet ontmoedigen om mee te denken, maar het zou zonde zijn om energie te steken in het ontleden van de uitkomsten op dit moment. Die energie zou wel heel erg welkom zijn bij essentiële vragen die er voorliggen, zoals of bronnen wel echt nodig zijn om een artikel in te schalen in de D-categorie en hoger, of dat we onszelf dan voor de gek houden omdat dit helemaal niet de huidige standaard is, en enkel een wens voor de toekomst is (zie hierboven in het kopje #Uitslag van de labelcampagne okt 2021).

Een ander punt waar jullie ons kunnen helpen, hoewel geen artikelkwaliteit maar wel kwaliteit van bewerkingen, is in de discussie op de ochtend van 13 november over welke model cards de voorkeur hebben volgens onze Nederlandstalige gemeenschap. Welk uitgangspunt moet AI nemen bij bewerkingen: liever "uitgaan van goede wil", of moet de meetlat vooral "heel streng" zijn en moet alles wat ook maar een beetje schade aan zou kunnen richten opgepikt worden door de software? Waar ligt volgens jou het kantelpunt?

Zou het voor nu helpend zijn als ik de sectie "vreemde eenden" zou sluiten/archiveren, zodat duidelijk is dat daar voor nu de focus niet ligt? Iets soortgelijks komt dan later wel weer terug, als de ontwikkelaars weer meer in willen gaan zoomen op de scores en de uiteindelijke output. Ciell need me? ping me! 31 okt 2021 13:45 (CET)Reageren

Dank voor je toelichting. De sectie "vreemde eenden" zou ik zeker laten staan, aangezien het voor de lezer en Wikipedianen duidelijk moet zijn waar verbeteringen nodig zijn, als die al mogelijk zijn. Inmiddels zijn we zeker al 1,5 jaar aan het testen, zonder dat er naar mijn mening van enige serieuze kwaliteitsinschaling sprake is. Zicht daarop is er evenmin. Ik blijf er daarom bij om de ORES-waarderingscijfers als een opt-in weer te geven. Wikipedia dient zichzelf namelijk serieus te nemen. HT (overleg) 31 okt 2021 14:10 (CET)Reageren