Common Voice

Uit Wikipedia, de vrije encyclopedie
Common Voice
Logo
voorbeeld met Engels
Ontwikkelaar(s) Mozilla Foundation
Uitgebracht 19 juni 2017 (6 jaar)
Recentste versie 1.87.0[1] 
(11 januari 2023)
Status Actief
Licentie(s) Creative Commons CC0
Website Projecpagina NL
Portaal  Portaalicoon   Informatica
Vrije software

Common Voice is een crowdsourcingproject gestart door Mozilla om een gratis en publiek toegankelijke database voor spraakherkenningssoftware te maken. Het project wordt ondersteund door vrijwilligers die voorbeeldzinnen opnemen met een microfoon en opnames van andere gebruikers beluisteren en verifiëren. De uitgeschreven zinnen worden verzameld in een spraakdatabase die beschikbaar is onder de publieke domeinlicentie CC0. Deze licentie zorgt ervoor dat ontwikkelaars de database zonder beperkingen of kosten kunnen gebruiken voor spraak-naar-tekst-toepassingen. In het Nederlands taalgebied worden het Nederlands en Fries ondersteund.

Common Voice is daarmee een reactie op de taalassistenten van commerciële bedrijven zoals Amazon Echo, Siri of Google Assistant.

Spraakdataset[bewerken | brontekst bewerken]

De Engelse Common Voice-database is de tweede grootste vrij toegankelijke spraakdatabase na LibriSpeech. Tegen de tijd dat de eerste gegevens op 29 november 2017 werden gepubliceerd, hadden meer dan 20.000 gebruikers wereldwijd 400.000 gevalideerde zinnen geregistreerd, met een totale lengte van 500 uur.[2]

In februari 2019 werd de eerste reeks talen vrijgegeven voor gebruik. Dit omvatte 18 talen: Engels, Frans, Duits en Mandarijn Chinees, maar ook minder gangbare talen als Welsh en Kabyle. In totaal omvatte dit bijna 1400 uur opgenomen spraakgegevens van meer dan 42.000 bijdragers.[3]

Nederlands[bewerken | brontekst bewerken]

De Nederlandse spraakgegevensset van december 2020 bevat 60 uur aan gevalideerde spraak van 1012 verschillende stemmen. Het overgrote deel is van Nederlandse mannen, terwijl Vlamingen, Surinamers, ouderen en vrouwen op dit moment nog ondervertegenwoordigd zijn.[4]

Fries[bewerken | brontekst bewerken]

De Friese spraakgegevensset van december 2020 bevat 14 uur aan gevalideerde spraak van 467 verschillende stemmen. In samenwerking met Hogeschool van Amsterdam en de Rijksuniversiteit Groningen Campus Fryslân werd een taalwedstrijd georganiseerd om spraakfragmenten te verzamelen[5]. Van die fragmenten komt een meerderheid van Friese vrouwen.[6] De dataset Fries van 21-09-2022 geeft een percentageverdeling aan van 47% mannelijk en 11% vrouwelijk.

Externe link[bewerken | brontekst bewerken]

Commons heeft mediabestanden in de categorie Common Voice.