Datasets:
id
int32
1
1.51k
| num_samples
int32
43.7k
758k
| path
string
| audio
audio
| transcription
string
| raw_transcription
string
| gender
class label
2 classes
| lang_id
class label
1 classes
| language
string
| lang_group_id
class label
1 classes
|
---|---|---|---|---|---|---|---|---|---|
766 | 72,960 | null | "families met kinders is nie 'n algemene verskynsel nie maar party koshuise laat hulle in privaat kamers toe" | "Families met kinders is nie βn algemene verskynsel nie, maar party koshuise laat hulle in privaat kamers toe." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
22 | 52,320 | null | "hsieh het ook geredeneer dat die fotogeniese ma meer styl as inhoud was" | "Hsieh het ook geredeneer dat die fotogeniese Ma meer styl as inhoud was." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
361 | 182,400 | null | "die volgende prent toon die atome wat protone afgee natuurlik is protone in die regte lewe baie kleiner as in die prent" | "Die volgende prent toon die atome wat protone afgee. Natuurlik is protone in die regte lewe baie kleiner as in die prent." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
1,340 | 242,880 | null | "dit was op hierdie tyd dat die oordrag van die titel van modehoofstad van konstantinopel na parys gemaak is" | "Dit was op hierdie tyd dat die oordrag van die titel van Modehoofstad van Konstantinopel na Parys gemaak is." | 0
(male) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
1,469 | 66,240 | null | "gosling en stone het nominasies vir onderskeidelik beste akteur en beste aktrise ontvang" | "Gosling en Stone het nominasies vir, onderskeidelik, Beste Akteur en Beste Aktrise ontvang." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
481 | 58,080 | null | "op die trekklavier gebruik jy die blaasbalk met meer krag of spoed,om ekstra volume te kry" | "Op die trekklavier, gebruik jy die blaasbalk met meer krag of spoed,om ekstra volume te kry." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
840 | 102,720 | null | "gegewend hoe afgelee baie van die pueblos is sal jy nie in staat wees om 'n beduidende naglewe te kry sonder om na albuquerque of sante fe toe te reis nie" | "Gegewend hoe afgelee baie van die pueblos is, sal jy nie in staat wees om βn beduidende naglewe te kry sonder om na Albuquerque of Sante Fe toe te reis nie." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
344 | 91,680 | null | "verlede week het naked news aangekondig dat hulle die internasionale tale mandaat vir nuusberiggewing dramaties gaan verhoog met drie nuwe uitsendings" | "Verlede week, het Naked News aangekondig dat hulle die internasionale tale mandaat vir nuusberiggewing dramaties gaan verhoog, met drie nuwe uitsendings." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
371 | 67,680 | null | "hierdie plante lyk soos 'n klein palmboom met 'n kroon skerp stekelrige blare" | "Hierdie plante lyk soos βn klein palmboom met βn kroon skerp, stekelrige blare." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
1,409 | 389,760 | null | "vandat die federale regering ingetree het om die befondsing van die mersey hospitaal in devonport tasmania oor te neem het die staatsregering en sommige federale mps die aksie gekritiseer as 'n foefie in die aanloop tot die federale verkiesing wat in november besluit word" | "Vandat die Federale Regering ingetree het om die befondsing van die Mersey hospitaal in Devonport, Tasmania oor te neem, het die staatsregering en sommige federale MPs die aksie gekritiseer as βn foefie in die aanloop tot die federale verkiesing wat in November besluit word." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
1,074 | 76,320 | null | "oorblyfsels van dreinsisteme is gevind in huise van die minoΓ―ese stede krete en santorini in griekeland" | "Oorblyfsels van dreinsisteme is gevind in huise van die MinoΓ―ese stede Krete en Santorini in Griekeland." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
70 | 366,720 | null | "die groep het die opvoering by maui's oorlog gedenkteken stadion gekanselleer wat gereed was om deur 9,000 mense bygewoon te word en het aan bewonderaars om verskoning gevra" | "Die groep het die opvoering by Mauiβs Oorlog Gedenkteken Stadion gekanselleer wat gereed was om deur 9,000 mense bygewoon te word, en het aan bewonderaars om verskoning gevra." | 0
(male) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
403 | 249,600 | null | "duikbote is in wΓͺreldoorlog i en wΓͺreldoorlog ii gebruik op daardie stadium was hulle baie stadig en het 'n baie beperkte skietvaardigheid gehad" | "Duikbote is in WΓͺreldoorlog I en WΓͺreldoorlog II gebruik. Op daardie stadium was hulle baie stadig en het βn baie beperkte skietvaardigheid gehad." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
1,291 | 255,360 | null | "die gemeenskap se irritasie het gelei tot die huidige pogings om 'n beleid op te stel aangaande seksuele inhoud vir webwerf wat miljoene openlik-gelisensieerde media huisves" | "Die gemeenskap se irritasie het gelei tot die huidige pogings om βn beleid op te stel aangaande seksuele inhoud vir webwerf wat miljoene openlik-gelisensieerde media huisves." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
809 | 160,320 | null | "nogtans is daar baie kenmerkende maniere van koffie drink regoor die wΓͺreld wat die moeite werd is om te ervaar" | "Nogtans is daar baie kenmerkende maniere van koffie drink regoor die wΓͺreld wat die moeite werd is om te ervaar." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
1,132 | 158,400 | null | "japannese werksetiek is meer hierargies en formeel as waaraan westerlikes gewoond aan mag wees" | "Japannese werksetiek is meer hierargies en formeel as waaraan Westerlikes gewoond aan mag wees." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
1,261 | 79,200 | null | "werkplek harmonie is noodsaaklik met die klem op groeppoging eerder as om individuele prestasies te prys" | "Werkplek harmonie is noodsaaklik, met die klem op groeppoging eerder as om individuele prestasies te prys." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
1,269 | 187,200 | null | "vreemd genoeg is die selfoondiens hier beter as baie ander dele van die roete bv die pennsylvania wilds" | "Vreemd genoeg, is die selfoondiens hier beter as baie ander dele van die roete, bv. die Pennsylvania Wilds." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
109 | 120,000 | null | "die kapsel sal nes 'n verskietende ster lyk wat deur die lug gaan" | "Die kapsel sal nes βn verskietende ster lyk wat deur die lug gaan." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
1,479 | 65,760 | null | "goud kan in allerande soorte vorms bewerk word dit kan ook gerol word in klein vormpies" | "Goud kan in allerande soorte vorms bewerk word. Dit kan ook gerol word in klein vormpies." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
1,417 | 100,800 | null | "het die geallieΓ«rdes gefaal sou duitsland heel moontlik in staat wees om brittanje te oorwin aangesien dit die res van europa kon oorwin" | "Het die GeallieΓ«rdes gefaal, sou Duitsland heel moontlik in staat wees om Brittanje te oorwin aangesien dit die res van Europa kon oorwin." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
1,259 | 86,880 | null | "die wiel het die wΓͺreld in ongelooflike maniere verander die grootste ding wat die wiel vir ons gegee het is baie makliker en vinniger vervoer" | "Die wiel het die wΓͺreld in ongelooflike maniere verander. Die grootste ding wat die wiel vir ons gegee het is baie makliker en vinniger vervoer." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
927 | 209,280 | null | "indien 'n hommeltuig gebruik word moet daar vooraf bevestig word wat jy toegelaat is om te verfilm en watse permitte of addisionele lisensies benodig word" | "Indien βn hommeltuig gebruik word, moet daar vooraf bevestig word wat jy toegelaat is om te verfilm en watse permitte of addisionele lisensies benodig word." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
350 | 61,440 | null | "wetenskaplikes werk om 'n reaktor te skep wat energie op dieselfde manier opwek" | "Wetenskaplikes werk om 'n reaktor te skep wat energie op dieselfde manier opwek." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
1,029 | 129,600 | null | "βn ander verskil was dat terwyl die arm mense en die vrou hul kos eet terwyl hul in stoele sit,die ryk mans dit verkies het om bankette saam te hou waar hul op hul sye lΓͺ en hul maaltye eet" | "βn Ander verskil was dat terwyl die arm mense en die vrou hul kos eet terwyl hul in stoele sit,die ryk mans dit verkies het om bankette saam te hou waar hul op hul sye lΓͺ en hul maaltye eet." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
650 | 127,680 | null | "danksy ondersee se veseloptiese kabelskakels na europa en breΓ«band satellite is groenland goed verbind met 93% van die bevolking wat toegang het tot die internet" | "Danksy ondersee se veseloptiese kabelskakels na Europa en breΓ«band satellite, is Groenland goed verbind met 93% van die bevolking wat toegang het tot die internet." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
1,276 | 120,960 | null | "'n dokter wat gewerk het by die kinderhospitaal van pittsburg pennsylvaniΓ« sal met 'n verergde graad van moord aangekla word na haar moeder dood in die kattebak van haar kar gevind is op woensdag sΓͺ owerhede in ohio" | "n Dokter wat gewerk het by die Kinderhospitaal van Pittsburg, PennsylvaniΓ« sal met 'n verergde graad van moord aangekla word na haar moeder dood in die kattebak van haar kar gevind is op Woensdag - sΓͺ owerhede in Ohio." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
454 | 167,040 | null | "interaktiewe ontwerp vereis dat komponente met mekaar verbind maar kan ook sin maak as 'n aparte entiteit" | "Interaktiewe ontwerp vereis dat komponente met mekaar verbind, maar kan ook sin maak as βn aparte entiteit." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
1,410 | 91,200 | null | "hulle kan ook die besprekings hou vir jou indien jy tyd nodig het om te dink oor die aanbod of om ander dokumente te kry vir jou bestemming bv visa" | "Hulle kan ook die besprekings hou vir jou indien jy tyd nodig het om te dink oor die aanbod of om ander dokumente te kry vir jou bestemming (bv visa)." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
375 | 216,000 | null | "βn persoon wat om en by 200 pond 90kg op aarde weeg sou 36 pond 16kg op io weeg. so die swaartekrag trek dus minder aan jou" | "βn Persoon wat om en by 200 pond (90kg) op Aarde weeg, sou 36 pond (16kg) op Io weeg. So die swaartekrag trek dus minder aan jou." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
1,106 | 113,280 | null | "inhoudsteorieΓ« is gesentreer rondom wat mense motiveer of behaag" | "InhoudsteorieΓ« is gesentreer rondom wat mense motiveer of behaag." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
1,494 | 164,160 | null | "voor-operatiewe transseksuele mense moet nie verwag om deur die skandeerders te gaan met hulle privaatheid en waardigheid ongeskonde nie" | "Voor-operatiewe transseksuele mense moet nie verwag om deur die skandeerders te gaan met hulle privaatheid en waardigheid ongeskonde nie." | 0
(male) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
406 | 155,520 | null | "as gevolg van hul sukses met duikbote word duitsers na die oorlog nie het nie" | "As gevolg van hul sukses met duikbote, word Duitsers na die oorlog nie het nie." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
909 | 182,400 | null | "die media maatskappye lieg gereeld oor die doel hiervan en meld dat dit is om kaping te voorkom" | "Die media maatskappye lieg gereeld oor die doel hiervan, en meld dat dit is om "kaping te voorkom"." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
66 | 87,840 | null | "protesteerders hoop om 'n petisie van 1.2 miljoen handtekeninge te versamel om aan die nasionale kongres in november voor te lΓͺ" | "Protesteerders hoop om βn petisie van 1.2 miljoen handtekeninge te versamel om aan die Nasionale Kongres in November voor te lΓͺ." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
944 | 132,480 | null | "om in 'n ander land te woon en vrywilligerswerk te doen is 'n wonderlike manier om 'n ander kultuur te leer ken nuwe mense te ontmoet jouself te leer ken 'n gevoel van perspektief te kry en selfs nuwe vaardighede te leer" | "Om in βn ander land te woon en vrywilligerswerk te doen is βn wonderlike manier om βn ander kultuur te leer ken, nuwe mense te ontmoet, jouself te leer ken, βn gevoel van perspektief te kry en selfs nuwe vaardighede te leer." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
1,336 | 168,000 | null | "hamilton het bevestig die pasiΓ«nt is opgeneem in 'n stabile kondise in howard university hospital" | "Hamilton het bevestig die pasiΓ«nt is opgeneem in βn stabile kondise in Howard University Hospital." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
1,110 | 188,160 | null | "huhne en pryce sal na verwagting op 16 februarie in die westminster-landdroshof verskyn" | "Huhne en Pryce sal na verwagting op 16 Februarie in die Westminster-landdroshof verskyn." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
952 | 126,720 | null | "jy moet jou gereelde vliegpunte lugredery in 'n alliansie versigtig kies" | "Jy moet jou Gereelde Vliegpunte lugredery in βn alliansie versigtig kies." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
1,327 | 75,840 | null | "ski toere hierdie aktiwiteit kan ook binnelandse ski ski toer of ski stap genoem word" | "Ski toere: Hierdie aktiwiteit kan ook binnelandse ski, ski toer of ski stap genoem word." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
1,369 | 113,760 | null | "curtis cooper 'n wiskundige en rekenaarwetenskap professor by die universiteit van sentrale missouri het die grootste bekende priem getal tot op datum ontdek op die 25ste januarie" | "Curtis Cooper, βn wiskundige en rekenaarwetenskap professor by die Universiteit van Sentrale Missouri, het die grootste bekende priem getal tot op datum ontdek op die 25ste Januarie." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
165 | 88,800 | null | "dit is toegewys aan die v.s. vloot se sewende vloot en is gebaseer in sasebo nagasaki in japan" | "Dit is toegewys aan die V.S. Vloot se Sewende Vloot en is gebaseer in Sasebo, Nagasaki in Japan." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
1,440 | 80,640 | null | "die mutasieproses voeg nuwe genetiese variasie by en seleksie verwyder dit van die poel van uitgedrukte variasie" | "Die mutasieproses voeg nuwe genetiese variasie by, en seleksie verwyder dit van die poel van uitgedrukte variasie." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
962 | 112,800 | null | "in 1994 het die etniese armeense nagorno-karabakh streek van azerbaijan oorlog gevoer teen die aseris" | "In 1994, het die etniese Armeense Nagorno-Karabakh streek van Azerbaijan oorlog gevoer teen die Aseris." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
551 | 211,200 | null | "sommige landloop wedlope gedurende die winter gekombineer met gimnasium werk vir jou bolyf is die beste voorbereiding vir die hardloop seisoen" | "Sommige landloop wedlope gedurende die winter, gekombineer met gimnasium werk vir jou bolyf, is die beste voorbereiding vir die hardloop seisoen." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
347 | 142,080 | null | "mense het die vensterpanele met stoele geslaan maar die vensters was onbreekbaar" | "Mense het die vensterpanele met stoele geslaan, maar die vensters was onbreekbaar." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
923 | 100,800 | null | "terwyl die meeste kaarte goed is om na enige plek te bel spesialiseer sommiges met meer gunstige oproepkoste na spesifieke groepe lande" | "Terwyl die meeste kaarte goed is om na enige plek te bel, spesialiseer sommiges met meer gunstige oproepkoste na spesifieke groepe lande." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
703 | 100,800 | null | "jou paspoort moet vir ten minste 6 maande na jou reisdatums geldig wees. βn retoer/verdere rit kaartjie is nodig om die lengte van jou verblyf te bewys" | "Jou paspoort moet vir ten minste 6 maande na jou reisdatums geldig wees. βn Retoer/verdere rit kaartjie is nodig om die lengte van jou verblyf te bewys." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
398 | 189,120 | null | "hulle het 'n swakker weermag en 'n swakker vloot gehad alhoewel hulle vier nuwe skepe gebou het net voor die oorlog begin het" | "Hulle het βn swakker weermag en βn swakker vloot gehad, alhoewel hulle vier nuwe skepe gebou het net voor die oorlog begin het." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
148 | 92,640 | null | "die hoeveelheid gesamentlike yahoo en microsoft dienste gebruikers sal kan meeding met die hoeveelheid aol kliente" | "Die hoeveelheid gesamentlike Yahoo! en Microsoft dienste gebruikers sal kan meeding met die hoeveelheid AOL kliente." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
444 | 76,800 | null | "agtien persent van venezolane is werkloos en meeste wat werk word in die informele ekonomie in diens geneem" | "Agtien persent van Venezolane is werkloos, en meeste wat werk word in die informele ekonomie in diens geneem." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
1,027 | 91,680 | null | "pleegsorg is veronderstel om al die noodsaaklikhede te bied wat in die tuiste van waar hulle voorheen geneem is geskort het" | "Pleegsorg is veronderstel om al die noodsaaklikhede te bied wat in die tuiste van waar hulle voorheen geneem is, geskort het." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
21 | 192,000 | null | "hsieh het gedurende die verkiesing geΓ―mpliseer dat ma uit die land in 'n tyd van mag vlug" | "Hsieh het gedurende die verkiesing geΓ―mpliseer dat Ma uit die land in βn tyd van mag vlug." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
1,439 | 210,240 | null | "boks jellievis verskyn naby strande en naby riviermondings vanaf oktober tot april noord van 1770 hulle kan by geleentheid buite hierdie tye gevind word" | "Boks jellievis verskyn naby strande en naby riviermondings vanaf Oktober tot April noord van 1770. Hulle kan by geleentheid buite hierdie tye gevind word." | 0
(male) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
1,421 | 360,960 | null | "qing dinastie 1644 β 1912 magte het in 1683 beheer geneem van taiwan se westelike en noordelike kus areas en taiwan as n provinsie van die qing ryk in 1885 verklaar" | "Qing dinastie (1644 β 1912) magte het in 1683 beheer geneem van Taiwan se westelike en noordelike kus areas en Taiwan as n provinsie van die Qing Ryk in 1885 verklaar." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
935 | 92,160 | null | "raadpleeg die instansie sowel as die immigrasie departement vir die land waarin jy graag wil studeer vir die gedetaileerde vereistes" | "Raadpleeg die instansie, sowel as die immigrasie departement vir die land waarin jy graag wil studeer vir die gedetaileerde vereistes." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
665 | 66,240 | null | "om te reis na walt disney world verteenwoordig 'n groot pelgrimsreis vir baie amerikaanse families" | "Om te reis na Walt Disney World verteenwoordig βn groot pelgrimsreis vir baie Amerikaanse families." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
620 | 137,280 | null | "terwyl ons geluister het na individue wat hul individuele familie en organisatoriese stories vertel het het ons waardevolle insigte in die verlede bekom en sommige van die persoonlikhede wat die kultuur van die organisasie ten goede of kwade beΓ―nvloed het" | "Terwyl ons geluister het na individue wat hul individuele, familie, en organisatoriese stories vertel het, het ons waardevolle insigte in die verlede bekom en sommige van die persoonlikhede wat die kultuur van die organisasie ten goede of kwade beΓ―nvloed het." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
1,065 | 124,800 | null | "vir australiΓ«rs is die idee van 'plat wit' koffie uitheems. 'n kort swart is 'espresso' cappuccino word met room opgehoop voorgesit nie skuim nie en tee word sonder melk bedien" | "Vir AustraliΓ«rs is die idee van 'plat wit' koffie uitheems. 'n Kort swart is 'espresso', cappuccino word met room opgehoop voorgesit (nie skuim nie), en tee word sonder melk bedien." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
1,250 | 84,960 | null | "die 35mm formaat is eintlik ietwat verwarrend 36mm breed en 24mm hoog" | "Die 35mm formaat is eintlik, ietwat verwarrend, 36mm breed en 24mm hoog." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
25 | 157,440 | null | "hy het 2 doele en 2 assistente in washington se 5-3 oorwining teen die atlanta thrashers gehad" | "Hy het 2 doele en 2 assistente in Washington se 5-3 oorwining teen die Atlanta Thrashers gehad." | 0
(male) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
51 | 221,760 | null | "in die laaste 3 maande is meer as 80 gearresteerdes vrygelaat van die sentrale aanhoudingsfasiliteit sonder dat hulle formeel aangekla is" | "In die laaste 3 maande is meer as 80 gearresteerdes vrygelaat van die Sentrale Aanhoudingsfasiliteit sonder dat hulle formeel aangekla is." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
798 | 78,240 | null | "indien jy met βn skootrekenaar of tablet reis stoor βn kopie in die hardeskyf of op βn skyfie toeganklik sonder die internet" | "Indien jy met βn skootrekenaar of tablet reis, stoor βn kopie in die hardeskyf of op βn skyfie (toeganklik sonder die internet)." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
53 | 344,640 | null | "die kommissaris stel 'n borgtog vas en indien dit toegeken word word dit geformaliseer en die klagtes in die lΓͺer opgeteken word deur die arrestasiebeampte die klagte word dan op die staat se rekenaarsisteem ingesleutel waar die saak nagespoor word" | "Die kommissaris stel βn borgtog vas, en indien dit toegeken word, word dit geformaliseer en die klagtes in die lΓͺer opgeteken word deur die arrestasiebeampte. Die klagte word dan op die staat se rekenaarsisteem ingesleutel waar die saak nagespoor word." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
352 | 58,560 | null | "die staal naald dryf bo-op die water as gevolg van die oppervlak-spanning" | "Die staal naald dryf bo-op die water as gevolg van die oppervlak-spanning." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
412 | 108,000 | null | "pyle van hul dodelike kruisboΓ« kon die pantser van mededingende soldate deurboor om en by 1000 v.c. het die assiriΓ«rs die eerste ruitery bekend gestel" | "Pyle van hul dodelike kruisboΓ« kon die pantser van mededingende soldate deurboor. Om en by 1000 V.C., het die AssiriΓ«rs die eerste ruitery bekend gestel." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
1,366 | 59,520 | null | "kleiner toernooie en wedstryde kan ook hier gesien word ten ander tye van die jaar" | "Kleiner toernooie en wedstryde kan ook hier gesien word ten ander tye van die jaar." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
19 | 87,360 | null | "daar was wΓͺreldwyd proteste verskeie kriminele vervolgings en die leiers van die regerings van ysland en pakistan het beide bedank" | "Daar was wΓͺreldwyd proteste, verskeie kriminele vervolgings, en die leiers van die regerings van Ysland en Pakistan het beide bedank." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
317 | 138,240 | null | "hy was ook voorheen van kopieregskending beskuldig maar is nie vervolg nie" | "Hy was ook voorheen van kopieregskending beskuldig, maar is nie vervolg nie." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
102 | 197,760 | null | "van woensdag middag af het die drom luggate nog steeds gelek waarskynlik as gevolg van termiese uitsetting binne die drom" | "Van Woensdag middag af, het die drom luggate nog steeds gelek waarskynlik as gevolg van termiese uitsetting binne die drom." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
991 | 67,200 | null | "die mure en dakke van ysgrotte kan inmekaarval en skeure kan toegaan" | "Die mure en dakke van ysgrotte kan inmekaarval en skeure kan toegaan." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
1,387 | 88,320 | null | "vir sommige musiekfeeste besluit die grootste hoeveelheid van die bywoners om op die terrein te kampeer en die meeste sien dit as 'n noodsaaklike deel van die ondervinding" | "Vir sommige musiekfeeste besluit die grootste hoeveelheid van die bywoners om op die terrein te kampeer, en die meeste sien dit as βn noodsaaklike deel van die ondervinding." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
306 | 95,520 | null | "japanese judoka hitoshi saito wat die wenner was van twee olimpiese goue medaljes het op die ouderdom van 54 gesterf" | "Japanese judoka Hitoshi Saito, wat die wenner was van twee Olimpiese goue medaljes, het op die ouderdom van 54 gesterf." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
1,429 | 114,720 | null | "hoekom kweek vervoerstelsels sulke klagtes hoekom faal dit op 'n daaglikse basis is vervoer ingeneurs net onbevoeg of is iets meer fundamenteel aan die gang" | "Hoekom kweek vervoerstelsels sulke klagtes, hoekom faal dit op βn daaglikse basis? Is vervoer ingeneurs net onbevoeg? Of is iets meer fundamenteel aan die gang?" | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
730 | 91,680 | null | "bowen-eiland is populΓͺr vir 'n dag of naweek-uitstappie en bied kajak-ritte staproetes winkels restaurante en meer" | "Bowen-eiland is populΓͺr vir βn dag- of naweek-uitstappie en bied kajak-ritte, staproetes, winkels, restaurante en meer." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
105 | 122,880 | null | "hulle sluit in finansiΓ«le beperkings en 'n verbieding deur die europese unie op die uitvoer van ru-olie van waar af die iraniese ekonomie 80% van sy buitelandse inkomste ontvang" | "Hulle sluit in finansiΓ«le beperkings en βn verbieding deur die Europese Unie op die uitvoer van ru-olie, van waar af die Iraniese ekonomie 80% van sy buitelandse inkomste ontvang." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
784 | 98,880 | null | "wilde lewe-fotografie vereis dikwels 'n lang telefoto lens alhoewel goed soos 'n swerm voΓ«ls of 'n piepklein kreatuurtjie ander lense benodig" | "Wilde lewe-fotografie vereis dikwels βn lang telefoto lens, alhoewel goed soos βn swerm voΓ«ls of βn piepklein kreatuurtjie ander lense benodig." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
324 | 205,440 | null | "die tropiese storm danielle die vierde genoemde storm van die 2010 atlantiese orkaanseisoen het in die oos atlantiese oseaan gevorm" | "Die tropiese storm Danielle, die vierde genoemde storm van die 2010 Atlantiese orkaanseisoen, het in die oos Atlantiese Oseaan gevorm." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
442 | 87,360 | null | "die thais het cambodia verskeie kere ingeval in die 18e eeu en in 1772 het hulle phnom phen vernietig" | "Die Thais het Cambodia verskeie kere ingeval in die 18e eeu en in 1772 het hulle Phnom Phen vernietig." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
844 | 132,480 | null | "ongewensde muurskilderye of krabbels staan bekend as graffitti" | "Ongewensde muurskilderye of krabbels staan bekend as graffitti." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
1,107 | 237,120 | null | "dit maak nie saak hoe mak hulle voorkom nie buffels takbokke amerikaanse takbokke bere en amper alle groot diere kan aanval" | "Dit maak nie saak hoe mak hulle voorkom nie, buffels, takbokke, Amerikaanse takbokke, bere en amper alle groot diere kan aanval." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
519 | 51,840 | null | "die menslike hand is korter as die voet met phalankse wat meer reguit is" | "Die menslike hand is korter as die voet, met phalankse wat meer reguit is." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
247 | 135,360 | null | "sedert pakistani onafhanklikheid van britse oorheersing in 1947 het die pakistani president politiese agente aangestel om die fata te regeer wat byna-totale outonome beheer oor die areas uitvoer" | "Sedert Pakistani onafhanklikheid van Britse oorheersing in 1947, het die Pakistani President βPolitiese Agenteβ aangestel om die FATA te regeer, wat byna-totale outonome beheer oor die areas uitvoer." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
471 | 85,440 | null | "die magsbalans was 'n sisteem waarin europese nasies gepoog het om die nasionale soewereiniteit van alle europese state te behou" | "Die magsbalans was βn sisteem waarin Europese nasies gepoog het om die nasionale soewereiniteit van alle Europese state te behou." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
72 | 128,160 | null | "die beroemde griekse prokureurs sakis kechagioglou en george nikolakopoulos is opgesluit in die ateniese tronk van korydallus want hulle is skuldig bevind aan verduistering en korrupsie" | "Die beroemde Griekse prokureurs, Sakis Kechagioglou en George Nikolakopoulos is opgesluit in die Ateniese tronk van Korydallus, want hulle is skuldig bevind aan verduistering en korrupsie." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
1,395 | 168,000 | null | "jou plaaslike telefoon-diensverskaffer behoort jou meer inligting te kan gee aangaande die aansluiting by die diens" | "Jou plaaslike telefoon-diensverskaffer behoort jou meer inligting te kan gee aangaande die aansluiting by die diens." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
656 | 55,200 | null | "koue weer is dalk die enigste gevaar wat onvoorbereides sal tegemoetkom" | "Koue weer is dalk die enigste gevaar wat onvoorbereides sal tegemoetkom." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
8 | 119,520 | null | "die protes het ongeveer 11:00 plaaslike tyd gut+1 op whitehall oorkant die polisie-bewaakte ingang na downing straat die eerste minister se offisiΓ«le tuiste begin" | "Die protes het ongeveer 11:00 plaaslike tyd (GUT+1) op Whitehall oorkant die polisie-bewaakte ingang na Downing Straat, die Eerste Minister se offisiΓ«le tuiste, begin." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
1,003 | 210,240 | null | "daarby maak seker dat jy die r en rr verskillend uitspreek caro beteken liewe en carro beteken strydwa" | "Daarby, maak seker dat jy die r en rr verskillend uitspreek: caro beteken liewe en carro beteken strydwa." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
362 | 87,360 | null | "fotone is selfs kleiner as die goed waaruit atome bestaan" | "Fotone is selfs kleiner as die goed waaruit atome bestaan!" | 0
(male) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
50 | 144,000 | null | "die nieu-seelandse polisie het gesukkel om met hul spoedradar-gewere te sien hoe vinnig mnr reid gery het omdat black beauty so laag is en die enigste tyd wat die polisie daarin geslaag het om mnr reid te meet was toe hy spoed na 160 km/h verminder het" | "Die Nieu-Seelandse polisie het gesukkel om met hul spoedradar-gewere te sien hoe vinnig mnr. Reid gery het omdat Black Beauty so laag is, en die enigste tyd wat die polisie daarin geslaag het om mnr. Reid te meet, was toe hy spoed na 160 km/h verminder het." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
379 | 249,600 | null | "ongeveer drieduisend jaar later in 1610 het 'n italiaanse astronoom galileo galilei 'n teleskoop gebruik om op te merk dat venus fases het nes die maan" | "Ongeveer drieduisend jaar later, in 1610, het βn Italiaanse astronoom Galileo Galilei βn teleskoop gebruik om op te merk dat Venus fases het, nes die maan." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
20 | 98,880 | null | "gebore in hong kong ma het by new york universiteit en harvard regsskool studeer en het op 'n tyd 'n permanente groenkaart vir amerika gehad" | "Gebore in Hong Kong, Ma het by New York Universiteit en Harvard Regsskool studeer en het op βn tyd βn permanente groenkaart vir Amerika gehadβ." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
1,415 | 64,800 | null | "die gotiese styl het sy piek bereik tussen die 10e en 11de eeue en in die 14e eeu" | "Die Gotiese styl het sy piek bereik tussen die 10e en 11de eeue en in die 14e eeu." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
401 | 74,400 | null | "nou vir japan japan was 'n eiland nes britanje" | "Nou vir Japan. Japan was βn eiland, nes Britanje." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
107 | 438,720 | null | "die land se opperhoof ayatollah ali khamenei het die afhanklikheid aan olie beskryf as 'n lokval' gedateer van voor iran se islamitiese revolusie in 1979 en die land moet homself bevry" | "Die land se opperhoof, Ayatollah Ali Khamenei, het die afhanklikheid aan olie beskryf as ββn lokvalβ, gedateer van voor Iran se Islamitiese revolusie in 1979 en die land moet homself bevry." | 0
(male) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
18 | 136,320 | null | "die britse koerant the guardian het aangedui dat die deutsche bank rofweg 'n derde van die 1200 dop maatskappye gebruik om dit te bereik" | "Die Britse koerant, The Guardian, het aangedui dat die Deutsche Bank rofweg βn derde van die 1200 dop maatskappye gebruik om dit te bereik." | 0
(male) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
831 | 96,000 | null | "in sommige oorgrense treine word inspeksies op lopende treine gehou en jy moet 'n geldige id by jou hΓͺ wanneer jy aan een van daardie treine aan boord gaan" | "In sommige oorgrense treine word inspeksies op lopende treine gehou en jy moet βn geldige ID by jou hΓͺ wanneer jy aan een van daardie treine aan boord gaan." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
124 | 114,720 | null | "die v.s. sΓͺ dat dit informasie ontvang het van 'n onbekende bron wat spesifiek meld dat daar gebruik gemaak word van selfmoord-bommers om prominente bakens in ethiopiΓ« en kenia op te blaas" | "Die V.S. sΓͺ dat dit informasie ontvang het van 'n onbekende bron wat spesifiek meld dat daar gebruik gemaak word van selfmoord-bommers om "prominente bakens" in EthiopiΓ« en Kenia op te blaas." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
|
701 | 67,680 | null | "hierdie vereistes is ontwerp om georganiseerde beweging en vloei tussen beide lande te voorsien" | "Hierdie vereistes is ontwerp om georganiseerde beweging en vloei tussen beide lande te voorsien." | 1
(female) | 0
(af_za) | "Afrikaans" | 3
(sub_saharan_african_ssa) |
FLEURS
Fleurs is the speech version of the FLoRes machine translation benchmark. We use 2009 n-way parallel sentences from the FLoRes dev and devtest publicly available sets, in 102 languages.
Training sets have around 10 hours of supervision. Speakers of the train sets are different than speakers from the dev/test sets. Multilingual fine-tuning is used and βunit error rateβ (characters, signs) of all languages is averaged. Languages and results are also grouped into seven geographical areas:
- Western Europe: Asturian, Bosnian, Catalan, Croatian, Danish, Dutch, English, Finnish, French, Galician, German, Greek, Hungarian, Icelandic, Irish, Italian, Kabuverdianu, Luxembourgish, Maltese, Norwegian, Occitan, Portuguese, Spanish, Swedish, Welsh
- Eastern Europe: Armenian, Belarusian, Bulgarian, Czech, Estonian, Georgian, Latvian, Lithuanian, Macedonian, Polish, Romanian, Russian, Serbian, Slovak, Slovenian, Ukrainian
- Central-Asia/Middle-East/North-Africa: Arabic, Azerbaijani, Hebrew, Kazakh, Kyrgyz, Mongolian, Pashto, Persian, Sorani-Kurdish, Tajik, Turkish, Uzbek
- Sub-Saharan Africa: Afrikaans, Amharic, Fula, Ganda, Hausa, Igbo, Kamba, Lingala, Luo, Northern-Sotho, Nyanja, Oromo, Shona, Somali, Swahili, Umbundu, Wolof, Xhosa, Yoruba, Zulu
- South-Asia: Assamese, Bengali, Gujarati, Hindi, Kannada, Malayalam, Marathi, Nepali, Oriya, Punjabi, Sindhi, Tamil, Telugu, Urdu
- South-East Asia: Burmese, Cebuano, Filipino, Indonesian, Javanese, Khmer, Lao, Malay, Maori, Thai, Vietnamese
- CJK languages: Cantonese and Mandarin Chinese, Japanese, Korean
How to use & Supported Tasks
How to use
The datasets
library allows you to load and pre-process your dataset in pure Python, at scale. The dataset can be downloaded and prepared in one call to your local drive by using the load_dataset
function.
For example, to download the Hindi config, simply specify the corresponding language config name (i.e., "hi_in" for Hindi):
from datasets import load_dataset
fleurs = load_dataset("google/fleurs", "hi_in", split="train")
Using the datasets library, you can also stream the dataset on-the-fly by adding a streaming=True
argument to the load_dataset
function call. Loading a dataset in streaming mode loads individual samples of the dataset at a time, rather than downloading the entire dataset to disk.
from datasets import load_dataset
fleurs = load_dataset("google/fleurs", "hi_in", split="train", streaming=True)
print(next(iter(fleurs)))
Bonus: create a PyTorch dataloader directly with your own datasets (local/streamed).
Local:
from datasets import load_dataset
from torch.utils.data.sampler import BatchSampler, RandomSampler
fleurs = load_dataset("google/fleurs", "hi_in", split="train")
batch_sampler = BatchSampler(RandomSampler(fleurs), batch_size=32, drop_last=False)
dataloader = DataLoader(fleurs, batch_sampler=batch_sampler)
Streaming:
from datasets import load_dataset
from torch.utils.data import DataLoader
fleurs = load_dataset("google/fleurs", "hi_in", split="train")
dataloader = DataLoader(fleurs, batch_size=32)
To find out more about loading and preparing audio datasets, head over to hf.co/blog/audio-datasets.
Example scripts
Train your own CTC or Seq2Seq Automatic Speech Recognition models on FLEURS with transformers
- here.
Fine-tune your own Language Identification models on FLEURS with transformers
- here
1. Speech Recognition (ASR)
from datasets import load_dataset
fleurs_asr = load_dataset("google/fleurs", "af_za") # for Afrikaans
# to download all data for multi-lingual fine-tuning uncomment following line
# fleurs_asr = load_dataset("google/fleurs", "all")
# see structure
print(fleurs_asr)
# load audio sample on the fly
audio_input = fleurs_asr["train"][0]["audio"] # first decoded audio sample
transcription = fleurs_asr["train"][0]["transcription"] # first transcription
# use `audio_input` and `transcription` to fine-tune your model for ASR
# for analyses see language groups
all_language_groups = fleurs_asr["train"].features["lang_group_id"].names
lang_group_id = fleurs_asr["train"][0]["lang_group_id"]
all_language_groups[lang_group_id]
2. Language Identification
LangID can often be a domain classification, but in the case of FLEURS-LangID, recordings are done in a similar setting across languages and the utterances correspond to n-way parallel sentences, in the exact same domain, making this task particularly relevant for evaluating LangID. The setting is simple, FLEURS-LangID is splitted in train/valid/test for each language. We simply create a single train/valid/test for LangID by merging all.
from datasets import load_dataset
fleurs_langID = load_dataset("google/fleurs", "all") # to download all data
# see structure
print(fleurs_langID)
# load audio sample on the fly
audio_input = fleurs_langID["train"][0]["audio"] # first decoded audio sample
language_class = fleurs_langID["train"][0]["lang_id"] # first id class
language = fleurs_langID["train"].features["lang_id"].names[language_class]
# use audio_input and language_class to fine-tune your model for audio classification
3. Retrieval
Retrieval provides n-way parallel speech and text data. Similar to how XTREME for text leverages Tatoeba to evaluate bitext mining a.k.a sentence translation retrieval, we use Retrieval to evaluate the quality of fixed-size representations of speech utterances. Our goal is to incentivize the creation of fixed-size speech encoder for speech retrieval. The system has to retrieve the English "key" utterance corresponding to the speech translation of "queries" in 15 languages. Results have to be reported on the test sets of Retrieval whose utterances are used as queries (and keys for English). We augment the English keys with a large number of utterances to make the task more difficult.
from datasets import load_dataset
fleurs_retrieval = load_dataset("google/fleurs", "af_za") # for Afrikaans
# to download all data for multi-lingual fine-tuning uncomment following line
# fleurs_retrieval = load_dataset("google/fleurs", "all")
# see structure
print(fleurs_retrieval)
# load audio sample on the fly
audio_input = fleurs_retrieval["train"][0]["audio"] # decoded audio sample
text_sample_pos = fleurs_retrieval["train"][0]["transcription"] # positive text sample
text_sample_neg = fleurs_retrieval["train"][1:20]["transcription"] # negative text samples
# use `audio_input`, `text_sample_pos`, and `text_sample_neg` to fine-tune your model for retrieval
Users can leverage the training (and dev) sets of FLEURS-Retrieval with a ranking loss to build better cross-lingual fixed-size representations of speech.
Dataset Structure
We show detailed information the example configurations af_za
of the dataset.
All other configurations have the same structure.
Data Instances
af_za
- Size of downloaded dataset files: 1.47 GB
- Size of the generated dataset: 1 MB
- Total amount of disk used: 1.47 GB
An example of a data instance of the config af_za
looks as follows:
{'id': 91,
'num_samples': 385920,
'path': '/home/patrick/.cache/huggingface/datasets/downloads/extracted/310a663d52322700b3d3473cbc5af429bd92a23f9bc683594e70bc31232db39e/home/vaxelrod/FLEURS/oss2_obfuscated/af_za/audio/train/17797742076841560615.wav',
'audio': {'path': '/home/patrick/.cache/huggingface/datasets/downloads/extracted/310a663d52322700b3d3473cbc5af429bd92a23f9bc683594e70bc31232db39e/home/vaxelrod/FLEURS/oss2_obfuscated/af_za/audio/train/17797742076841560615.wav',
'array': array([ 0.0000000e+00, 0.0000000e+00, 0.0000000e+00, ...,
-1.1205673e-04, -8.4638596e-05, -1.2731552e-04], dtype=float32),
'sampling_rate': 16000},
'raw_transcription': 'Dit is nog nie huidiglik bekend watter aantygings gemaak sal word of wat owerhede na die seun gelei het nie maar jeugmisdaad-verrigtinge het in die federale hof begin',
'transcription': 'dit is nog nie huidiglik bekend watter aantygings gemaak sal word of wat owerhede na die seun gelei het nie maar jeugmisdaad-verrigtinge het in die federale hof begin',
'gender': 0,
'lang_id': 0,
'language': 'Afrikaans',
'lang_group_id': 3}
Data Fields
The data fields are the same among all splits.
- id (int): ID of audio sample
- num_samples (int): Number of float values
- path (str): Path to the audio file
- audio (dict): Audio object including loaded audio array, sampling rate and path ot audio
- raw_transcription (str): The non-normalized transcription of the audio file
- transcription (str): Transcription of the audio file
- gender (int): Class id of gender
- lang_id (int): Class id of language
- lang_group_id (int): Class id of language group
Data Splits
Every config only has the "train"
split containing of ca. 1000 examples, and a "validation"
and "test"
split each containing of ca. 400 examples.
Dataset Creation
We collect between one and three recordings for each sentence (2.3 on average), and buildnew train-dev-test splits with 1509, 150 and 350 sentences for train, dev and test respectively.
Considerations for Using the Data
Social Impact of Dataset
This dataset is meant to encourage the development of speech technology in a lot more languages of the world. One of the goal is to give equal access to technologies like speech recognition or speech translation to everyone, meaning better dubbing or better access to content from the internet (like podcasts, streaming or videos).
Discussion of Biases
Most datasets have a fair distribution of gender utterances (e.g. the newly introduced FLEURS dataset). While many languages are covered from various regions of the world, the benchmark misses many languages that are all equally important. We believe technology built through FLEURS should generalize to all languages.
Other Known Limitations
The dataset has a particular focus on read-speech because common evaluation benchmarks like CoVoST-2 or LibriSpeech evaluate on this type of speech. There is sometimes a known mismatch between performance obtained in a read-speech setting and a more noisy setting (in production for instance). Given the big progress that remains to be made on many languages, we believe better performance on FLEURS should still correlate well with actual progress made for speech understanding.
Additional Information
All datasets are licensed under the Creative Commons license (CC-BY).
Citation Information
You can access the FLEURS paper at https://arxiv.org/abs/2205.12446. Please cite the paper when referencing the FLEURS corpus as:
@article{fleurs2022arxiv,
title = {FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech},
author = {Conneau, Alexis and Ma, Min and Khanuja, Simran and Zhang, Yu and Axelrod, Vera and Dalmia, Siddharth and Riesa, Jason and Rivera, Clara and Bapna, Ankur},
journal={arXiv preprint arXiv:2205.12446},
url = {https://arxiv.org/abs/2205.12446},
year = {2022},
Contributions
Thanks to @patrickvonplaten and @aconneau for adding this dataset.
- Downloads last month
- 15,529