Datasets:

bond005
/

sova_rudevices

Tasks:

Automatic Speech Recognition

Audio Classification

Languages: Russian

Multilinguality: monolingual

Size Categories: 10K<n<100k

Language Creators: crowdsourced

Annotations Creators: expert-generated

Source Datasets: extended

License: cc-by-4.0

Dataset card Files Files and versions Community

Dataset Viewer (First 5GB)

Auto-converted to Parquet

Go to dataset viewer

Viewer

audio audio	transcription string
	"мне получше стало"
	"ой у меня тоже есть гифка"
	"ну да так просто"
	"а то что-то это микрософт студию её сделала блять уже полтора часа играю ты думаешь блять и мне очень пиздец как интересно"
	"просто игристый вызывает меня"
	"проверка распознавания"
	"надо кушать"
	"мы включили просто английский режим и на английском языке"
	"ещё сука нос заложило обе ноздри ну пиздец вообще блин как меня все бесит"
	"в два миллиона рублей"
	"павлова тамара владимировна"
	"там просто неизбежно засвестишь"
	"жизненное жалобы ну излагай"
	"туда тренироваться"
	"ну вокруг нее столько блять всего это вот все крутится блять"
	"зачем нужен хлеб нарезка если самому можно взять и нарезать этот хлеб"
	"типа домашку"
	"а что вообще происходит с клиентами с клиентами клиентов"
	"спасибо"
	"один два три четыре пять шесть"
	"нас много общего и мне он очень нравится"
	"то и общей работоспособности она тоже повышается"
	"она с ним не встречается блядь она по сути в компании никто"
	"да можно"
	"ну типа да это то что я позавчера заказывала вот"
	"на берегу стояли частные домики"
	"меня какой то хач докопался вот потом я выкинула в ч потом он стал писать федя как он на него вышел я не понимаю на самом деле вот и короче там"
	"здесь можно вырастить"
	"аа"
	"тебе сколько лет"
	"сам спровоцировал блядь теперь на хуй сам и держись"
	"хотя бы голосом бы что сказала"
	"соответственно я их аттестовала"
	"нет-нет да федя а кто такой федя ебать"
	"можешь мне ссылку кинуть"
	"пока эта зависимость проявлялась то есть я не представлял себе день без минимум два литра пива вот просто"
	"спасибо большое кто меня поздравил"
	"каролинке просто вдвоём друг другу да ни о чем"
	"кисель типа это"
	"коле написала тимуру написала"
	"мы тебя быстро научим"
	"и такое ощущение что мы знакомы вообще просто триста лет это как я разговариваю например с тобой"
	"похудеть похудение начинается с похода в магазин типа"
	"конечно окупится у них за два года"
	"ну так получилось короче"
	"нехуй делать как бы сказать так"
	"как дела"
	"вот это конечно нежданчик что ты загугли и тебя выдаёт"
	"они лучше в таких делах разбираются"
	"ну какбы опыт есть да"
	"возможно временно откажется от визитов в клуб"
	"ты о телефоне тоже не забываешь"
	"пол района"
	"все нас отпустили я свободен я свободен словно в небе журавель"
	"привет"
	"в плане того что"
	"блядь подожди а чем дальше говоришь все может лучше подожди сейчас я в другую комнату уйду"
	"уже по юридической"
	"магазины без нас ничто ну почти также как мы без магазинов"
	"этот зеленского но за порошенко"
	"любовь тепло и забота"
	"у меня нахуй с этими блядь отходами самый блядь длинный день кажется"
	"по поводу работы там нашего поддаваться ну ты же учишься на программиста ты сейчас на программист да там выпадало как новый сфера"
	"и в эту же секунду у вас появиться свой личный кабинет на сайте орифлейм где и будет расти и процветать ваш бизнес нашей поддержки и помощью"
	"это ожидание быстрых результатов то есть не зря здесь нарисованы девушки"
	"ай блять даже не хочу с ним связываться этот чувак это типа бывший кгбшник какой-то"
	"ленина семьдесят девять"
	"и"
	"что у нас там было по нему"
	"то есть"
	"ии всякой фигней занималась здесь конечно я бля ей сразу сказал хочешь чатик я тебе сделаю чатик сама его раскручивай"
	"во-первых я тогда"
	"опа нихуя"
	"я же тоже всё это помню и знаешь я ценю ценю тот момент что ты никуда это не вынес никому не рассказал ты же можешь как дарыф конченная ебать она даже въебаться не может"
	"понимаешь весь"
	"к сожалению этого нет у меня только одна жвачка настя будешь"
	"характер самого человека"
	"я начала"
	"легче будет совместить во-первых то что выложила она"
	"вот так вот возьму и умру"
	"сейчас ещё не знаю что делать типа если я увольняюсь сейчас"
	"как у тебя делишечки у меня что-то прям вообще меня короче не знаю я короче нашёл в холодильнике я не знаю сколько ей лет"
	"цвет"
	"сразу говорю когда отдам не знаю"
	"что вы молчите а"
	"но для этих негров тут больше манголов"
	"три года увеличилась вдвое"
	"прочитал ответил"
	"не хорошая раса я ей поиграл да она вообще нерентабельна ей мало кто играет"
	"и стоит она на шесть или на семь тысяч дороже в таком случае но"
	"и ей вроде бы тоже но там типа"
	"понимаю спасибо"
	"эти люди которые мне посоветовали к нему подойти"
	"видимо я не знала"
	"теперь пей гинкоум чтобы умнее стать ну или хотя бы память вернуть немножко"
	"этого жёсткого диска"
	"вообще без понятия"
	"попал всё-таки на"
	"очень рада видеть вас на нашем первом марафоне и хочу сказать"
	"есть у меня копия или то есть куда мне надо зайти чтобы это увидеть"

Dataset Card for sova_rudevices

Dataset Summary

SOVA Dataset is free public STT/ASR dataset. It consists of several parts, one of them is SOVA RuDevices. This part is an acoustic corpus of approximately 100 hours of 16kHz Russian live speech with manual annotating, prepared by SOVA.ai team.

Authors do not divide the dataset into train, validation and test subsets. Therefore, I was compelled to prepare this splitting. The training subset includes more than 82 hours, the validation subset includes approximately 6 hours, and the test subset includes approximately 6 hours too.

Supported Tasks and Leaderboards

automatic-speech-recognition: The dataset can be used to train a model for Automatic Speech Recognition (ASR). The model is presented with an audio file and asked to transcribe the audio file to written text. The most common evaluation metric is the word error rate (WER). The task has an active Model Database leaderboard which can be found at https://huggingface.co/spaces/huggingface/hf-speech-bench. The leaderboard ranks models uploaded to the Hub based on their WER.

Languages

The audio is in Russian.

Dataset Structure

Data Instances

A typical data point comprises the audio data, usually called audio and its transcription, called transcription. Any additional information about the speaker and the passage which contains the transcription is not provided.

{'audio': {'path': '/home/bond005/datasets/sova_rudevices/data/train/00003ec0-1257-42d1-b475-db1cd548092e.wav',
  'array': array([  0.00787354,  0.00735474,  0.00714111, ...,
                   -0.00018311, -0.00015259, -0.00018311]), dtype=float32),
  'sampling_rate': 16000},
 'transcription': 'мне получше стало'}

Data Fields

audio: A dictionary containing the path to the downloaded audio file, the decoded audio array, and the sampling rate. Note that when accessing the audio column: dataset[0]["audio"] the audio file is automatically decoded and resampled to dataset.features["audio"].sampling_rate. Decoding and resampling of a large number of audio files might take a significant amount of time. Thus it is important to first query the sample index before the "audio" column, i.e. dataset[0]["audio"] should always be preferred over dataset["audio"][0].
transcription: the transcription of the audio file.

Data Splits

This dataset consists of three splits: training, validation, and test. This splitting was realized with accounting of internal structure of SOVA RuDevices (the validation split is based on the subdirectory 0, and the test split is based on the subdirectory 1 of the original dataset), but audio recordings of the same speakers can be in different splits at the same time (the opposite is not guaranteed).

	Train	Validation	Test
examples	81607	5835	5799
hours	82.4h	5.9h	5.8h

Dataset Creation

Curation Rationale

[Needs More Information]

Source Data

Initial Data Collection and Normalization

[Needs More Information]

Who are the source language producers?

[Needs More Information]

Annotations

Annotation process

All recorded audio files were manually annotated.

Who are the annotators?

[Needs More Information]

Personal and Sensitive Information

The dataset consists of people who have donated their voice. You agree to not attempt to determine the identity of speakers in this dataset.

Considerations for Using the Data

Social Impact of Dataset

[More Information Needed]

Discussion of Biases

[More Information Needed]

Other Known Limitations

[Needs More Information]

Additional Information

Dataset Curators

The dataset was initially created by Egor Zubarev, Timofey Moskalets, and SOVA.ai team.

Licensing Information

Creative Commons BY 4.0

Citation Information

@misc{sova2021rudevices,
  author = {Zubarev, Egor and Moskalets, Timofey and SOVA.ai},
  title = {SOVA RuDevices Dataset: free public STT/ASR dataset with manually annotated live speech},
  publisher = {GitHub},
  journal = {GitHub repository},
  year = {2021},
  howpublished = {\url{https://github.com/sovaai/sova-dataset}},
}