funny/ и siberian/ -- работа с корпусами звучащей речи [http://spokencorpora.ru/], соответственно "Весёлые истории из жизни" и "Рассказы сибиряков о жизни"
- Выгрузка данных (текстов корпусов) --
collecting_data.py, результаты выгрузки --funny/stories_funиsiberian/stories_sib - Обработка тестов с элементами минимальной дискурсивной транскрипции --
speech_parsing.py, результаты обработки --funny/parsed_funиsiberian/parsed_sib - Лемматизация обработанных текстов, отбор нестандартных слов для интерпретации --
speech_lemmatization.py, результаты лемматизации --funny/lemmatization_funиsiberian/lemmatization_sib - Подход с интерпретацией нестандартных слов с помощью сравнения векторных представлений слов из словаря модели с векторным представлением предложенного слова (нерабочий) --
close_meaning_words.ipynb - Подход с подбором модели слова, наиболее подходящего вместо [MASK] --
mask_word_prediction.ipynb
Примеры работы -- work_examples/ !! УСТАРЕВШИЕ, смотрите блокноты

