Skip to content

Интерпретация диалектных слов в российских речевых корпусах

Notifications You must be signed in to change notification settings

captaincod/dialect-words-interpretation

Repository files navigation

Интерпретация диалектных слов в российских речевых корпусах

funny/ и siberian/ -- работа с корпусами звучащей речи [http://spokencorpora.ru/], соответственно "Весёлые истории из жизни" и "Рассказы сибиряков о жизни"

  1. Выгрузка данных (текстов корпусов) -- collecting_data.py, результаты выгрузки -- funny/stories_fun и siberian/stories_sib
  2. Обработка тестов с элементами минимальной дискурсивной транскрипции -- speech_parsing.py, результаты обработки -- funny/parsed_fun и siberian/parsed_sib
  3. Лемматизация обработанных текстов, отбор нестандартных слов для интерпретации -- speech_lemmatization.py, результаты лемматизации -- funny/lemmatization_fun и siberian/lemmatization_sib
  4. Подход с интерпретацией нестандартных слов с помощью сравнения векторных представлений слов из словаря модели с векторным представлением предложенного слова (нерабочий) -- close_meaning_words.ipynb
  5. Подход с подбором модели слова, наиболее подходящего вместо [MASK] -- mask_word_prediction.ipynb

Примеры работы -- work_examples/ !! УСТАРЕВШИЕ, смотрите блокноты

example1 example3

About

Интерпретация диалектных слов в российских речевых корпусах

Topics

Resources

Stars

Watchers

Forks

Packages

No packages published