Classification of texts on emergency situations in Almaty

Авторы

  • M.Y. Andirov Казахский национальный университет им. аль-Фараби
  • Zh.Zh. Assan Казахский национальный университет им. аль-Фараби
  • S. Nopembri Джокьякартский государственный университет
  • A.M. Seilkhan Актюбинский государственный университет имени К.К. Жубанова
  • D.E. Myrzakhmetov Казахский национальный университет им. аль-Фараби

DOI:

https://doi.org/10.31643/2023/6445.36

Ключевые слова:

машинное обучение, классификация текстов, метод опорных векторов, логистическая регрессия, KNN, NLP, предобработка, чрезвычайные ситуации.

Аннотация

Классификация текстов — это процесс, включающий в себя этапы и подходы для эффективной классификации разновидных по своей структуре текстов. В данной статье реализуются алгоритмы машинного обучения, такие как метод опорных векторов, логистическая регрессия, метод k ближайших соседей для классификации текстов собранных с новостных сайтов по чрезвычайным ситуациям г. Алматы.  В ходе эксперимента особую роль играл этап сбора данных, а также их последующая обработка. Перед классификацией набора данных производилась предварительная обработка данных, которая включает в себя такие этапы как удаление стоп-слов, токенизация, стемминг, лемматизация, извлечение признаков, построение векторов признаков. Данные были получены с помощью автоматизированного сбора информации из открытых источников с помощью скрипта.  Экспериментальные результаты показывают, что классификатор на основе логистической регрессии обеспечивает наилучшие результаты производительности по сравнению с другими видами алгоритмов. Были получены показатели эффективности каждого алгоритма, что дает нам выполнить сравнительный анализ между ними.

Скачивания

Данные скачивания пока недоступны.

Биографии авторов

M.Y. Andirov, Казахский национальный университет им. аль-Фараби

Магистрант 2 курс, компьютерные науки, факультет информационных технологий, КазНУ имени аль-Фараби, г. Алматы, Казахстан.  

Zh.Zh. Assan, Казахский национальный университет им. аль-Фараби

Магистрант 2 курс, компьютерные науки, факультет информационных технологий, КазНУ имени аль-Фараби, г. Алматы, Казахстан.  

S. Nopembri, Джокьякартский государственный университет

Профессор Джокьякартского государственного университета, Джокьякарта, Индонезия.

A.M. Seilkhan, Актюбинский государственный университет имени К.К. Жубанова

Магистрант 2 курс, информатика и информационные технологии, физико-математический факультет, Актюбинский РУ им. К.Жубанова, г. Актобе, Казахстан.

D.E. Myrzakhmetov, Казахский национальный университет им. аль-Фараби

Магистрант 2 курс, компьютерные науки, факультет информационных технологий, КазНУ имени аль-Фараби, г. Алматы, Казахстан.  

Загрузки

Опубликован

2023-01-31

Как цитировать

Andirov, M., Assan, Z., Nopembri, S., Seilkhan, A., & Myrzakhmetov, D. (2023). Classification of texts on emergency situations in Almaty . Kompleksnoe Ispolzovanie Mineralnogo Syra, 327(4), 23–31. https://doi.org/10.31643/2023/6445.36