Classification of texts on emergency situations in Almaty
DOI:
https://doi.org/10.31643/2023/6445.36Ключевые слова:
машинное обучение, классификация текстов, метод опорных векторов, логистическая регрессия, KNN, NLP, предобработка, чрезвычайные ситуации.Аннотация
Классификация текстов — это процесс, включающий в себя этапы и подходы для эффективной классификации разновидных по своей структуре текстов. В данной статье реализуются алгоритмы машинного обучения, такие как метод опорных векторов, логистическая регрессия, метод k ближайших соседей для классификации текстов собранных с новостных сайтов по чрезвычайным ситуациям г. Алматы. В ходе эксперимента особую роль играл этап сбора данных, а также их последующая обработка. Перед классификацией набора данных производилась предварительная обработка данных, которая включает в себя такие этапы как удаление стоп-слов, токенизация, стемминг, лемматизация, извлечение признаков, построение векторов признаков. Данные были получены с помощью автоматизированного сбора информации из открытых источников с помощью скрипта. Экспериментальные результаты показывают, что классификатор на основе логистической регрессии обеспечивает наилучшие результаты производительности по сравнению с другими видами алгоритмов. Были получены показатели эффективности каждого алгоритма, что дает нам выполнить сравнительный анализ между ними.