Экспериментальный проект по созданию моделей для машинного предсказания результатов выборов в Беларуси. Пока проект ограничивается данными о выборах в нижнюю палату парламента.
В папке doc_original находятся оригинальные сообщения из архива Центральной комиссии Республики Беларусь по выборам о регистрации кандидатов в депутаты Палаты представителей и об итогах выборов в 2000 (2 тура), 2004, 2008 и 2012 годах.
Данные о зарегистрированных кандидатах кампании 2016 года опубликуют в начале августа. До объявления официальных итогов выборов у нас будет месяц времени на предсказания.
Набор данных train.csv содержит информацию о зарегистрированных кандидатах на выборах 2000 и 2004 годов, а также данные о кандидатах 2000 года, которые стали депутатами. Предлагается обсудить структуру набора train.csv: какие поля добавить, убрать и т.д. После обсуждения добавим данные за другие годы.
- region: регион, в котором расположен избирательный огруг
- okrug: название и номер избирательного округа (данные не до конца нормализованы, возможны разночтения по названиям округов)
- text: исходный текст с данными о кандидате (из этого поля извлекались данные для нижеследующих полей)
- born: год рождения
- deputat: является ли депутатом ПП НС на момент участия в кампании
- party: партийная принадлежность
- fio: ФИО (здесь тоже есть разночтения, например, фамилия одного и того же человека пишется по-разному в списке кандидатов и списке прошедших в парламент депутатов)
- pol: пол
- year: год, в котором проводилась избирательная кампания
- status: избран или не избран депутатом по итогам выборов
Последнее поле status - главное для всей затеи с предсказанием. Оно заполнено для кампании 2000 года (1 - избран, 0 - не избран). Задача - попробовать заполнить это поле для кампании 2004 года. Или собрать больше данных и проверить модель на данных 2012 года, чтобы подойти к кампании 2016 года во всеоружии.