podmoskovnik: (mill)
[personal profile] podmoskovnik

Алексей Навальный опубликовал результаты опроса ФБК о голосовании на думских выборах 2016 года в Кемеровской области.

Кемеровская область на этих выборах заняла шестое место по официальной явке с результатом 86.8%, пропустив вперед только Чечню, Карачаево-Черкесию, Кабардино-Балкарию, Тыву и Дагестан и обойдя в первой десятке Северную Осетию и Мордовию, Ингушетию и Тюменскую область. По официальному результату Единой России (77.3%) Кемеровская область тоже в первой десятке (на 8-м месте, впереди Ингушетии и Крыма).

Результаты получились ожидаемые: доля опрошенных, заявивших, что участвовали в выборах, в Кемеровской области оказалась такая же, как во всей России, а доля тех, кто сообщил, что голосовал за Единую Россию, - даже несколько ниже.

В принципе такое исследование надо было сделать давно. Действительно, торчит посередине России густонаселенный регион с очень высокой долей городских жителей (85.7 % - седьмое место среди регионов РФ, больше, чем в Свердловской области), с обыкновенным русскоязычным населением (есть где-то там и мои далекие родственники со столыпинских времен) - а голосует так, как будто там, согласно т. Чурову и ныне присоединившейся к нему т. Памфиловой, царят "восточные традиции", "тейповые связи" и "уважение к старшим". Войны нет, языковых барьеров нет. Изучай - не хочу.

На самом деле, представляется мне, причина кемеровской аномалии в одном человеке - Амане Тулееве, губернаторе региона с 1997 года.

Дело было так. Жил себе поживал обыкновенный среднероссийский регион. Вот как голосовали в Кемеровской области  в 1999 году (имеющиеся данные фрагментарные, но достаточно равномерно распределенные и вполне представительные)


Ничего экстраординарного, явка где-то на 5% ниже среднероссийской.

Но тут, кажется мне, случилась беда (это обещанная конспирология). В 2000-м году дернула Амана Тулеева нелегкая выдвинуться кандидатом на президентских выборах.

Беда выглядела так:


Для сравнения - соседний Красноярский край:


Фактически Тулеев победил в Кемеровской области с таким результатом, с каким в стране победил Путин. Причем победил честно - без астрономических явок, без хвостов в свою пользу на повышенных явках. Просто победил.
Не знаю, какие мысли пришли Тулееву в голову в связи с этой победой, но уже на выборах 2003 года в Кемеровской области заводится характерный хвостик в пользу "Единой России":


Надо сказать, что в те вегетарианские времена такие хвостики за пределами ограниченного числа национальных республик встречались редко, буквально в считанном числе областей (Белгородская, Орловская, Пензенская, Саратовская), и даже в Башкортостане распределение голосов выглядело так:


Но с тех пор пошло-поехало:
2004 год. Пик вокруг явки 62% похож на реальность, остальное выглядит сфабрикованным.


2007 год. Уходим в отрыв (для сравнения можно посмотреть на Красноярский край)

В 2008 году, похоже, просто рисовали 75% (исправлено: 70%) за Медведева (см. узкий пик на левой нижней врезке). По сравнению с соседними регионами явка завышена на 20%, доля Медведева - на 15%. Алгоритм выделения аномальной части принимает рисованные данные за настоящие и обламывается.

В 2011-м еще хуже. Больше половины голосов за ЕР выглядят натянутыми.

В 2012-м, в отличие от многих других регионов, в Кемеровской области притормаживать с рисованием не стали.

Ну и 2016-й, наконец. Тут, похоже, сфабрикованы результаты практически по всем участкам (на реалистичных явках 40-60% остались лишь редкие точки), и опорных данных для выделения аномальной части голосов просто нет. Но оценка в миллион лишних голосов за ЕР на основании сравнения с соседними регионами, приведенная Навальным, представляется реалистичной.

Как минимум один вывод из этой истории стоит сделать. Даже харизматичный лидер, честно выигрывавший выборы, при долгом сидении на одном месте превращается в фальсификатора.

Ну и наконец - если вы дочитали до этого места, картинки голосования по регионам за разные годы можно посмотреть здесь:

https://drive.google.com/open?id=0ByFMnUnpIlrieGNPMGlWTlc2Nmc

Date: 2016-10-14 10:32 am (UTC)
From: [identity profile] barouh.livejournal.com
По поводу 2008 года - да, рисовали, и это первый в истории случай рисования результатов под копирку в русских регионах
Дмитрий Кобак посчитал, что аномально низкая дисперсия там была в следующих ТИКах:

Кемеровская область::Анжеро-Судженская городская (e-23)
Кемеровская область::Киселевская городская (e-14)
Кемеровская область::Ленинск-Кузнецкая городская (e-10)
Кемеровская область::Прокопьевск, Рудничная (e-12)
Кемеровская область::Прокопьевск, Центральная (e-13)
Кемеровская область::Юргинская (e-21)
http://barouh.livejournal.com/422818.html

В моем списке "невероятных совпадений" для выборов 2016
Полысаевская городская
Топкинская
Юргинская городская
Березовская городская
Анжеро-Судженская городская
Мысковская городская
(http://barouh.livejournal.com/422490.html)

(Юргинская и Анжеро-Судженск показывают стабильность)

Date: 2016-10-14 10:52 am (UTC)
From: [identity profile] podmoskovnik.livejournal.com
Спасибо!

Date: 2016-10-14 01:33 pm (UTC)
From: [identity profile] podmoskovnik.livejournal.com
ага, спасибо

Date: 2016-10-14 01:38 pm (UTC)
From: [identity profile] corbulon.livejournal.com
На прошлых областных выборах в Кемерово была все же небольшая, еле видная, но всё же группа УИКов с нормальным поведением критериев, а теперь и ее нет.
Вот так...

Date: 2016-10-14 01:19 pm (UTC)
From: [identity profile] oude-rus.livejournal.com
какая красотища-то в 2000 году!

Date: 2016-10-14 01:25 pm (UTC)
From: [identity profile] podmoskovnik.livejournal.com
Да.
Но беда (или все же катастрофа?).

Date: 2016-10-14 03:54 pm (UTC)
From: [identity profile] oude-rus.livejournal.com
не беда и не катастрофа -- выборы!

Date: 2016-10-14 11:00 pm (UTC)
From: [identity profile] patriot-012.livejournal.com
странно, почему нигде никто не говорит про Татарстан. И на Эхе...Чечня, Башкирия, Алтай...

Date: 2016-10-17 10:50 am (UTC)
From: [identity profile] podmoskovnik.livejournal.com
читайте [livejournal.com profile] dpervukhin, [livejournal.com profile] a_gabdulvaleev
Edited Date: 2016-10-17 10:50 am (UTC)

Date: 2016-10-14 02:07 pm (UTC)
From: [identity profile] barkut0709.livejournal.com
Спасибо, очень наглядная история получается!
Кстати, Кемеровская обл. на 2м месте (после Тывы) среди всех регионов России по % мест ЕР в местном парламенте

https://ru.wikipedia.org/wiki/%D0%9F%D0%B0%D1%80%D0%BB%D0%B0%D0%BC%D0%B5%D0%BD%D1%82%D1%8B_%D1%81%D1%83%D0%B1%D1%8A%D0%B5%D0%BA%D1%82%D0%BE%D0%B2_%D0%A0%D0%BE%D1%81%D1%81%D0%B8%D0%B9%D1%81%D0%BA%D0%BE%D0%B9_%D0%A4%D0%B5%D0%B4%D0%B5%D1%80%D0%B0%D1%86%D0%B8%D0%B8

На местных выборах наверняка тоже весело.

Date: 2016-10-14 02:11 pm (UTC)
From: [identity profile] podmoskovnik.livejournal.com
про местные парламентские выборы есть картинка у corbulon'а по ссылке в комментариях
Edited Date: 2016-10-14 05:10 pm (UTC)

Date: 2016-10-14 10:17 pm (UTC)
From: [identity profile] vvmikhail.livejournal.com
Динамика настроений Тулеева передана отлично. Спасибо!
Есть такое дополнение.Считаю, что с точки зрения отношений региона и центра один параметр - явка - не столь важен, как нормированное произведение явки на голосование за партию власти. Он показывает сколько избирателей проголосовало за ЕР от общего числа избирателей. Например в Кемеровской обл. это произведение 67,18% Но и в Татарстане (замечательное совпадение) столько же 67, 18% ! А вот в Башкортостане только 39,31%.
(Я использовал это в в книге "Республика Татарстан: демократия или суверенитет?" 2004 г. табл. 11, стр. 295)
В 2000 году Кемеровская область имела только 16,3 - последнее место среди всех регионов. Это объясняется тем, что Тулеев был сам кандидатом. А на первом месте Ингушетия (79,2), Татарстан четвертый -54,9.

Date: 2016-10-14 11:10 pm (UTC)
From: [identity profile] lesnoy-volk.livejournal.com
В 2000 году Тулеев шёл на выборы президента не первый и даже не второй раз. Истина где-то сбоку.

Date: 2016-10-17 10:51 am (UTC)
From: [identity profile] podmoskovnik.livejournal.com
Второй. Первый раз в 1991 году, это были другие времена и другие выборы.

Date: 2016-10-17 12:44 pm (UTC)
From: [identity profile] barouh.livejournal.com
Насколько я помню, он еще выдвигался в 1996-м - но снял свою кандидатуру в пользу Зюганова. Некоторое количество голосов в рамках предварительного голосования он успел собрать

Date: 2016-10-15 04:51 am (UTC)
From: [identity profile] vvastanin.livejournal.com
Хотелось бы увидеть детальное описание методики анализа, особенно в контексте "алгоритма выявления аномальной части"

Date: 2016-10-31 06:59 am (UTC)
From: [identity profile] redgaim.livejournal.com
Методы достаточно обычные. Учебник статистики в руки и вперёд. После учебника книжку "У. Маккини. Python и анализ данных" (и учебники и книжка есть на рутрекере). Этого хватит. Не совсем тривиально это то, как непосредственно извлекаются сами данные. Ниже я об этом и спросил.
Edited Date: 2016-10-31 07:01 am (UTC)

Date: 2016-10-19 12:07 pm (UTC)
From: [identity profile] parol6342190.livejournal.com
Большое спасибо за графики по годам с 1999го! Есть парочка вопросов:

1) Будут ли схожие графики по 1995-1996 годам?

2) Не могли бы вы, обновив этот пост или написав новый, указать, какой была реальная явка на выборах за эти последние 17 лет и какие реальные проценты набирали партии?

Date: 2016-10-21 09:51 am (UTC)
From: [identity profile] podmoskovnik.livejournal.com
по 1995 нет данных по участкам, по 1996 нашел, но они заслуживают подробного разбора.

Date: 2016-10-21 11:13 am (UTC)
From: [identity profile] parol6342190.livejournal.com
Ждем с нетерпением 1996, а по 1995 не подойдут ли данные по ТИК?

Date: 2016-10-21 09:23 am (UTC)
From: [identity profile] parol6342190.livejournal.com
Еще интересно было бы взглянуть на подобные графики для московских выборов 2003, 2005, 2009, 2013 годов

Date: 2016-10-21 09:54 am (UTC)
From: [identity profile] podmoskovnik.livejournal.com
про Москву есть фундаментальный разбор в журнале http://nonenoun.livejournal.com/ (заканчивая предпоследним постом).
Картинки для Москвы надо сделать, да.

Date: 2016-10-31 06:55 am (UTC)
From: [identity profile] redgaim.livejournal.com
Сергей, прошу прощения за оффтопик, но вопрос такой. Как Вы получаете цифры ? Сайт избиркома имеет API для извлечения данных ? Или Вы парсите сырой HTML ? Я хотел бы по Вашим мотивам написать статейку для kaggle и заодно попрактиковаться в julia. Ну а начинать подобные статьи надо конечно с получения данных. Вот и спрашиваю.

Date: 2016-10-31 10:41 am (UTC)
From: [identity profile] podmoskovnik.livejournal.com
API нет, приходится разбирать HTML.
Если технически - я сначала обходил все дерево избирательных комиссий по раскрывающимся спискам "нижестоящие избирательные комиссии" начиная с http://www.vybory.izbirkom.ru/region/izbirkom?action=show&global=1&vrn=100100067795849&type=0 (обходится до уровня ТИК), а потом собирал разные отчеты, подставляя в type соответствующие значения (например, type=233 - таблица результатов по пропорциональному списку)

Собранные данные лежат тут: https://drive.google.com/open?id=0ByFMnUnpIlrib0lETWhTNkdZRVk

Date: 2016-10-31 01:05 pm (UTC)
From: [identity profile] redgaim.livejournal.com
Большое спасибо. Значит будем писать парсер. Сами понимаете, лучше дать людям способ самим получить данные, чем ссылаться на кем-то полученные. Сергей, ещё вопрос. Не могли бы Вы вкратце дать мне какую-то программу работ, желательно с темами не исследованными Вами но интересными ? Просто хоть я довольно квалифицированный программист, но с data science никогда не работал. Это моя первая попытка в этом направлении. Поэтому не хотелось бы Вас повторять, но хотелось бы получить подсказку о направлении исследований. Кое что интересное о чём Вы не пишете, я уже прочитал в других блогах. Например про аномально низкие дисперсии. Могли бы и Вы поделиться идеями, которые считаете интересными, но на реализацию которых просто не хватило времени ?

Profile

podmoskovnik: (Default)
podmoskovnik

November 2016

S M T W T F S
  12345
6789101112
13141516171819
2021 2223242526
27282930   

Style Credit

Expand Cut Tags

No cut tags
Page generated Jul. 23rd, 2017 06:50 pm
Powered by Dreamwidth Studios