podmoskovnik: (Default)
[personal profile] podmoskovnik
В связи с многочисленными вопросами о том, где можно взять результаты выборов.

Для текущих выборов:
1. Если вы умеете программировать - открыть эту ссылку и обойти ссылки в заголовках столбцов таблицы и в заголовках столбцов таблиц уровнем ниже. Со страниц второго уровня надо пройти по ссылке "Перейти на сайт избирательной комиссии субъекта Федерации"; откроется таблица с данными по участкам. Из этих таблиц надо собрать данные.
2. Взять готовый массив по ссылкам в http://podmoskovnik.livejournal.com/132050.html (это данные, скачанные [livejournal.com profile] sergey_volkov_a; при желании можно найти еще много других наборов, скачанных разными людьми, но пока ЦИК не объявил данные выборов окончательными, все они примерно равноценны).

Для прошлых выборов:
1. Проделать процедуру, аналогичную предыдущему посту, предварительно выбрав нужные выборы на заглавной странице сайта izbirkom.ru.
2. Взять готовые массивы на сайте "Голоса": http://stat.golos.org/elections (вроде бы сейчас сайт работает). Данные скачаны автоматически и, возможно, требуют проверки.
2. Взять готовые массивы на сайте Независимого института выборов: http://www.vibory.ru/election.htm. Эти данные скачивал я и более-менее проверял.

У кого есть другие ссылки и способы - делитесь.

Date: 2011-12-08 09:15 pm (UTC)
From: [identity profile] gaz-v-pol.livejournal.com
А правильно ли будет понимать, что данные о старых выборах утрачены?

Date: 2011-12-08 09:32 pm (UTC)
From: [identity profile] podmoskovnik.livejournal.com
До 2003 г. - не интересовался. Может быть, у "Голоса" что-то есть, может быть, у Независимого института выборов.

Date: 2011-12-09 07:00 pm (UTC)
From: [identity profile] a-kruglov.livejournal.com
Есть данные по гососованиям 1991—1993 годов на уровне областей в книге Собянин, Суховольский. "Демократия, ограниченная фальсификациями", 1995. Ещё Любарев в книге "Преступление без наказания:
административные технологии федеральных выборов 2007-2008 годов" обрабатывает данные выборов с 1991 года у на более низких уровнях, значит, наверно, у него есть данные. Ещё в Google Books находятся (но не просматриваются) книги издания ЦИК объёмом ~200—300 страниц с названиями вроде "Выборы депутатов Государственной Думы, 1995: электоральная статистика". Возможно, в них содержатся результаты по УИК, судя по объёму (для 500 УИК на страницу, например).

Date: 2011-12-08 09:22 pm (UTC)
From: [identity profile] oude-rus.livejournal.com
пердупреди еще, что файл настолько велик, что в ексель не влезает, во всяком случае, 2003ий.

Date: 2011-12-08 09:31 pm (UTC)
From: [identity profile] podmoskovnik.livejournal.com
Считай что предупредил. Режется текстовым редактором, например, в FARе.

Date: 2011-12-08 10:27 pm (UTC)
From: [identity profile] oude-rus.livejournal.com
ну да, пока я резал, ты мне уже обрезанный прислал!

Date: 2011-12-08 09:34 pm (UTC)
From: [identity profile] kobak.livejournal.com
Кажется, не нужно больше тратить время на отладку скриптов! Свежие результаты есть в csv тут http://www.kartaitogov.ru.

Date: 2011-12-08 09:44 pm (UTC)
From: [identity profile] podmoskovnik.livejournal.com
Спасибо, отлично. Сейчас, правда, ссылка на скачивание не работает.

Date: 2011-12-08 10:28 pm (UTC)
From: [identity profile] oude-rus.livejournal.com
йа скачал! тебе прислать?

Date: 2011-12-09 01:25 am (UTC)
From: [identity profile] kobak.livejournal.com
Нашел ошибку в этом файле: строчку 17938 нужно удалить. Там почему-то целиком одна ТИК, не разбитая на УИКи. И несуществующий регион "ЦИК России".

Date: 2011-12-09 01:26 am (UTC)
From: [identity profile] kobak.livejournal.com
P.S. Я имею в виду строчку 17938 в файле, т.е. 17937 запись (первая строчка -- шапка).

Date: 2011-12-09 05:17 am (UTC)
From: [identity profile] podmoskovnik.livejournal.com
А пришли, похоже, сайт совсем лег.

Date: 2011-12-09 12:44 pm (UTC)
From: [identity profile] morfizm.livejournal.com
Лучше выкладывать скрипты, чем делиться файлами. Иначе сделаешь исследование, спросят "откуда данные?", скажешь "скачал по ссылке от ЖЖ юзера XYZ". Посмеются, причём справедливо.

Date: 2011-12-09 12:46 pm (UTC)
From: [identity profile] podmoskovnik.livejournal.com
На мой взгляд, kartaitogov вполне авторитетный (и общедоступный) источник. И данные у них аккуратные.

Date: 2011-12-09 01:03 pm (UTC)
From: [identity profile] morfizm.livejournal.com
Ну, вопрос же не в том, что авторитетно лично для вас или для меня. Вопрос в том, что авторитетно для прессы. Допустим, политик (не важно, местный или иностранный) хочет поставить под вопрос честность российских выборов и официально заявить об этом. Если статья с интересными аномалиями указывает данные с официального государственного сайта, и даёт код скрипта, позволяющего их скачать, политик может поручить доверенному аналитику разобраться со скриптом и с данными, и перепроверить выводы. Если же данные взяты из ЖЖ (какого бы то ни было), он никак не может их использовать.

Date: 2011-12-09 01:06 pm (UTC)
From: [identity profile] podmoskovnik.livejournal.com
kartaitogov - проект Газеты.ру и Голоса.
From: [identity profile] andirect.livejournal.com
Вот ещё пост с файлами результатов и попытками анализа их: http://hist-kai.livejournal.com/243639.html?view=comments
From: [identity profile] podmoskovnik.livejournal.com
Спасибо. Попытки анализа там фееричные. Особенно логнормальное распределение для величины, априорно заданной на [0,1].
From: [identity profile] andirect.livejournal.com
Пусть первый блин комом, важен энтузиазм.

Date: 2011-12-09 05:19 am (UTC)
From: [identity profile] alxt.livejournal.com
Программа для сбора и анализа данных (с исходными кодами, ага) - http://shipilev.livejournal.com/95401.html

Date: 2011-12-09 05:25 am (UTC)
From: [identity profile] podmoskovnik.livejournal.com
Спасибо, я тоже видел. Может, кому-то пригодятся и исходные коды. Мне - увы, нет :)

Date: 2011-12-09 08:34 am (UTC)
From: [identity profile] shipilev.livejournal.com
Салют. Я обновил свои данные, теперь выкладываю их на http://people.apache.org/~shade/articles/elections2011/

Мои парсеры теперь собирают данные с разной детализацией. Приятно то, что у меня на сегодняшних данных почти сошлись суммы.

Date: 2011-12-09 08:38 am (UTC)
From: [identity profile] podmoskovnik.livejournal.com
Спасибо!
Я скачал версию от 03:37 09.12 с kartaitogov.ru - похоже, скачано очень аккуратно. 109.06 млн в списках.

Date: 2011-12-09 08:42 am (UTC)
From: [identity profile] shipilev.livejournal.com
Ага, хорошо что этим много народу занимается, можно кроссреференсить.
Я как известный пессимист, всё-таки больше доверяю своим данным :)

Date: 2011-12-09 07:25 am (UTC)
From: [identity profile] maxirugby.livejournal.com
А вроде же на сайтах избиркомов субъектов РФ есть информация по результатам на участках. Или в таком виде неудобно пользоваться?
http://www.vybory.izbirkom.ru/region/izbirkom?action=show&global=true&root=772000070&tvd=2772000306548&vrn=100100028713299&prver=0&pronetvd=null®ion=77&sub_region=77&type=233&vibid=2772000306548

Date: 2011-12-09 07:39 am (UTC)
From: [identity profile] podmoskovnik.livejournal.com
Для статобработки надо все собрать в одну таблицу.

Date: 2011-12-09 09:11 am (UTC)
From: [identity profile] dmitrykogan.livejournal.com
Дамы и господа, почему меня никто не комментирует/критикует из сециалистов: http://dmitrykogan.livejournal.com/46452.html Даже странно.

Date: 2011-12-09 09:59 am (UTC)
From: [identity profile] podmoskovnik.livejournal.com
Прошу прощения, не успеваю читать все, что сейчас публикуется. Честно говоря, я не очень понял методику восстановления исходного распределения по явке. Можно объяснить подробнее? Например, я не понимаю, откуда взялось левое плечо на графике голосов за ЕР после коррекции.

Date: 2011-12-09 11:02 am (UTC)
From: [identity profile] dmitrykogan.livejournal.com
Конечно могу, тем более что я использовал Ваш подход. Я восстанавливал число избирателей ЕР не по явке как таковой, а по числу избирателей остальных партий при данной явке. Т.е. сделал распределение избирателей по явке прямо пропорциональным суммарному распределению остальных партий. Коэффициент пропорциональности я рассчитывал как минимум отношения кумулятивных сумм по ЕР и по всем остальным партиям (начиная с низкой явки) для каждого региона отдельно. Поэтому в области низких явок исходное распределение ЕР почти не отличается от скорректированного, а с ростом явки разность увеличивается.

Действительно, на графике зависимости от исходной явки фальсификации расположены справа в области высоких явок. Но после коррекции (вычитания приписок) значительная часть высоких явок (сфальсифицированных) превратилась в низкие, поэтому фальсификации на графике реальной явки переместились в сторону низких явок.

Date: 2011-12-09 12:51 pm (UTC)
From: [identity profile] podmoskovnik.livejournal.com
Кажется мне, что Вы действуете слишком прямолинейно. Не все так просто. Грубо говоря, участки, вброшенные до явки 73%, могли исходно иметь разные значения явки, и куда их конкретно возвращать - непонятно. Т.е. задача восстановления исходной явки - это задача восстановления матрицы преобразования по одной паре векторов - исходному и конечному. Задапча недоопределенная, т.к. свободных переменных больше, чем данных.
Хотя одну мысль Вы подсказали, попробую сформулировать и через пару дней написать.

Date: 2011-12-09 04:43 pm (UTC)
From: [identity profile] dmitrykogan.livejournal.com
А почему именно 73%? Я стараюсь избегать произвола и лишних гипотез, которые не являются необходимыми. Но это не так важно. "Возвращение явки" происходит само собой - после вычитания фальсификаций в данной точке ее явка автоматически уменьшается на число этих фальсификаций, и она перемещается в соответствующее место шкалы. Что касается недоопределенности - это так и есть, но мы ее исключаем, принимая гипотезу о том, что распределение голосов по партиям не должно зависеть от явки. В этом смысле решение действительно прямолинейно и примитивно, но все же не настолько, как вбросы и приписки в пользу ЕР.

Date: 2011-12-09 01:14 pm (UTC)
From: [identity profile] kobak.livejournal.com
Честно говоря, Ваши результаты меня несколько смущают. Например, в Чечне Ваш алгоритм дает 95% фальсификаций. А что если в Чечне и правда все пришли и проголосовали (добровольно или нет) за ЕР -- без всяких вбросов?

Но идея интересная. Вопрос по методу: "Коэффициент пропорциональности я рассчитывал как минимум отношения кумулятивных сумм по ЕР и по всем остальным партиям (начиная с низкой явки) для каждого региона отдельно" -- минимум начиная с какой явки? В областях очень низкой явки ("очень низкой" для данного региона) данные очень ненадежны: мало данных, много шума. Если брать минимум, то из-за шума может получиться заниженный коэффициент.

Date: 2011-12-09 04:52 pm (UTC)
From: [identity profile] dmitrykogan.livejournal.com
Конечно, просто забыл написать - ищу минимум начиная с 20% явки, это дает достаточный запас по статистике. Минимальный коэффициент 0.31

Про Чечню: если голосовали не добровольно, это уже приписка. Но даже когда я исключаю эти 95%, процент за ЕР все равно остается высоким. В любом случае Чечня - явная анаомалия, адекватное моделирование там невозможно. Но это не повод, чтобы совсем исключать ее из анализа.

Date: 2011-12-09 04:55 pm (UTC)
From: [identity profile] kobak.livejournal.com
Я бы советовал границу явки (с которой начинается поиск) выбирать в зависимости от региона. Я устанавливаю порог по числу проголосовавших (такой порог по явке, чтобы проголосовало 10 тыс. человек). В Чечне, например с явкой 20% нет, кажется, ни одного участка.

Date: 2011-12-09 06:54 pm (UTC)
From: [identity profile] dmitrykogan.livejournal.com
Хорошая идея. Пересчитал - результаты ЕР выросли на полпроцента.

Date: 2011-12-09 05:54 pm (UTC)
From: [identity profile] kobak.livejournal.com
Я дико извиняюсь, что внес такую сумятицу, но я нашел у себя ошибку (смешались данные из двух файлов). На самом деле моя первая интуицая была верной: в Чечне коррекция невозможна, там на всех участках явка больше 95% и голосов за ЕР больше 95%. Мой алгоритм в такой ситуации дает нулевую (или почти нулевую) коррекцию. Проверьте Ваш -- дело может быть как раз в этом поиске минимальной явки.

У меня в последней записи обновленные картинки по Чечне.

Date: 2011-12-09 07:03 pm (UTC)
From: [identity profile] dmitrykogan.livejournal.com
Чечня - вырожденный случай. Но я не вижу причин отказываться от оценки, потому что там были люди, голосовавшие нормально. Отношение ЕР ко всем остальным там больше 100. Я ограничил долю ЕР 90% - можно с этим спорить, но на мой взгляд, большее единодушие нереально. Для сравнения - в Ингушетии отношение ЕР ко всем остальным - 4.71. И получил приведенные цифры.

Date: 2011-12-09 02:57 pm (UTC)
From: [identity profile] kobak.livejournal.com
Вдогонку: посмотрел повнимательнее на Чечню, там довольно любопытная картина. Может быть, Вы и правы. Посмотрите: http://kobak.livejournal.com/101987.html

Date: 2011-12-09 03:07 pm (UTC)
From: [identity profile] kobak.livejournal.com
И еще раз вдогонку (простите): прогнал мою программу на новых данных, Чечня прекрасно корректируется! И общий корректированный результат по стране 33%. Приятно, что у нас результаты так сходятся, хотя алгоритмы немного разные. Я только хочу еще разделить город и деревню в каждом регионе и провести коррекцию отдельно там и там. Сделаю -- повешу у себя.

Date: 2011-12-09 07:06 pm (UTC)
From: [identity profile] dmitrykogan.livejournal.com
Рад слышать. Сообщите, когда посчитаете?

Date: 2011-12-09 07:13 pm (UTC)
From: [identity profile] kobak.livejournal.com
Про то, что Чечня прекрасно корректируется, я написал до того, как нашел ошибку, к сожалению. Мой алгоритм (который построен на отбрасывании плохих УИК) на Чечне не работает, коррекция получается нулевая, т.к. нет достаточного количества "хороших" УИК.

Сейчас досчитаю и напишу.

Date: 2011-12-09 07:30 pm (UTC)
From: [identity profile] kobak.livejournal.com
36%! Удивительно, насколько этот результат инвариантен: я сначала считал по-простому, отсеивая уики по всей стране, потом посчитал отдельно по каждому региону, а теперь еще дополнительно разделил город и деревню в каждому регионе. И все равно 36%. Но при этом картины в городе и в деревне в некоторых регионах отличаются сильно.

Date: 2011-12-09 11:44 am (UTC)
From: [identity profile] irbis-s.livejournal.com
Добрый день! Оставляю ссылку на сделанный мной подсчет результатов по своему городу Саратову с построением графиков согласно "Математике выборов". Возможно, Вам это будет интересно.

http://irbis-s.livejournal.com/18215.html

Date: 2011-12-09 09:22 pm (UTC)
From: [identity profile] a-kruglov.livejournal.com
Обнаружил сейчас, что, если явку (ну и голоса, если диаграму явка — голоса строить) нормировать не на число избирателей в списке на окончание голосования, а на число бюллетеней, полученное комиссией, то количество участков со 100% "явкой" сильно возрастает. Видимо, нередко вброс ограничивается именно этимю

Набрёл на эту мысль после прочтения в каком-то отчёте о наблюдении о том, что у них председатель УИК вбросил все кроме 2 бюллетеней из 1000, которые у них были, и очень волновался, что до конца выборов придёт больше, чем 2 человека. Пришло ровно 2.

Использование почти всех имеющихся бюллетеней, если их меньше, чем потенциальных избирателей, противоречит либо "теории вероятностей", либо активному избирательному праву граждан. Потому что реально невозможно с такой большой точностью предсказать количество голосующих, если оно < 100%, чтобы заготовить ровно столько бюллетеней.

Date: 2011-12-09 09:27 pm (UTC)
From: [identity profile] podmoskovnik.livejournal.com
Стоп. Классная мысль. То есть строить распределение по доле использованных бюллетеней. Здорово.

Date: 2011-12-09 11:06 pm (UTC)
From: [identity profile] a-kruglov.livejournal.com
Единственное, что это даёт,-- видно, что многие аномальные точки упираются в число бюллетеней. А вот кривую явки это должно размывать в ширину, наверно, для вашего метода выделения результатов по низкой явке это, наверно, не очень хорошо (я не проверял).

Можно ещё, кстати, строить диаграммы в координатах против партии -- за партию. Тогда чистые вбросы двигают либо вверх, либо вправо, смотря за кого вброс. Но это принципиально ничего не меняет, а если кому-нибудь объяеснять, только запутает.

Сейчас сочинил критерий близости явки к количеству бюллетеней: k=(normb-all)*sqrt(normp/(all*(normp-all)))<1, где normb -- число бюллетеней, normp -- списочный состав, all -- число выданных бюллетеней. Кстати, можно и утраченные к all прибавить, ещё это не пробовал. Критерий значит, что мы подошли к границе бюллетеней ближе, чем на сигму для случая, когда избиратели приходят полностью независимо друг от друга. В реальности они приходят очень зависимо, и реальная дисперсия явок больше, поэтому сравниваем с 1, а не чем-нибудь меньшим. Такая хитрая формула позоволяет отсечь приближение к 100% явке, когда бюллетеней чтолько же, сколько избирателей -- вдруг просто на самом деле все избиратели на какой-то группе УИКов приходят.

По Нижнему Новгороду под этот критерий попало 10% УИКов = 48/477.

Date: 2011-12-09 11:38 pm (UTC)
From: [identity profile] a-kruglov.livejournal.com
Попробовал на российских данных, обнаружил ложные срабатывания при normb=normp из-за того, что sqrt((all*(normp-all)/normp) -- плохая оценка для корня дисперсии, когда её значение сравнимо с 1. Для верности вычел из дисперсии под корнем десятку. В Нижнем плохих УИКов стало 47, а не 48.

Тогда по России под критерий k<1 попадает 1847 участок из 94679, это 2%. Я пользовался файлом UIKs_full.txt по ссылке из вашего журнала. Под k<0.5 -- 1552 участка, под k<0.25 -- 1298 участков.

Date: 2011-12-10 12:10 am (UTC)
From: [identity profile] a-kruglov.livejournal.com
Почти все эти участки у нас в городе в одном ТИКе (районе), на одном из таких голосовала моя жена: всего избирателей 1832, бюллетеней 1500, проголосовало 1499, из них 1471 на участке и 28 на дому. По результатам как-то странно, набрасывают и ЕР, и КПРФ, причём на отдельных участках даже КПРФ побеждает со счётом 2x%:5x%. Местных выборов у нас нет, только федеральные, непонятно чего им за явкой гнаться в отдельном районе.

Date: 2011-12-12 03:16 pm (UTC)
From: [identity profile] dmitry424.livejournal.com
Результаты по всей России с разбивкой по регионам: http://dmitry424.livejournal.com/834.html

Там также есть коды для скачивания и обработки. Все делал под Матлабом и Линуксом.

Profile

podmoskovnik: (Default)
podmoskovnik

April 2020

S M T W T F S
    1234
567891011
12131415161718
19202122232425
2627282930  

Style Credit

Expand Cut Tags

No cut tags
Page generated Apr. 9th, 2026 09:17 pm
Powered by Dreamwidth Studios