Подписка на блог

 

 


Еще есть рассылка

Рассылка приходит нерегулярно, обычно 1-2 раза в месяц. Содержит подборку интересных заметок и ссылок. Это удобно, если вы не любите постоянные уведомления, но и не хотите ничего пропустить.

past25.ru
5 заметок с тегом

биг дата

Поисковые запросы в 16 веке (часть 2)

Сейчас обнаружил, что у меня завалялось еще два интересных графика по популярности слов в книгах.
Подробнее о том, как формируются эти графики можно прочитать в первой части.

  1. Только после 1950 года машины начали упоминаться в книгах чаще лошадей.
  1. О революции писали немного во времена декабристов — 1820-е. И много после событий 1917 года.

Другие примеры и графики

Статистика Всемироного банка

Сегодня немного занимательной статистики от Всемирного банка.

Доля интернет-пользователей среди населения — 44%.

график - доля интернет-пользователей среди населения
Количество людей, имеющих доступ к Интернету, в пересчете на 100 жителей.

Доля абонентов мобильной сотовой связи — 98,6%.

график - доля абонентов мобильной сотовой связи
Абоненты мобильной сотовой связи (на 100 человек).

Темп роста населения.

график - темп роста населения
Изменение численности населения страны в сравнении с предыдущим годом (в процентах).

Поисковые запросы в 16 веке

На очереди еще одно доказательство того, что Big data — это круто.

Ребята из гугл отсканировали (!) миллионы книг и сделали сводную таблицу с миллиардом строк и столбцов. На основе этой таблицы они выявили частоту использования слов в разные времена.

Теперь каждый желающий, я в их числе, может забить слово и узнать частоту его появления в книгах. Особенно интересно связывать слова с историческими событиями.

Несколько примеров:
1.Москва всегда была популярней.

2.О войне писали чаще, чем о мире.

3.Про Сталина писали много при его жизни, но мало после.

4.Без комментариев

5.К тому моменту, когда «USSR» почти догнал «Russia» СССР не стало.

Все запросы чувствительны к языку и регистру. Показатели у слов «Луна» и «луна» будут разными.

Ссылки:

  1. Сервис гугл
  2. Еще есть аналогичный сервис на сайте Национального корпуса русского языка

Бонус: видео с конференции TEDx об этом проекте

Аналитика

Меня очень вставляет статистика и аналитика.

Сейчас в каждом банке, у которого есть нормальный мобильный банк, ведется аналитика твоих расходов. Это отличный способ оценить статьи своих расходов. Кстати, это одна из причин, почему я стараюсь не использовать наличные.

Недавно я изучил аналитику своих расходов за последние 4 месяца и занес их в таблицу Excel.

Расходы.jpg

После этого я посчитал итог и средний показатель расходов в календарный, рабочий и выходной день.
Потом попытался проанализировать отклонения от среднего. Например, в разделе «супермаркеты» расходы в декабре были намного выше, чем в остальные месяцы. Новый год, все дела. Тогда я заменил эту цифру на средний показатель расходов по данной статье за другие месяцы.

В итоге у меня получилось вывести все статьи на ровную прямую.

Супермаркеты-расходы.jpg
Цифры указаны для примера

Далее, я рассчитал сумму расходов за четыре месяца и разделил их на количество календарных, рабочих и выходных дней. В итоге у меня получилась цифра среднего расхода в день. Если посмотреть на пример с супермаркетами на графике выше, то эта цифра считалась так — 4900/122=40 рублей в день.

Далее я составил график на будущие периоды и подставил значения в месяцы исходя из количества рабочих и выходных дней. По некоторым параметрам я добавил корректировку, так как их значения зависит не только от количества дней, но и от других факторов. Например, я заложил увеличение показателя по расходам на Транспорт, т. к. у меня запланировано ТО в ближайшее время. И снизил показатель по Супермаркетам, т. к. на отчетный период был запланирован мой отпуск.

На данный момент, я еще не подвел окончательные итоги, чтобы проверить, как факт отличается от моего плана. Но предварительно могу сказать, что фактические темпы расходов стремятся к плановым показателям к концу периода.

К чему это я

Все это мне жутко нравится. Я не только получаю удовольствие от проведения таких расчетов, для меня это, как для некоторых кроссворды или судоку, но и нахожу интересным рузультат такой аналитики.

Еще есть глобальные массивы данных Big data, в них своя фишка. Но об этом в другой раз