Big Bang Data — спецпроект о больших данных, которые называют «новой нефтью» и считают главным открытием цифрового века. Уже понятно, что они изменят нашу жизнь, вопрос только в том, во что превратится привычная повседневность — в рай на Земле или в антиутопию. Какой из сценариев более вероятен, будем разбираться с помощью кейсов по большим данным, экспертов компании МегаФон и студентов института «Стрелка».

 



 

Представьте себе мир, который подстраивается под вас: автобус подъезжает к остановке ровно в тот момент, когда вы допиваете утренний кофе навынос, в магазинах не кончаются вещи нужного размера, а самые дешёвые авиабилеты приходятся аккурат на дни вашего отпуска. Исследователи больших данных утверждают, что это перспектива ближайших пяти—десяти лет. Специалисты уже превратили в массивы цифр все наши привычки, интересы и повседневные радости — теперь осталось понять, как распорядиться этими данными.

 



 

Пока Nike распускает рабочую команду FuelBand, Jawbone продолжает свой эксперимент с большими данными. Уже более 100 тысяч человек привыкли вставать с кровати с первой попытки и больше ходить пешком благодаря браслетам-трекерам. В обмен на эти нехитрые радости компания Jawbone окольцевала тысячи людей и, что самое главное, получила доступ к информации о том, когда, как и где они спят. Продажа браслетов, которая уже принесла миллионы долларов, — это только подготовительная стадия стартапа Jawbone, этап сбора данных, которые и станут конечным продуктом компании. Обрабатывая и предоставляя информацию о сне для исследований, основатели Jawbone надеются увеличить свои прибыли в десятки раз. Например, прямо сейчас компания выясняет, как кофеин в реальности воздействует на сон.

 

 

В 2002 году менеджер бейсбольной команды «Окленд Атлетикс» уволил своих скаутов, которые занимались поиском перспективных игроков.

В 2003 году один из первых программистов, выпустившихся из Гарварда, Орен Эциони, купил билет на самолёт из Сиэтла в Нью-Йорк, чтобы поздравить младшего брата со свадьбой.

В 2004 году Эдвард Сноуден записался добровольцем в армию США.

 

После неудач предыдущего сезона многих игроков «Окленд Атлетикс» переманили более богатые клубы, такие как «Нью-Йорк Янкиз», которые не дали «Атлетикс» выйти из плей-офф. У команды всегда было плохо с деньгами, а тем временем в ней не хватало половины состава — перспективные молодые игроки, которых находили скауты, соглашались играть за «Окленд» только за двойные и тройные гонорары. Бейсболист в прошлом, а ныне менеджер «Атлетикс» Билли Бин привык полагаться на шестое чувство. Именно поэтому он всё-таки выслушал очкарика из Гарварда, который пришёл показать ему какой-то волшебный компьютерный алгоритм, хотя любой другой выставил бы его за дверь и угостил пинком. Ботаник утверждал, что может вычислить, кто из начинающих игроков, не имеющих опыта в большом спорте, станет звездой бейсбола в будущем. И когда Билли Бин вышел в сезон с новым составом, укомплектованным математически отобранными новичками, он понял, что интуиция не подвела. «Окленд Атлетикс» установили рекорд, выиграв в общей сложности 103 матча и проведя 20 игр без поражений. Ещё через год о Билли Бине написали книгу, по которой затем сняли фильм с Брэдом Питтом в главной роли, и пригласили его стать менеджером «Бостон Ред Сокс». Но «человек, который изменил всё» остался с «Атлетикс» в Окленде.

 

 

 

Эдвард Сноуден изучил список подразделений и выбрал Особые войска, аналог российского спецназа.

 

 

 

Орен зарегистрировался на рейс в хорошем расположении духа и уже через 20 минут сел на лучшее место в салоне самолёта — он купил билет за несколько месяцев до вылета, и других претендентов на это кресло кроме него не было. При этом Орену удалось сэкономить — опыт и логика подсказывали, что чем раньше покупаешь билет, тем меньше за него платишь. Желая развлечься разговором в полёте и заодно потешить своё самолюбие, Орен спросил соседей по салону, во сколько обошлись им их места. Каково было его удивление, когда он узнал, что заплатил за полёт чуть ли не больше всех — за несколько недель до вылета авиаперевозчики внезапно снизили свои тарифы. Ситуация настолько задела программиста, что уже через пару месяцев он основал стартап Farecast (ныне приложение в поисковике Bing), который при помощи больших данных прогнозировал изменение цен на авиарейсы и рекомендовал, в каких случаях стоит купить билет сразу, а когда лучше повременить. По данным исследователей, сервис помогает сэкономить авиапассажирам в среднем 50 долларов с каждого рейса.

 

Эдвард Сноуден отказался от тренировок и провалил вступительные испытания. Ещё через два года он стал системным администратором в ЦРУ.

 

 

Большие данные определяются не только невообразимым объёмом — а счёт в базах идёт на миллионы гигабайт, — но также особой, хаотической структурой, перед которой пасует традиционная математика. Для обработки информации такого сорта нужны компьютерные алгоритмы, которые считают в разы быстрее, а главное, могут приспосабливаться под задачу и обучаться самостоятельно, без вмешательства человека. Подобное было невозможно ещё десять лет назад.

Но самое удивительное в больших данных даже не эти пресловутые «3V» — Volume, Variety, Velocity (объём, разнообразие и скорость), — а уважение к индивидуалистам, которое спишет со счетов нормы социологии, психологии и экономики. До сих пор наука оперировала классами объектов, а не единицами и поэтому оставляла за скобками всё непривычное и необъяснимое. Индивидуалисты считались статистическим минимумом, погрешностью, которой можно было пренебречь в угоду всеядного большинства. Исследователям больших данных интересны абсолютно все — и одиночки в первую очередь. Именно благодаря им удалось выявить закономерности, необъяснимые с позиций логики. Например, кто бы мог подумать, что некоторые республиканцы предпочитают сериал «Офис», а некоторые демократы — шоу Леттермана или что перед ураганом в гипермаркетах покупают не только фонарики, но и сладкие кукурузные хлопья. Подобные атрибуты позволяют проследить дальнейшие причинно-следственные связи и научиться предсказывать некоторые из них. И это только вершина айсберга — скоро мы сможем узнать о себе гораздо больше.

 

Большие данные — это наука случайностей и девиаций.

 

При помощи больших данных можно стать президентом США, остановить пандемию гриппа и поймать преступника на горячем.

Штаб Обамы использовал технологию big data во время президентских выборов 2012 года. Перед каждой большой акцией кандидатов исследователь Нейт Сильвер с точностью до штата моделировал, как в результате распределятся симпатии избирателей.

Компания Google помогла остановить распространение свиного гриппа в 2009 году. Сопоставив сотни поисковых запросов с медицинским справочником, специалисты компании научились выявлять очаги инфекции — оказалось, например, что люди, заболевшие гриппом, ищут в интернете не только средства от кашля, но и расписание школьных игр по баскетболу. Передав эти данные в минздрав США, Google спас тысячи человек.

Полиция Лос-Анджелеса заранее знает, где произойдёт преступление. Для этого полицейские аналитики используют тот же алгоритм, который вычисляет места подземных толчков после землетрясения — преступления так же идут одно за другим, так что их с большой вероятностью можно предупредить. После того как полицейские начали усиленно патрулировать районы, указанные системой, количество преступлений уменьшилось на 14%.

 Кликните на значок, чтобы прочитать скрытый текст

 

 

 

 

Большие данные кажутся красивыми не только программистам, но и художникам. Темой последней берлинской Трансмедиале, одной из главных выставок медиаискусства, стал цифровой след. Художники предсказывали будущее всех твитов, статусов и апдейтов в сети, которыми мы из года в год размечаем нашу жизнь. Многие так или иначе использовали в своих работах большие данные, а главная сенсация выставки — инсталляция PRISM: The Beacon Frame — и вовсе была целиком посвящена этой теме. Даня Васильев и Джулиан Оливер перехватывали данные с мобильных устройств гостей выставки и выводили на огромные экраны их личные записи и фотографии. Взамен жертвы кражи данных получали дружелюбное сообщение: «Добро пожаловать в партнёрскую сеть NSA».

Даже термин «большие данные» неминуемо вызывает ассоциацию с Большим Братом, так что участники Трансмедиале были не первыми, кто вспомнил о неприкосновенности личной информации в контексте big data. Это один из самых частых вопросов к исследователям больших данных, на который они со скучающим видом отвечают одно и то же: алгоритму всё равно, с кем вы переписываетесь и что покупаете по ночам, для него вы просто набор цифр, который почти невозможно сопоставить с конкретным человеком. Как бы то ни было, большие данные уже стали поводом для паранойи, и странно, что очередной фобии интернет-поколения до сих пор не дали названия.

 

 

Менее радикально настроенные художники видят в больших данных не угрозу, а новое направление цифрового искусства. Визуализации данных уже посвящают лекции, сайты и выставки.


Ритм жизни мировых столиц. Анимация чек-инов в Foursquare.

www.vimeo.com/foursquarehq


Все улицы Соединённых Штатов на одной карте.

www.benfry.com


Исследование ФБР по убийствам из огнестрельного оружия в США с 2010 по 2013 год.

guns.periscopic.com


Изменение ежедневных маршрутов жителей Нью-Йорка после запуска городского велопроката.

www.newyorker.com


Визуализация реализованных проектов Майкла Блумберга за 12 лет на посту мэра Нью-Йорка.

www.nytimes.com

 

 

 

 

В следующих материалах мы расскажем о том, кто занимается большими данными в России, и покажем проекты студентов «Стрелки», которые очень скоро могут превратить Москву в Нью-Йорк.

 

 

Роман Постников
директор по сегментному маркетингу и клиентской аналитике ОАО "МегаФон"

Новые технологии работы с большими данными открывают огромные возможности практически во всех сферах жизни общества. Всё чаще к нам обращаются государственные, коммерческие и некоммерческие организации, которым мы помогаем в применении больших данных для быстрого и эффективного решения различных задач. Уже хорошо заметно, что те организации, которые не боятся и первыми начинают применять сервисы, использующие технологии анализа больших данных, получают конкурентные преимущества на своих рынках.

Не так давно МегаФон первым из операторов мобильной связи в России запустил сервис геопространственного анализа, в основе которого лежат собственные технологии обработки массивов информации. Возможности этого сервиса позволяют не только решать чисто «операторские» задачи, но и помогают очень точно планировать развитие городской инфраструктуры. Поясню на примере. Ещё недавно при строительстве дорожной сети специалисты опирались на теоретические модели развития города, которые в свою очередь базировались на предыдущем опыте, данных переписи населения и т.д. Но, откровенно говоря, никто точно не знал, откуда, куда, каким образом и в каком количестве добираются люди. Маркетинговые исследования, выполненные с помощью ручных замеров, давали ответы лишь на некоторые вопросы — с большой погрешностью при своей очень высокой стоимости. С появлением возможности анализа больших данных был создан уникальный инструмент, который даёт гораздо более точную картину жизни города. Большие данные задействуют не теорию, а практику, причём в режиме, близком к реальному времени. А это значит, что не только появляются корректные сведения для решения многих задач, но и на порядки повышается точность прогнозирования — анализируя большие данные, мы можем заглядывать в будущее с высокой точностью.

Город — это постоянно меняющийся живой организм, и у меня есть уверенность, что, благодаря в том числе и нашим усилиям, его развитие уже в ближайшее время будет всё больше и больше ориентировано на реальные потребности жителей.