Блог им. Koleso
1-ая часть https://smart-lab.ru/blog/470604.php
Нассим Талеб пишет: «Я не говорю, что нет никакой информации в больших данных, – там масса информации. Проблема – основная – заключается в том, что иголку приходится искать в непрерывно растущих стогах сена».
Я надеюсь предоставить достаточно примеров того, как большие данные дают возможность по-новому взглянуть на человеческую психологию и поведение.
«Постой, Сэт, – могли бы вы сказать сейчас. – Ты обещаешь революцию. Но до сих пор ты использовал весь этот набор данных только для того, чтобы показать мне в основном два момента: в Америке много расистов и люди, особенно мужчины, сильно преувеличивают, говоря о том, как часто они занимаются сексом».
Подождите, пока не доберетесь до четвертой главы, где я предоставлю вам отчетливые и неопровержимые доказательства, полученные на базе поиска в Google, подтверждающие, что у мужчин существует серьезная озабоченность и неуверенность по поводу – чего бы вы думали? – размера своего пениса.
А более высокий уровень числа поисковых запросов, связанных с тревожностью, в сельской местности, на севере штата Нью-Йорк, а не в самом Нью-Йорке.
А в понедельник – день с репутацией самого несчастливого – уровень поиска шуток самый низкий. То же можно сказать про пасмурные и дождливые дни. И этот уровень резко падает после крупной трагедии (пример, Бостонский марафон 2013 года). На самом деле люди предпочитают шутки, когда дела идут хорошо, а не наоборот.
Сексуальные предпочтения. Например, известно ли вам, что в Индии большинство поисковых запросов начинается со слов «мой муж хочет…». Например: «Мой муж хочет, чтобы я кормила его грудью». Этот запрос распространен в Индии гораздо больше, чем в других странах. Кроме того, уровень поиска по порносайтам изображений, где женщина кормит мужчину грудью, в Индии и Бангладеш в четыре раза выше, чем в любой другой стране.
Женским эквивалентом комплекса по поводу размера полового члена можно считать – выразительная пауза! – переживание о том, как пахнет их вагина. Женщины выполняют почти столько же поисков, выражая озабоченность по поводу своих гениталий, как и мужчины, беспокоящиеся о размере своих. Главной заботой женщины является ее запах и то, как она может его улучшить.
Про культурные различия. В Мексике топ-запросы «моя беременная жена» включают фразы «frases de amor para mi esposa embarazada» (признание в любви моей беременной жене) и «poemas para mi esposa embarazada» (стихи для моей беременной жены). В Соединенных Штатах топ поисковых запросов состоит из следующих фраз: «моя жена беременна – и что теперь?» и «моя жена беременна – что мне делать?».
Сегодня слишком много специалистов по анализу и обработке данных накопили большие массивы информации, но они дают нам слишком несущественные сведения.
Слишком многие компании просто утонули в больших объемах данных. У них много терабайт информации, но мало своих идей.
Существенный момент: чем важнее явление, тем меньше число наблюдений необходимо, чтобы его обнаружить.
Главный аргумент в пользу того, что поисковые запросы в Google представляют собой ценнейшую информацию, состоит не в том, что люди в них весьма откровенны.
Google дает возможность обсудить личные проблемы, в том числе с весьма компрометирующей информацией, такие как брак без секса, психическое нездоровье, неуверенность, враждебность по отношению к чернокожим.
Самое главное при работе с большими данными – умение задавать правильные вопросы, чтобы получить важные выводы.
Необходимо выделить наиболее перспективные для поиска фразы, например для Индии – это запросы в Google, которые начинаются со слов «мой муж хочет…».
Эта книга показывает, как лучше использовать большие данные, в ней подробно объясняется, почему эти массивы информации имеют такое большое значение.
И попутно вы узнаете много интересного из того, что я и другие люди уже открыли для себя с помощью этого метода, в том числе:
• Как много геев среди мужчин?
• Неужели реклама действительно работает?
• Ангажированы ли СМИ?
• Существуют ли оговорки по Фрейду?
• Кто мошенничает с налогами?
• Важно ли, в какой колледж пойти учиться?
• Можно ли выиграть на фондовом рынке?
• Где лучшее место, чтобы растить детей?
• Как истории разносятся по сети?
• О чем следует говорить на первом свидании, если вы хотите, чтобы было второе?
…И многое, многое другое.
Пример:
Месячная ставка по безработице является результатом телефонного опроса, который проводит Бюро статистики труда, и к моменту опубликования она уже устареет примерно на три недели – или 2 миллиарда миллисекунд. Чскорение получения этих цифр было одним из самых важных пунктов в повестке дня Алана Крюгера, когда он в 2011 году занял пост председателя президентского совета по экономике США при Бараке Обаме. Это ему не удалось.
Есть ли способ быстрее получить хотя бы приблизительное представление о статистике безработицы?
Сервис Google Correlate, дающий внешним исследователям средства экспериментирования с тем же типом анализа в достаточно широком диапазоне полей, а не только в здоровье. Исследователи могут взять любой ряд данных, которые они отслеживают, и посмотреть, какие поисковые запросы в Google наиболее явно коррелируют с ним.
С помощью Google Correlate сумели выяснить, какие поисковые запросы позволяют наиболее точно отслеживать динамику изменения цен на жилье. Когда последние растут, используют для поиска такие фразы, как «80/20 ипотека», «новый дом от застройщика» и «увеличение стоимости капитала». Когда же они падают, чаще всего ищут «процесс продажи без покрытия», «отрицательная ипотечная стоимость» и «снижение ипотечной задолженности».
В состоянии ли мы, просто оценивая запросы людей в Google, сказать, сколько из них не имеют работы?
Как вы думаете, какие из триллионов запросов в Google за это время оказались наиболее тесно связаны с безработицей?
Наиболее высокий уровень запросов за рассматриваемый мной период был со словами «Slutload». Чаще всего люди искали порнографический сайт с таким названием. У безработных людей внезапно появляется очень много свободного времени. Многие из них застряли дома одни, и им скучно. Отслеживание «Slutload» или игры «паук» является лучшим способом прогнозирования уровня безработицы. Со временем могут появляться некоторые отклонения: безработные могут искать, например, «rawtube» – другой порносайт. Смесь подобных поисковых запросов позволяет адекватно оценивать уровень безработицы и является частью самой лучшей модели прогнозирования этого явления.
Возможность узнать,сколько человек раскладывают пасьянс или смотрят порно – это очень мощный ресурс. Эта информация способна помочь нам быстрее оценить состояние экономики.
P.S. Мой канал goo.gl/5CTbRU о том, что нам ждать от будущего и как в нем преуспеть.
Канал t.me/SmartEventMos — деловые события Москвы. Будь в курсе — подпишись!
P.P.S. Пользуйся КриптоКартой: Получите легкий доступ к цифровой экономике с картой TalkBank Сrypto www.talkbank.io/crypto/ Код купона: SMARTEVENT Вместе с картой 500 бонусов. Кешбек — 5%