Блог им. Koleso

Все лгут. Поисковики, Big Data и Интернет знают о вас всё. Конспект. Введение (окончание). (Как количество порно запросов влияет на состояние экономики...)

Все лгут. Поисковики, Big Data и Интернет знают о вас всё. Конспект. Введение (окончание). (Как количество порно запросов влияет на состояние экономики...)
1-ая часть https://smart-lab.ru/blog/470604.php 

Нассим Талеб пишет: «Я не говорю, что нет никакой информации в больших данных, – там масса информации. Проблема – основная – заключается в том, что иголку приходится искать в непрерывно растущих стогах сена».

Я надеюсь предоставить достаточно примеров того, как большие данные дают возможность по-новому взглянуть на человеческую психологию и поведение.

«Постой, Сэт, – могли бы вы сказать сейчас. – Ты обещаешь революцию. Но до сих пор ты использовал весь этот набор данных только для того, чтобы показать мне в основном два момента: в Америке много расистов и люди, особенно мужчины, сильно преувеличивают, говоря о том, как часто они занимаются сексом».

Подождите, пока не доберетесь до четвертой главы, где я предоставлю вам отчетливые и неопровержимые доказательства, полученные на базе поиска в Google, подтверждающие, что у мужчин существует серьезная озабоченность и неуверенность по поводу – чего бы вы думали? – размера своего пениса.

А более высокий уровень числа поисковых запросов, связанных с тревожностью, в сельской местности, на севере штата Нью-Йорк, а не в самом Нью-Йорке.

А в понедельник – день с репутацией самого несчастливого – уровень поиска шуток самый низкий. То же можно сказать про пасмурные и дождливые дни. И этот уровень резко падает после крупной трагедии (пример, Бостонский марафон 2013 года). На самом деле люди предпочитают шутки, когда дела идут хорошо, а не наоборот.

Сексуальные предпочтения. Например, известно ли вам, что в Индии большинство поисковых запросов начинается со слов «мой муж хочет…». Например: «Мой муж хочет, чтобы я кормила его грудью». Этот запрос распространен в Индии гораздо больше, чем в других странах. Кроме того, уровень поиска по порносайтам изображений, где женщина кормит мужчину грудью, в Индии и Бангладеш в четыре раза выше, чем в любой другой стране.

Женским эквивалентом комплекса по поводу размера полового члена можно считать – выразительная пауза! – переживание о том, как пахнет их вагина. Женщины выполняют почти столько же поисков, выражая озабоченность по поводу своих гениталий, как и мужчины, беспокоящиеся о размере своих. Главной заботой женщины является ее запах и то, как она может его улучшить.

Про культурные различия. В Мексике топ-запросы «моя беременная жена» включают фразы «frases de amor para mi esposa embarazada» (признание в любви моей беременной жене) и «poemas para mi esposa embarazada» (стихи для моей беременной жены). В Соединенных Штатах топ поисковых запросов состоит из следующих фраз: «моя жена беременна – и что теперь?» и «моя жена беременна – что мне делать?».

Сегодня слишком много специалистов по анализу и обработке данных накопили большие массивы информации, но они дают нам слишком несущественные сведения.

Слишком многие компании просто утонули в больших объемах данных. У них много терабайт информации, но мало своих идей.

Существенный момент: чем важнее явление, тем меньше число наблюдений необходимо, чтобы его обнаружить.

Главный аргумент в пользу того, что поисковые запросы в Google представляют собой ценнейшую информацию, состоит не в том, что люди в них весьма откровенны.

Google дает возможность обсудить личные проблемы, в том числе с весьма компрометирующей информацией, такие как брак без секса, психическое нездоровье, неуверенность, враждебность по отношению к чернокожим.

Самое главное при работе с большими данными – умение задавать правильные вопросы, чтобы получить важные выводы.

Необходимо выделить наиболее перспективные для поиска фразы, например для Индии – это запросы в Google, которые начинаются со слов «мой муж хочет…».

Эта книга показывает, как лучше использовать большие данные, в ней подробно объясняется, почему эти массивы информации имеют такое большое значение.

И попутно вы узнаете много интересного из того, что я и другие люди уже открыли для себя с помощью этого метода, в том числе:

• Как много геев среди мужчин?

• Неужели реклама действительно работает?

• Ангажированы ли СМИ?

• Существуют ли оговорки по Фрейду?

• Кто мошенничает с налогами?

• Важно ли, в какой колледж пойти учиться?

• Можно ли выиграть на фондовом рынке?

• Где лучшее место, чтобы растить детей?

• Как истории разносятся по сети?

• О чем следует говорить на первом свидании, если вы хотите, чтобы было второе?

…И многое, многое другое.

Пример:

Месячная ставка по безработице является результатом телефонного опроса, который проводит Бюро статистики труда, и к моменту опубликования она уже устареет примерно на три недели – или 2 миллиарда миллисекунд. Чскорение получения этих цифр было одним из самых важных пунктов в повестке дня Алана Крюгера, когда он в 2011 году занял пост председателя президентского совета по экономике США при Бараке Обаме. Это ему не удалось.

Есть ли способ быстрее получить хотя бы приблизительное представление о статистике безработицы?

Сервис Google Correlate, дающий внешним исследователям средства экспериментирования с тем же типом анализа в достаточно широком диапазоне полей, а не только в здоровье. Исследователи могут взять любой ряд данных, которые они отслеживают, и посмотреть, какие поисковые запросы в Google наиболее явно коррелируют с ним.

С помощью Google Correlate сумели выяснить, какие поисковые запросы позволяют наиболее точно отслеживать динамику изменения цен на жилье. Когда последние растут, используют для поиска такие фразы, как «80/20 ипотека», «новый дом от застройщика» и «увеличение стоимости капитала». Когда же они падают, чаще всего ищут «процесс продажи без покрытия», «отрицательная ипотечная стоимость» и «снижение ипотечной задолженности».

В состоянии ли мы, просто оценивая запросы людей в Google, сказать, сколько из них не имеют работы?

Как вы думаете, какие из триллионов запросов в Google за это время оказались наиболее тесно связаны с безработицей?

Наиболее высокий уровень запросов за рассматриваемый мной период был со словами «Slutload». Чаще всего люди искали порнографический сайт с таким названием. У безработных людей внезапно появляется очень много свободного времени. Многие из них застряли дома одни, и им скучно. Отслеживание «Slutload» или игры «паук» является лучшим способом прогнозирования уровня безработицы. Со временем могут появляться некоторые отклонения: безработные могут искать, например, «rawtube» – другой порносайт. Смесь подобных поисковых запросов позволяет адекватно оценивать уровень безработицы и является частью самой лучшей модели прогнозирования этого явления.

Возможность узнать,сколько человек раскладывают пасьянс или смотрят порно – это очень мощный ресурс. Эта информация способна помочь нам быстрее оценить состояние экономики.

P.S. Мой канал goo.gl/5CTbRU о том, что нам ждать от будущего и как в нем преуспеть. 

Канал t.me/SmartEventMos  — деловые события Москвы. Будь в курсе — подпишись!

P.P.S. Пользуйся КриптоКартой: Получите легкий доступ к цифровой экономике с картой TalkBank Сrypto www.talkbank.io/crypto/ Код купона: SMARTEVENT Вместе с картой 500 бонусов. Кешбек — 5%

 

 

★6

теги блога Андрей Колесников

....все тэги



UPDONW
Новый дизайн