Блог им. spydell-telegram

Западные организации банят парсинг экономической информации

Эти скоты из ОЭСР заблочили мой аккаунт, с которого я выгружал массивы статистической информации в контексте того, как Европа деградирует. Чуть ранее бан прилетел от ЕЦБ и МВФ. Про Bloomberg и Reuters даже говорить нечего. Но если с последними это общая политика для всех, то с ЕЦБ, МВФ и ОЭСР, видимо, избирательно для конкретных аккаунтов. Нет проблем создать новые, даже без VPN, однако они будут пустыми.

Западные организации банят парсинг экономической информации


Это были на протяжении более 10 лет настроенные шаблоны выгрузки данных, настроенная и откалиброванная информационная среда, из которой сырые данные (в том числе и через API) поставлялись в собственные инфо-аналитические комплексы для обработки.

Также под бан попали действующий и резервный аккаунт с Yahoo_finance. Но с этими ублюдками сложнее. Там даже VPN и привязка к международному аккаунту не помогает «Sorry, this product is not available in the country where your account was created.»

Инфо-война в полный рост. Вся эта западная мразь считают, что на этом все закончилось? Нет, все только начинается!

***

Помнится несколько лет назад я организовывал «DOS» атаки на сервера Bloomberg и Reuters. Тогда были исключительно благие намерения – зеркалировать/реплицировать их корпоративные базы данных через легальный API доступ в рамках разрешенной информационной инфраструктуры.

Задача состояла в том, чтобы загрузить корпоративные отчеты по всем мировым компаниям за весь период публикации (с 1987 года) по всем корпоративным индикаторам в отчетности Income Statement, Balance Sheet и Cash Flow.

Обработать сверхбольшие массивы информации – нет проблем, к этому собственные технологии обработки данных были готовы. Задача была элегантно выгрузить. Поток запросов был максимально оптимизирован. Однако, тогда я с удивлением обнаружил, что в те времена (2013-2014) Reuters в отличие от Bloomberg практически не было защиты от сверх интенсивных запросов по источникам данных. Первый «транш» данных прошел достаточно быстро, но массив данных оказался сверхбольшим – свыше 800 Мб для группы компаний из 500 имен и по ограниченному списку индикаторов – лишь треть от необходимых.

Первый запрос не был достаточно оптимизирован. Пока готовил новый блок запросов, доступ к данным ограничивался – скорость обработки запросов резко упала. Ну ок, что поделать, работал с тем, что есть. От нескольких минут, запросы выполнялись за десятки минут. В итоге от глобальной корпоративной базы пришлось ограничиться американской, как наиболее приоритетной. И чем «глубже» работал с данными, тем больше было ограничений на загрузку. В итоге от идеи всех мировых компаний пришлось ограничиться выборкой по крупнейшим. И от идеи всех корпоративных индикаторов собрать лишь ключевые корпоративные индикаторы.

Но дальше был ад – даже небольшие выборки по 40-50 Мб данных выполнялись за несколько часов. А потом, запросы зависали даже для небольшого количества запросов. В итоге от автоматического режима пришлось вернуться практически к ручному. По сути, от 1 Гб данных в начале все вернулось к блоку данных в 2-3 Мб за запрос. Конечно, так корпоративные базы не зеркалируешь. Но я упрямый и продолжал это делать много месяцев по несколько мегабайт. Жаль, что сейчас это все похерелось. Я не был удивлен в подобном, это логично и естественно. Если бы я был системным администратором и видел DOS атаки на корпоративные базы, я бы поступил так же.

Удивило другое, видимо из сотен тысяч пользователей Bloomberg и Reuters только мне пришло в голову реплицировать их корпоративные базы! Иначе не объяснить, что в самом начале лимита на выгрузку практически не было. Все ограничивалось лишь потоком запросов. И ведь ценность Bloomberg и Reuters именно в корпоративных базах, т.к. макроэкономические можно получить практически бесплатно, если немного потрудиться.

Также я предполагал, что лично на мой аккаунт навесили тогда лимиты на загрузку, однако через несколько лет через партнеров по работе, я просил обновить БД на основе моих скриптов. Никак не связанные со мной аккаунты столкнулись с тем, что скорость обновления чудовищно низкая – примерно так, как в самом конце моего сотрудничества с Bloomberg и Reuters, т.е. по несколько Мб за запрос. А ведь в начале я им запустил червя в штаны чуть не на гигабайт залпом. Не знаю, связана ли была моя «DOS» атака с изменением глобальной политики по скачиванию данных с их серверов, однако точно помню, что в начале все было неплохо, а далее адские лимиты.

Сейчас с дата провайдерами все скверно. Практически все коммерческие поставщики данных на официальном уровне разрывают связи с Россией. Но даже государственные и международные это делают – ОЭСР, МВФ, ЕЦБ и другие. Судя по всему, делают это избирательно и подло – все мои аккаунты с настроенным шаблонами заблокированы. Можно создать новые, но это время, много времени, причем все равно это пойдет под блокировку рано или поздно. Ручная работа возможна, но не получится физически поставлять информацию в подобной интенсивности, как раньше.

Но пока работаю с тем, что удалось изъять у них (а в этом плане я безжалостен и забираю все, что можно забрать) и выстраивать инфраструктуру заново.

https://t.me/spydell_finance

★4
34 комментария
но массив данных оказался сверхбольшим – свыше 800 Мб для группы компаний из 500 имен и по ограниченному списку индикаторов – лишь треть от необходимых
800 МБ — сверхбольшой? 
Вася Пражкин, эксель уже не потянет)
avatar
Вся прелесть свободы информации в деле. 
всех парсеров в БАН!!! много вас понаплодилось кровососов
Привыкайте, пользуйтесь официальными источниками ММВБ и ЦБ РФ. 
avatar
Кто ещё про демократию и свободу слова «тама» хочет порассуждать? Может, было бы неплохо у нас по такому же принципу шорох навести на гостелевидении, блогеров пошерстить… только вот работать будет почти некому… большая часть из них прошла курсы «как нужно любить Запад в десяти частях». В первой части написано как нужно ненавидеть Россию.
avatar
Для получения кошерного IP можно арендовать виртуальную машину на территории, контролируемой еврейскими банкирами — США, Евросоюз.

Я так и делаю. С доступом во все дыры нет никаких проблем.
avatar
$100, идея неплоха.
$100, он же пишет что смотрят по изначальному IP регистрации, теперь только если заново регаться из под машин новых или впн
avatar
DOS Атаки это звучит))) примерно как блюпуп с фрэшкой)) 
avatar
Алексей, 
Алексей, наш человек ))) хакер с пелёнок ёпть ))
Алексей, блютуч на юэсби
avatar
Крутой чел, нечего сказать
А из EDGAR Комиссии по ценным бумагам выгрузку нельзя сделать? Вроде как в машиночитаемом виде там все отчёты есть
avatar
ТС с нами с 5 мая и такой пафосный текст!
avatar
b@e, это с нами с 5мая, а так-то Паша лет 15 уже тарахтит, если не больше))
b@e, уже давно читаю в других местах.
Следим за вашими армагеддон постами.
Продолжайте
avatar
Зачем заниматься ерундой! Выгружаете массивы данных с лживых вражеских источников. 
Выгружайте с проверенных: ВестиРу, СоловьевЛайв, Царьград — там вам все объяснят без всяких выгрузок.
Государство вас вырастило, выкормило, а у вас никакой благодарности, все лезете не туда. Сталина на вас нет, он бы вас только за одно желание выгружать отправил на лес валить как врага народа
avatar
Че когда Армагеддон?
avatar
От чего такая бавовна? Прям сразу мрази. Там люди, их можно понять. Тоже читали, верили и ждали апокалипсис, но поняли с кем имеют дело и «привязали к спинкам коек».
у меня yahoo!finance работает и есть не просит. Специально пошёл проверил, потому что я в основном виджетом их приложения пользуюсь и он не отваливался (только зелёный цвет давно не показывал)
avatar
У большого дядьки халява кончилась — об этом страх и ненависть в Лас-вегасе?
avatar
Да, действительно.
Бавовна пришла и сюда…
avatar
и поделом забанили! этот профессиональный манипулятор сам всех моментально банит за любую критику. Да даже у Мартынова тут нет аргументов в спорах.
avatar
Вы что-то не так делаете.
Сливать надо сырые данные, обрабатывать потом самостоятельно.
А что чем сложнее запросы тем медленнее — это норма.
Если доступ относительно открыт, то сливайте используя сотни или тысячи аккаунтов и ip. Делов то…
avatar
Ps. 800мб — это не данные — это слёзы.
Сверхбольших это даже не 800тб...
Собирал куда как более простые вещи и там получались терабайты данных. А до обезжиривания десятки терабайт.
avatar

теги блога spydell

....все тэги



UPDONW
Новый дизайн