Запутанный код парсеров и кравлеров, вытаскивающий данные с разных сайтов.
С полноценной эмуляцией браузера и иммитацией нажатий кнопок, сложного парсинга разных кусков данных и т.п. Не то что кнопку сложно нажать — но там куча разных таймаутов, повторов, событий, ротацией прокси и т.п.
И код отдельного, необычного парсера, обертки над емулятором браузера.
И сохранение данных в базу и в разных форматах.
Еб… ть он мочит…
Данная публикация является личным мнением автора. Мнение владельца сайта может не совпадать с мнением автора.
Мне нужно было обновить и чуть поменять некоторые вещи и структуру парсера, не с нуля его создать.
Вроде все работает как надо, мож позже какое то поле в неверном формате конечно обнаружится где то, но даже если так я считаю это очень хороший результат, я и сам такие ошибки допускаю.
на тему парсинга.
завтра админ сервера поменяет настройки и сервер будет слать вам отличающиеся страницы авторизации.
например включит или отключит керберос. или сменит метод авторизации. или имена полей ввода изменятся
Парсинг сломается
Мы про парсинг HTML страничек сейчас говорим ?
Нет, парсинг совсем не проблема, изменения и поправки делаются просто, то что сломалось не проблема — ничего страшного из за остановки не произойдет.
Например, на сайте MOEX некоторые ценные данные (таблицы) представлены в формате GIF. Парсите на здоровье…
Большинство парсеров делаются достаточно просто, некоторые сложнее., иногда делают картинки и их тоже можно распознать через OCR инструменты. Вопрос в том — стоит ли оно того или нет, часто, для многих случаев сделать парсер просто.
Таблицы в картинках если есть желание — распознать можно, особенно сейчас с ИИ, он вообще это все сходу сделает.
Заметьте — я не говорю парсинг плохо. Я говорю — парсинг — тупик. Раз уж есть ИИ, который видит экран и может кнопки нажимать, надо ему и поручать с сайтами разбираться. Локальный ИИ конечно. Пока один не справляется, и нужно минимум три разных в конвейере. Особенно OCR -весьма специализированный skill.
Ну и схема данных и валидации есть.