Блог им. rotmistrov

Парсинг постов Смартлаба. Темы октября 2018

Предлагаю вашему вниманию пробный пост о применении data mining к текстам, спарсенным из блогов Смартлаба.

Идея исследования: ежемесячно парсить все посты со Смартлаба и применять к ним метод BigARTM из класса методов тематического моделирования.

Методы тематического моделирования (детальное описание: Воронцов К.В. Вероятностное тематическое моделирование: обзор моделей и аддитивная регуляризация) позволяют группировать слова («термы», «токены») из множества документов по темам.

Интерпретация тем – дело исследователя. К сожалению, не всегда удаётся проинтерпретировать набор слов, т.е. по этому набору назвать тему. Я буду приводить как наборы слов по темам, так и мою интерпретацию тем. Вы же при желании сможете дать свою интерпретацию.

В дальнейшем – при накоплении статистики – можно искать связи между событиями и их отражением или не отражением в виде постов на Смартлабе.

В октябре 2018 на смартлабе было опубликовано свыше 4000 постов.

/> /> />
Тема Интерпретация
1 ['кв', 'тысяча', 'квартал', 'дивиденд', 'производство', 'денежный', 'сравнение', 'прошлое', 'увеличиться', 'реализация'] Речь о некоторой статистике
2 ['рубль', 'сентябрь', 'составить', 'доход', 'чистый', 'рф', 'годовой', 'триллион', 'январь', 'выпуск']  -
3 ['индекс', 's', 'p', 'пункт', 'упасть', 'торг', 'максимум', 'снизиться', 'отметка', 'торговаться']  -
4 ['рабочий', 'штат', 'автомобиль', 'машина', 'министерство', 'tesla', 'ураган', 'конкуренция', 'километр', 'корпорация'] Конкуренция ДВС и электрического двигателя
5 ['год', 'миллиард', 'миллион', 'прибыль', 'www', 'общий', 'мес', 'объём', 'com', 'ао']  -
6 ['президент', 'европа', 'власть', 'закон', 'документ', 'гражданин', 'путин', 'защита', 'владимир', 'социальный'] Путин и законодательная забота о гражданах
7 ['деньга', 'ваш', 'думать', 'знать', 'почему', 'нужный', 'заработать', 'вообще', 'жизнь', 'понять'] Советы гуру
8 ['неделя', 'падение', 'график', 'падать', 'далее', 'волна', 'видеть', 'интересный', 'посмотреть', 'обзор'] О падающем тренде на рынке
9 ['уровень', 'цель', 'пока', 'выше', 'ждать', 'поддержка', 'ситуация', 'тренд', 'покупать', 'канал'] И возможности купить
10 ['нефть', 'метр', 'добыча', 'запас', 'газа', 'тонна', 'поставка', 'баррель', 'строительство', 'мощность'] О статистике с рынка энергоносителей
11 ['ru', 'https', 'проект', 'news', 'планировать', 'aspx', 'предприятие', 'россеть', 'prime', 'c'] Новости Россетей
12 ['сша', 'доллар', 'американский', 'золото', 'экономика', 'валюта', 'китай', 'фрс', 'фондовый', 'курс'] О решении ФРС по ставке, отношениях с Китаем как факторе и о воздействии на экономику и на цену золота
13 ['продажа', 'покупка', 'закрытие', 'ожидание', 'начаться', 'вид', 'тип', 'тест', 'покупатель', 'продавец'] Какие-то рекомендации
14 ['счёт', 'брокер', 'история', 'плюс', 'р', 'минус', 'etf', 'го', 'бакс', 'итого']  -
15 ['место', 'нужно', 'лонг', 'смотреть', 'шорты', 'район', 'вчера', 'стоп', 'видео', 'картинка'] Какие-то рекомендации
16 ['купить', 'smart', 'lab', 'blog', 'php', 'мосбиржа', 'просадка', 'закрытый', 'сбер', 'попробовать']  -
17 ['доходность', 'портфель', 'идея', 'держать', 'опцион', 'ценовый', 'инвестировать', 'вложение', 'спекулянт', 'отличный'] Советы гуру
18 ['бумага', 'd', 'директор', 'акционер', 'совет', 'b', 'ценный', 'яндекс', 'лицо', 'эмитент'] Новости Яндекса
19 ['биржа', 'клиент', 'контракт', 'инструмент', 'фьючерс', 'использовать', 'волатильность', 'московский', 'криптовалюта', 'карта']  -
20 ['позиция', 'котировка', 'пара', 'диапазон', 'usd', 'рекомендация', 'короткий', 'рекомендовать', 'brent', 'длинный'] Какие-то рекомендации
21 ['компания', 'прибыть', 'бизнес', 'оценка', 'магнит', 'аналитик', 'магазин', 'сеть', 'капитализация', 'рыночный'] Новости Магнита
22 ['ставка', 'облигация', 'сектор', 'повышение', 'оставаться', 'экономический', 'предыдущий', 'август', 'спрос', 'инфляция'] Об облигациях (возможно, ОФЗ)
23 ['показать', 'ма', 'инвестиционный', 'отрасль', 'лидир', 'замедло', 'услуга', 'финансы', 'газ', 'медицина']  -
24 ['правительство', 'италия', 'бюджет', 'the', 'соглашение', 'ес', 'a', 'выбор', 'переговоры', 'член'] Проблемы ЕС из-за Италии
25 ['сделка', 'вопрос', 'торговля', 'трейдер', 'хотеть', 'торговать', 'пост', 'стратегия', 'вход', 'правило'] Советы гуру
26 ['банка', 'банк', 'сбербанк', 'втб', 'представитель', 'рассказать', 'сообщать', 'сотрудник', 'форекс', 'партнёр'] Новости ВТБ и Сбербанка
27 ['модель', 'ответ', 'заявление', 'сервис', 'помощь', 'личный', 'ошибка', 'правильный', 'схема', 'письмо']  -
28 ['выплата', 'купон', 'событие', 'дата', 'платить', 'погашение', 'выступление', 'оферта', 'фск', 'рао'] Новости ФСК и Интер РАО
29 ['труд', 'дефицит', 'зарплата', 'пенсионный', 'население', 'возраст', 'аэрофлот', 'разница', 'специалист', 'пенсия'] Пенсионная реформа?
30 ['книга', 'написать', 'вместе', 'принцип', 'зарабатывать', 'читать', 'страница', 'запись', 'автор', 'facebook'] Советы гуру
★8
19 комментариев
Недавно парсил смартлаб. Пришлось уходить от защиты частых запросов. Такое удовольствие может по времени растянуться надолго.

Я где то 55000 пользователей перебрал минут за 40, чтобы в бан сервака не залететь
avatar
Андрей К, в вашем случае можно было попросить Тимофея дать дамп, что-то типа SELECT registration_date, last_login FROM users
avatar
Lev, =))) думаю не дал бы
avatar
Андрей К, «либо даёшь, либо канал на два часа положу»
avatar
['показать', 'ма', 'инвестиционный', 'отрасль', 'лидир', 'замедло', 'услуга', 'финансы', 'газ', 'медицина']

пАказать кузькина мать липИцкий сэр на скатерти хвОть!
avatar
И где результаты?
avatar
Интересно. Из 30 результатов — 8 (почти треть) не интерпретированы (авторам надо поработать над связностью изложения).
avatar
Vlаdimi®, никто не мешает Вам интерпретировать. Это раз. Хотелось бы пример несвязного изложения. Это два.
Алексей Ротмистров, какие библиотеки используете для парсинга?
avatar
ANTI_Finsov, здравствуйте, для скрэпинга os, requests, bs4 from BeautifulSoup, для создания dataframe pandas, для тематического моделирования artm.
Алексей Ротмистров, комментарий был не в Ваш адрес. Это три.
avatar
Vlаdimi®, тогда прошу прощения. Это четыре)
эти слова — из тэгов? или свой словарь понятий?
avatar
Бог, слова из текстов постов.
Откуда эти слова? Из названий топиков, из текста?
В таком виде ценность ноль.
Винету Карабасович Монетка, слова из текстов постов.
что за рандомный набор? 
28 неверно
должно быть
28 ['выплата', 'купон', 'событие', 'дата', 'платить', 'погашение', 'выступление', 'оферта', 'фск', 'рао'] ремора
avatar
15 ['место', 'нужно', 'лонг', 'смотреть', 'шорты', 'район', 'вчера', 'стоп', 'видео', 'картинка'] Какие-то рекомендации

Эти по 5 рублей лонг вчера были очень большие… А сегодня по 3 шорт но маленькие
avatar
? комментарии в темах не учитываются
в обсуждаемом бесцельном бессмысленном парсинге?

теги блога Алексей Ротмистров

....все тэги



UPDONW
Новый дизайн