Предлагаю вашему вниманию пробный пост о применении data mining к текстам, спарсенным из блогов Смартлаба.
Идея исследования: ежемесячно парсить все посты со Смартлаба и применять к ним метод BigARTM из класса методов тематического моделирования.
Методы тематического моделирования (детальное описание: Воронцов К.В. Вероятностное тематическое моделирование: обзор моделей и аддитивная регуляризация) позволяют группировать слова («термы», «токены») из множества документов по темам.
Интерпретация тем – дело исследователя. К сожалению, не всегда удаётся проинтерпретировать набор слов, т.е. по этому набору назвать тему. Я буду приводить как наборы слов по темам, так и мою интерпретацию тем. Вы же при желании сможете дать свою интерпретацию.
В дальнейшем – при накоплении статистики – можно искать связи между событиями и их отражением или не отражением в виде постов на Смартлабе.
В октябре 2018 на смартлабе было опубликовано свыше 4000 постов.
Факт номер 1 про компанию Тесла
Вот как выглядят квартальные убытки компании Тесла.
Даже сам Илон Маск сказал: «Учитывая, что Тесла никогда не получал годовой прибыли в течение почти 15 лет с момента образования, прибыль явно не является тем, что мотивирует нас». Это явно капиталистический и прагматический подход. а вот так выглядит динамика продаж автомобилей Тесла.
Tesla Inc
(NASDAQ: TSLA)
$311.422 +22.9218 (+7.95%)
11:26 AM EDT Oct 25, 2018
ir.tesla.com/stock-information
Tesla Inc.
Common Stock, $0.001 par value
As of July 27, 2018, there were 170,593,144 shares of the registrant’s common stock outstanding.
www.sec.gov/Archives/edgar/data/1318605/000156459018019254/tsla-10q_20180630.htm
Обыкновенные акции, номинал $0,001
По состоянию на 27 июля 2018 года в обращении находится 170 593 144 акций.