Блог им. tuzik |# --> Какова информативность постов смартлаба?

Мы тратим уйму времени просматривая разные посты смартлаба, а время как известно — деньги. Я сейчас занимаюсь информацией с точки зрения лингвистики, можно сказать что топаю к некому автоматическому анализатору потока информации генерируемого социальными группами в реальном времени, ну и само собой смартлаб отличный источник начальной информации для подобных вещей. Вообще у меня есть парочку предложений Мартынову лично, как программиста готового (с предоставлением API из нескольких запросов для моей внешней системы скажем получения в реальном времени потока сообщений пользователей) дополнить функционал смартлаба уникальным функционалом в том числе автомодерированием однако пока как исследовательский софт, но не уверен что ему это прям сейчас будет интересно ) пока не поймет к чему я клоню свои идеи… ;) 

Ну так вот… ради прикола я прогнался своим начальным анализатором по последней тысяче (ну или около того) постов (ведь Тимофей сказал что в эти дни был пик активности а значит выборка будет репрезентативной) и для начала просто составил для каждого поста словарь уникальных слов используемых в топике (так как парсер не доработан, то выдирается концовка поста где указана ссылка и никнейм, поэтому даже в казалось бы пустом топике… слова заголовка тоже учитывается) будет не меньше 12 слов :) )… вот что вышло

Слева ссылка… справа — количество уникальных слов в топике   (так как сюда входит лишь 40000 символов то даю ссылку через свой сайт)


http://micpdn.com/smart/stat.html



( Читать дальше )

....все тэги
UPDONW
Новый дизайн