-Подписка по e-mail

 

 -Поиск по дневнику

Поиск сообщений в profhce

 -Статистика

Статистика LiveInternet.ru: показано количество хитов и посетителей
Создан: 10.06.2007
Записей:
Комментариев:
Написано: 178


Какой вопрос - такой ответ - "2"

Пятница, 10 Августа 2007 г. 14:00 + в цитатник
Заканчиваем измерять блог.
Мы остановились на форме запроса (вопроса). Утверждалось, что удобнее всего запросить подходящих авторов подсунув  "'эталонного" - найди похожих  или фрагмент текста - найди пишуших так же. Алгоритмы для сравнения предлагалось побрать среди наработанных для задачи определения авторства или выявления плагиата.  Вроде бы этого должно хватить, но всегда же хочется большего! Попробуем добавить ещё один механизьм.

Есть важное отличие поиска авторов от поиска документов:  обычно автор  "настучал" заметно больше "букфф" (и слов), чем есть в нормальном документе. Где-то интуитивно хочется оценить объём половозрелого блога в 50+kb (постов) . Понятно, это пальцем в небо, но если размер заметно меньше, всякие статистические вкусности будут работать грубо (да и чего его искать, если он маленький такой).

Если же слов достаточно, то машинка вполне могла бы  выдавть статистику встречаемости слов (символов) и сравнивать их с распрделением по всему массиву блогов. Тогда стало бы возможным распознавать (и отбирать) авторов по характерному набору словечек (жаргону) или же "выщемлять" этот жаргон,  предварительно отобрав блоги по другим признакам  (пол, возраст и род занятий).  К примеру, если частота встречаемости скобок,  кавычек и звёздочек у автора заметно выше средней - он, скорее всего, програмер (может бывший). Если часто встречается набор слов "сервер", "скуль", "жопа'' и "бубен'' - вполне может оказаться сисадмином. У кого что болит, тот про то и .. пишет.

Конечно же, такие запросы было бы удобно называть и сохранять (а они могут быть объемными) . Наверное, их можно было бы "складывать" - т.е. применять последовательно. Gatekeeper, это ещё не "фильтрационная решётка"? - нет наверное, но мы двигаемся!

Перейдём к ответам:  поскольку список отобранных авторов должен, по идее,  быть компактным,  я бы выводил его в таблицу. Строки - авторы, столбцы - значения реквизитов  (пол, возраст..) и  функций (число ПЧ, записей, друзей..). Конечно же, структура столбцов должна настраиваться пользователем.

Итак, в сухом остатке,  для сравнения блогов нам нужно:
  1. индексирующий движок, с группировкой по автору;
  2. способ  апдейтить индекс -  на сервере, либо через ATOM feed  (RSS-хуже), ползать спайдером по сайту будет не практично;
  3. реализация функций сравнения текстов методами задачи проверки авторства, для начала можно взять код Хмелёва Лингвоанализатор;
  4. реализация статистических функций анализа текста - точно не надо писать самому - суффиксы, префиксы..  где-то есть готовое;
  5. и самый креатив - придумать способ сохранения настроек фильтров и выдачи результатов;
На мой взгляд вполне обозримо. Технические детали можно обсуждать. Главное, если делать, то для кого и как продать?
Но об этом в следующей серии...
Рубрики:  Как измерить блог
Метки:  

Gatekeeper   обратиться по имени Понедельник, 20 Августа 2007 г. 00:21 (ссылка)
Честно говоря, я пока не вижу автоматических методов по измерению блога и, возможно, это вообще тупиковый путь. Повторял много раз и повторюсь опять - информация и смысл информации это разные вещи. То, что для одного литдыбр тупой, для другого откровение Господне. Это краеугольный камень и для смыслообразования подходят только ручные методы работы. В крайнем случае полуавтоматические. Стремление все автоматизировать и переложит на плечи компьютера является перекосом.

Относительно фильтрационной решетки, то когда-то задумка была другая. Надо поднять черновики десятилетней давности, да освежить в памяти.
Ответить С цитатой В цитатник
profhce   обратиться по имени Понедельник, 20 Августа 2007 г. 14:12 (ссылка)
Gatekeeper,информация и смысл информации это разные вещи
Это понятно и, где то даже банально, извини. А вот вопрос, простой и непритязательный: допустим на этом блоге есть сервис такого свойства - возвращает 10 авторов, пишущих "похоже" на тебя в порядке убывания сходства. (В каком смысле похоже - сейчас не важно, синтаксически, лексически или по среднему размеру поста). Ты воспользуешься такой приладой? Да или нет?
Ответить С цитатой В цитатник
Gatekeeper   обратиться по имени Вторник, 21 Августа 2007 г. 15:29 (ссылка)
profhce, давай начнем с конца. Кому это надо? Такая прилада? Рядовому блогеру? Да, согласен, но тут дело такое, фрэнд-лента она не резиновая и больше сотни соседей человек читать не сможет и коментить чисто физически. Посему пользоваться приладой он будет ей в первые несколько дней, пока не наберет себе достаточного количества фрэндов.

Я думаю, что такая фича больше нужна для построения социальных сетей и маркетологам, которые работают с сотнями и тысячами блогеров. Но тут принципы измерения блогеров, имхо, будут не по количеству знаков или языку постингов, а по заголовкам постов, дизайну блогов, аватарам и прочим вещам, не относящимся к текстам. Впрочем, можно пообсуждать, но я думаю, что все-таки надо начинать с того а кому все это нужно?
Ответить С цитатой В цитатник
profhce   обратиться по имени Вторник, 21 Августа 2007 г. 19:23 (ссылка)
Gatekeeper, Absolutely, в точности мой (обычный) подход - начать с того, кому это надо или по нашему, по бразильски - кому это можно впарить. Более следующий пост был об этом. ( Как всё же проф.деятельность штампует мозги, когда я был молодым, я был совсем не таким).

Блогеру - да; рядовому?..ну.. может, если сделать fancy интерфейс. Одному блоговоду (LiRu) - против другого(ЖЖ), допускаю, но придется убеждать - примерь дизайн - проще в реализации и прикольней.

Как инструмент, для поиска целевой аудитории в больших блогах - Yah-Yah Naturlich. Там на Google (ну да, мания у меня такой), если добраться до 3rd parties corporate services ценник на похожее легко за 100к зашкаливает.

Но дело не в этом, я пытался предложить подход: задача есть? - есть, может быть решена - вроде да, достаточно посмотреть на неё сбоку и порыть в сопредельных областях. Получиться? - ху knows, не попробуешь - не узнаешь. Буду я пробовать - врядли, но может кто будет - бог ему в путь.

Давайте же ставить задачи (ты) и умозрительно решать их, а там может какой маленький "внешний сценарий" и родится. По ходу, если только лень не одолеет, буду переводить и вбрасывать буржуям.
Ответить С цитатой В цитатник
Lurk   обратиться по имени Суббота, 25 Августа 2007 г. 01:17 (ссылка)
Допустим у нас есть база из 10 000 (цифра взята условно) блогов. Мы регулярно собираем, с помощью rss, свежие посты.
Дальше идет фильтрация по стилю написания с матом/без мата, падонок стайл/русский язык, наличие орфографических ошибок.
Далее разделяем по тематике используя технологию схожую с той, которая используется в "Лингвоанализаторе".

В принципе, уже на этой стадии можно построить солидный индекс для поиска интересного автора.

К этому всему прикрутить "Народный рейтинг", т.е. человек пользующий такой сервис/программу может проставить "оценку" выданному ответу. тогда система будет еще и развиваться.

Теперь к вопросу "для кого и как продать?". К продаже софта на территории бывшего совка отношусь довольно скептически т.к. сам еще ни разу не платил за софт, за исключением покупки пиратских дисков во времена отсутствия интернета. Продавать буржуям не пробовал и потому ничего не могу по этому поводу сказать. Да и ресурсов, а именно широкого интернет канала настольная программа будет требовать очень настойчиво.
Так сказать ИМХО идеальный вариант в наших условиях делать интернет проект который будет интересен не столько блогерам сколько рынку потребляющему статистические данные.
Ответить С цитатой В цитатник
profhce   обратиться по имени Понедельник, 27 Августа 2007 г. 19:00 (ссылка)
Lurk, всё так, но вариант "десктопного" приложения я бы не отметал. Причём сделанного, именно, как присадка (gadget) на движке Google Desktop ("локальная версия" движка Google) http://desktop.google.com/plugins/.
Это очень живинькая тема сейчас, легко выставиться - можно продать (прости, кому что а бедному - выпить). Что касаемо ширины канала - 100к блогов, врядли создадут траффик более 100м в сутки, если не забирать картинки. Ночью накатить 100м - не вижу проблемы (или кто-то всё ещё сидит на дай лапе? - ну так ему такая софтинка не нужна).
Ответить С цитатой В цитатник
Lurk   обратиться по имени Вторник, 28 Августа 2007 г. 13:16 (ссылка)
profhce, На счет получения прибыли, желательно в виде денег, я обеими руками за. По этому любая идея изначально рассматривается в разрезе получения прибыли.

Вариант десктопного приложения никто и не отметает, но все же как присадку к онлайн проекту. Там и прибыль более очевидна. С заинтересованных людей можно брать абонплату, а кто не хочет платить милости просим на сайт где Вам вместе с искомым контентом покажут рекламу.

Гугл десктоп очень заманчива но кроме нее есть еще много интересных проектов: http://www.pusk.ru , FireFox и т.д. )) Про которые ни в коем случае не надо забывать))
Ответить С цитатой В цитатник
profhce   обратиться по имени Среда, 29 Августа 2007 г. 10:48 (ссылка)
Lurk,
Well, мои планы по теме: я пробую разобраться в API Google Desktop, приручить его кормиться RSSом или ATOM и строить индекс с группировкой по автору. Заодно подыщу в исходниках библиотечки мат.лингвистики. Затем, может быть, склепаю на колене - какой-нибудь прототип. Результаты буду выкладывать здесь.
Всем удач!
Ответить С цитатой В цитатник
Комментировать К дневнику Страницы: [1] [Новые]
 

Добавить комментарий:
Текст комментария: смайлики

Проверка орфографии: (найти ошибки)

Прикрепить картинку:

 Переводить URL в ссылку
 Подписаться на комментарии
 Подписать картинку