Какой вопрос - такой ответ - "2"

Пятница, 10 Августа 2007 г. 14:00 + в цитатник

Заканчиваем измерять блог.
Мы остановились на форме запроса (вопроса). Утверждалось, что удобнее всего запросить подходящих авторов подсунув "'эталонного" - найди похожих или фрагмент текста - найди пишуших так же. Алгоритмы для сравнения предлагалось побрать среди наработанных для задачи определения авторства или выявления плагиата. Вроде бы этого должно хватить, но всегда же хочется большего! Попробуем добавить ещё один механизьм.

Есть важное отличие поиска авторов от поиска документов: обычно автор "настучал" заметно больше "букфф" (и слов), чем есть в нормальном документе. Где-то интуитивно хочется оценить объём половозрелого блога в 50+kb (постов) . Понятно, это пальцем в небо, но если размер заметно меньше, всякие статистические вкусности будут работать грубо (да и чего его искать, если он маленький такой).

Если же слов достаточно, то машинка вполне могла бы выдавть статистику встречаемости слов (символов) и сравнивать их с распрделением по всему массиву блогов. Тогда стало бы возможным распознавать (и отбирать) авторов по характерному набору словечек (жаргону) или же "выщемлять" этот жаргон, предварительно отобрав блоги по другим признакам (пол, возраст и род занятий). К примеру, если частота встречаемости скобок, кавычек и звёздочек у автора заметно выше средней - он, скорее всего, програмер (может бывший). Если часто встречается набор слов "сервер", "скуль", "жопа'' и "бубен'' - вполне может оказаться сисадмином. У кого что болит, тот про то и .. пишет.

Конечно же, такие запросы было бы удобно называть и сохранять (а они могут быть объемными) . Наверное, их можно было бы "складывать" - т.е. применять последовательно.

Gatekeeper, это ещё не "фильтрационная решётка"? - нет наверное, но мы двигаемся!

Перейдём к ответам: поскольку список отобранных авторов должен, по идее, быть компактным, я бы выводил его в таблицу. Строки - авторы, столбцы - значения реквизитов (пол, возраст..) и функций (число ПЧ, записей, друзей..). Конечно же, структура столбцов должна настраиваться пользователем.

Итак, в сухом остатке, для сравнения блогов нам нужно:

индексирующий движок, с группировкой по автору;
способ апдейтить индекс - на сервере, либо через ATOM feed (RSS-хуже), ползать спайдером по сайту будет не практично;
реализация функций сравнения текстов методами задачи проверки авторства, для начала можно взять код Хмелёва Лингвоанализатор;
реализация статистических функций анализа текста - точно не надо писать самому - суффиксы, префиксы.. где-то есть готовое;
и самый креатив - придумать способ сохранения настроек фильтров и выдачи результатов;

На мой взгляд вполне обозримо. Технические детали можно обсуждать. Главное, если делать, то для кого и как продать?
Но об этом в следующей серии...

Рубрики:

Как измерить блог

<a href="https://www.liveinternet.ru/users/profhce/post46986470/">РљР°РєРѕР№ РІРѕРїСЂРѕСЃ - С‚Р°РєРѕР№ РѕС‚РІРµС‚ - &quot;2&quot;</a><br/>Р—Р°РєР°РЅС‡РёРІР°РµРј РёР·РјРµСЂСЏС‚СЊ Р±Р»РѕРі. РњС‹ РѕСЃС‚Р°РЅРѕРІРёР»РёСЃСЊ РЅР° С„РѕСЂРјРµ Р·Р°РїСЂРѕСЃР° (РІРѕРїСЂРѕСЃР°). РЈС‚РІРµСЂР¶РґР°Р»РѕСЃСЊ, С‡С‚Рѕ СѓРґРѕР±РЅРµРµ РІСЃРµРіРѕ Р·Р°РїСЂРѕСЃРёС‚СЊ РїРѕРґС…РѕРґСЏС‰РёС… Р°РІС‚РѕСЂРѕРІ РїРѕРґСЃСѓРЅСѓРІ&nbsp; &quot;'СЌС‚Р°Р»РѕРЅРЅРѕРіРѕ&quot; - РЅР°Р№РґРё РїРѕС…РѕР¶РёС…&nbsp; РёР»Рё С„СЂР°РіРјРµРЅС‚ С‚РµРєСЃС‚Р° - РЅР°Р№РґРё РїРёС€СѓС€РёС… С‚Р°Рє Р¶Рµ. РђР»РіРѕСЂРёС‚РјС‹ РґР»СЏ СЃСЂР°РІРЅРµРЅРёСЏ РїСЂРµРґР»Р°РіР°Р»РѕСЃСЊ РїРѕР±СЂР°С‚СЊ СЃСЂРµРґРё РЅР°СЂР°Р±РѕС‚Р°РЅРЅС‹С… РґР»СЏ Р·Р°РґР°С‡Рё РѕРїСЂРµРґРµР»РµРЅРёСЏ Р°РІС‚РѕСЂСЃС‚РІР° РёР»Рё РІС‹СЏРІР»РµРЅРёСЏ РїР»Р°РіРёР°С‚Р°.&nbsp; Р’СЂРѕРґРµ Р±С‹ СЌС‚РѕРіРѕ РґРѕР»Р¶РЅРѕ С…РІР°С‚РёС‚СЊ, РЅРѕ РІСЃРµРіРґР° Р¶Рµ С…РѕС‡РµС‚СЃСЏ Р±РѕР»СЊС€РµРіРѕ! РџРѕРїСЂРѕР±СѓРµРј РґРѕР±Р°РІРёС‚СЊ РµС‰С‘ РѕРґРёРЅ РјРµС…Р°РЅРёР·СЊРј. Р•СЃС‚СЊ РІР°Р¶РЅРѕРµ РѕС‚Р»РёС‡РёРµ РїРѕРёСЃРєР° Р°РІС‚РѕСЂРѕРІ РѕС‚ РїРѕРёСЃРєР° РґРѕРєСѓРјРµРЅС‚РѕРІ:&nbsp; РѕР±С‹С‡РЅРѕ Р°РІС‚РѕСЂ&nbsp; &quot;РЅР°СЃС‚СѓС‡Р°Р»&quot; Р·Р°РјРµС‚РЅРѕ Р±РѕР»СЊС€Рµ &quot;Р±СѓРєС„С„&quot;... <a href="https://www.liveinternet.ru/users/profhce/post46986470/">Р§РёС‚Р°С‚СЊ РґР°Р»РµРµ...</a>

Комментировать

« Пред. запись — К дневнику — След. запись »

Страницы: [1] [Новые]

Gatekeeper обратиться по имени Понедельник, 20 Августа 2007 г. 00:21 (ссылка)

Честно говоря, я пока не вижу автоматических методов по измерению блога и, возможно, это вообще тупиковый путь. Повторял много раз и повторюсь опять - информация и смысл информации это разные вещи. То, что для одного литдыбр тупой, для другого откровение Господне. Это краеугольный камень и для смыслообразования подходят только ручные методы работы. В крайнем случае полуавтоматические. Стремление все автоматизировать и переложит на плечи компьютера является перекосом.

Относительно фильтрационной решетки, то когда-то задумка была другая. Надо поднять черновики десятилетней давности, да освежить в памяти.

Ответить С цитатой В цитатник

profhce обратиться по имени Понедельник, 20 Августа 2007 г. 14:12 (ссылка)

Gatekeeper,информация и смысл информации это разные вещи

Это понятно и, где то даже банально, извини. А вот вопрос, простой и непритязательный: допустим на этом блоге есть сервис такого свойства - возвращает 10 авторов, пишущих "похоже" на тебя в порядке убывания сходства. (В каком смысле похоже - сейчас не важно, синтаксически, лексически или по среднему размеру поста). Ты воспользуешься такой приладой? Да или нет?

Ответить С цитатой В цитатник

Gatekeeper обратиться по имени Вторник, 21 Августа 2007 г. 15:29 (ссылка)

profhce, давай начнем с конца. Кому это надо? Такая прилада? Рядовому блогеру? Да, согласен, но тут дело такое, фрэнд-лента она не резиновая и больше сотни соседей человек читать не сможет и коментить чисто физически. Посему пользоваться приладой он будет ей в первые несколько дней, пока не наберет себе достаточного количества фрэндов.

Я думаю, что такая фича больше нужна для построения социальных сетей и маркетологам, которые работают с сотнями и тысячами блогеров. Но тут принципы измерения блогеров, имхо, будут не по количеству знаков или языку постингов, а по заголовкам постов, дизайну блогов, аватарам и прочим вещам, не относящимся к текстам. Впрочем, можно пообсуждать, но я думаю, что все-таки надо начинать с того а кому все это нужно?

Ответить С цитатой В цитатник

profhce обратиться по имени Вторник, 21 Августа 2007 г. 19:23 (ссылка)

Gatekeeper, Absolutely, в точности мой (обычный) подход - начать с того, кому это надо или по нашему, по бразильски - кому это можно впарить. Более следующий пост был об этом. ( Как всё же проф.деятельность штампует мозги, когда я был молодым, я был совсем не таким).

Блогеру - да; рядовому?..ну.. может, если сделать fancy интерфейс. Одному блоговоду (LiRu) - против другого(ЖЖ), допускаю, но придется убеждать - примерь дизайн - проще в реализации и прикольней.

Как инструмент, для поиска целевой аудитории в больших блогах - Yah-Yah Naturlich. Там на Google (ну да, мания у меня такой), если добраться до 3rd parties corporate services ценник на похожее легко за 100к зашкаливает.

Но дело не в этом, я пытался предложить подход: задача есть? - есть, может быть решена - вроде да, достаточно посмотреть на неё сбоку и порыть в сопредельных областях. Получиться? - ху knows, не попробуешь - не узнаешь. Буду я пробовать - врядли, но может кто будет - бог ему в путь.

Давайте же ставить задачи (ты) и умозрительно решать их, а там может какой маленький "внешний сценарий" и родится. По ходу, если только лень не одолеет, буду переводить и вбрасывать буржуям.

Ответить С цитатой В цитатник

LiveInternetLiveInternet

-Рубрики

-Подписка по e-mail

-Поиск по дневнику

-Постоянные читатели

-Статистика

Какой вопрос - такой ответ - "2"