-Музыка

 -Подписка по e-mail

 

 -Поиск по дневнику

Поиск сообщений в Ayza

 -Сообщества

Участник сообществ (Всего в списке: 1) Философские_мысли

 -Статистика

Статистика LiveInternet.ru: показано количество хитов и посетителей
Создан: 03.10.2007
Записей: 40
Комментариев: 17
Написано: 71


Без заголовка

Вторник, 19 Августа 2008 г. 02:12 + в цитатник
Цитата сообщения Гугли_гугл Гугл и качество поиска

"Качество поиска" - так называется отдел, который отвечает за определение рейтинга результатов поиска Google. Смысл нашей работы прост и понятен: люди отправляют запросы в компанию Google по нескольку сотен миллионов раз в день, и за несколько долей секунды система Google должна принять решение о том, какие из миллиардов страниц им показать, и в каком порядке. В последнее время мы также делаем и другие вещи. Однако об этом чуть позже.

Удивительно, но о рейтинге результатов Google, которым пользуется так много людей и настолько часто, известно очень мало. Это полностью наша вина, и сделано это намеренно. Откровенно говоря, мы не много рассказываем о том, что мы делаем. Этому есть две причины: конкуренция и злоупотребления. Про конкуренцию все понятно. Ни одна компания не станет делиться секретными рецептами со своими конкурентами.Что касается злоупотреблений: если мы сделаем наши формулы определения рейтинга слишком доступными, то увеличим возможность мошенничества с системой. Обеспечение безопасности за счет скрытности, конечно, не самый эффективный способ, но мы и не полагаемся исключительно на него, однако таким образом мы предотвращаем большое количество нарушений.

Алгоритмы определения рейтинга являются одним из наиболее привлекательных активов компании Google. Мы ими очень гордимся и очень их защищаем. По некоторым оценкам, если сложить все годы работы программистов и исследователей, ушедшие на разработку этих алгоритмов, то получится более 1000 лет, и скорость инноваций с тех пор не снизилась.

Тем не менее полная секретность не является идеалом, и эта публикация в блоге позволит нам открыть немного больше информации, чем мы делали раньше . Мы постараемся выпускать такие сообщения периодическими, рассказывая о нововведениях, объясняя существующие функции, делясь советами, новостями и вступая в диалог. Начать я хотел бы с общей информации о нашем отделе. В дальнейшем мы планируем новые блог-посты на эту тему.

А теперь позвольте мне представиться. Меня зовут Уди Манбер. Я являюсь вице-президентом по инженерным разработкам в компании Google и возглавляю отдел качества поиска. Я работаю в компании Google более двух лет, а поисковыми технологиями занимаюсь почти 20 лет.

Основа отдела - это коллектив, который работает над определением основных рейтингов. Определение рейтинга - нелегкая задача. Она гораздо сложнее, чем многие могут подумать. Одна из причин этого состоит в различиях языков и отсутствии правил, которых следует придерживаться при создании документов. Стандартов, определяющих способ изложения информации, не существует. Поэтому мы должны "понимать" все веб-страницы, которые мог создать любой человек, по любому случаю. Это только половина проблемы. Нам также надо понять вводимые пользователями запросы, которые в среднем составляют менее трех слов, и сопоставить их с тем, как мы распознаем все документы. Не говоря уже о том, что разные люди ищут разные вещи. И все это нам надо сделать за несколько миллисекунд.

Самая известная часть алгоритма определения рейтинга - это PageRank, алгоритм, разработанный Ларри Пейджем и Сергеем Брином, основателями компании Google. PageRank используется и сейчас, однако теперь он является частью гораздо более сложной системы. В число других элементов входят языковые модели (способность обрабатывать фразы, синонимы, диакритические знаки, ошибки правописания и так далее), модели запросов (это имеет отношение не столько к языку, сколько к тому, как его используют люди), временные модели (на некоторые запросы самые лучшие ответы можно найти на странице, созданной всего 30 минут назад, а на некоторые - на страницах, которые выдержали испытание временем) и персонализированные модели (потому что все люди разные).

Другая группа сотрудников в нашем отделе отвечает за оценку эффективности нашей работы. Это делается различными способами, однако цель всегда одна: повышение удобства работы пользователей. Это не главная цель - это единственная задача. Каждую минуту выполняются автоматизированные проверки эффективности (чтобы все работало как надо), а также периодическая оценка качества в целом, и, что самое важное, оценка улучшений алгоритма. Когда у инженера возникает новая идея, и он разрабатывает новый алгоритм, мы его тщательно проверяем. У нас есть группа по работе со статистикой, которая рассматривает все данные и определяет ценность новой идеи. Каждую неделю проходят встречи (иногда и два раза в неделю), на которых мы прорабатываем новые мысли и одобряем нововведения. В 2007 году мы внедрили более 450 улучшений, что в среднем составило около 9 улучшений в неделю. Некоторые из них просты и очевидны -- например, мы исправили ошибку при обработке запросов, содержащих аббревиатуры на иврите (в иврите аббревиатуры обозначаются символом (") рядом с последней буквой, то есть аббревиатура IBM пишется как IB"M), а некоторые были очень сложными -- например, в январе мы внесли значительные изменения в алгоритм PageRank. Большую часть времени мы искали способы повышения релевантности, однако мы также работали над проектами, имеющими единственную цель - упрощение алгоритмов. Чем проще, тем лучше.

В течение последних двух лет одним из основных направлений нашей деятельности был международный поиск. Это значит, что мы работали со всеми языками, а не только с самыми распространенными. Например, в прошлом году мы внесли значительные улучшения в работу системы на азербайджанском языке, на котором говорят примерно 8 миллионов человек. За последние несколько месяцев мы запустили проверку правописания на эстонском, каталанском, сербском, сербо-хорватском, украинском, боснийском, латвийском, тагальском, словенском языках и фарси. Мы организовали всемирную сеть, участники которой предоставляют нам отзывы. Кроме того, у нас есть много добровольных помощников внутри компании Google, которые говорят на разных языках и помогают нам улучшить поиск.

Другая группа работает над разработкой новых функций и новых пользовательских интерфейсов. Для отличной машины нужен хороший двигатель. Но одного его недостаточно. Машина должна быть комфортабельной и легкой в управлении. Пользовательский интерфейс поиска Google довольно простой. Лишь некоторые из наших пользователей читают страницы справки - они могут обойтись без них (хотя читать их легко и мы продолжаем работать над их улучшением). Когда мы добавляем новые функции, мы стараемся сделать так, чтобы они имели интуитивно понятный способ работы и были удобны в использовании для всех людей. Одно из самых заметных введенных нами изменений - это универсальный поиск. Среди других - Блокнот Google, пользовательские системы поиска, и, конечно, множество улучшений страницы iGoogle. Группе по разработке пользовательского интерфейса помогают эксперты по юзабилити, которые проводят опросы пользователей и оценку новых функций. Они путешествуют по всему миру. Иногда они заходят в дома, чтобы посмотреть на работу пользователей в естественной обстановке. (Не беспокойтесь, они не придут без приглашения или без предупреждения!)

У нас есть группа, работа которой полностью посвящена борьбе со спамом и другими типами нарушений. Эта группа работает над множеством проблем: от скрытого текста до не соответствующих тематике страниц, которые имеют наборы ключевых слов, плюс другие схемы, используемые с целью получения более высокого рейтинга на страницах результатов поиска. Группа отмечает новые тенденции спама и борется с ними, обеспечивая масштабируемость предлагаемых решений. Как и все другие группы, она работает на международном уровне, охватывая разные языки и страны. Группа по борьбе с веб-спамом работает в тесном контакте с командой Центра веб-мастеров Google, чтобы обмениваться идеями с пользователями и узнавать мнение владельцев сайтов.

В компании есть другие отделы, которые работают над самыми разными проектами. В целом организационная структура достаточно неформальная. Люди переходят из одной группы в другую, а а новые проекты начинаются постоянно.

Один из наиболее важных моментов, связанных с поиском, состоит в том, что ожидания пользователей растут очень быстро. Запросы завтрашнего дня будет выполнить гораздо сложнее, чем сегодня. Точно так же, как закон Мура определяет удвоение скорости компьютерного расчета каждые 18 месяцев, имеется и скрытый неписанный закон, согласно которому самые сложные запросы в течение короткого времени становятся вдвое сложнее. Это невозможно выразить точными цифрами, но мы все это чувствуем. Мы знаем, что не можем спокойно почивать на лаврах - нам надо упорно работать, чтобы решить эту задачу. Как я говорил ранее, мы будем и в будущем сообщать вам об обновлениях в качестве поиска, поэтому следите за новостями.

Автор: Уди Манбер, Вице-президент по инженерным разработкам, отдел качества поиска

 

Добавить комментарий:
Текст комментария: смайлики

Проверка орфографии: (найти ошибки)

Прикрепить картинку:

 Переводить URL в ссылку
 Подписаться на комментарии
 Подписать картинку