Поисковые системы — как они устроены (часть вторая)

быстрый поискИтак, я завершаю серию статей о поисковых системах. На помню, что за этой была серия, предыдущих, последняя из которых имеет аналогичное название, но с приставкой «часть первая»; в ней же присутствуют все ссылки на предыдущие стати из этой серии. Для тех, кто желает иметь полную информацию, рекомендую перейти на упомянутую статью и «пробежаться» по остальным статьям.

Поисковые системы — как они устроены (часть вторая)

Представление сайтов внутри поисковых систем

Для удобства обработки данных ПС заносит все найденные в интернете страницы в свой  индекс, который сжимает их объемы для оптимального хранения. Как это может происходить, за счет чего возможно сокращение объема информации?  Что бы это понять, необходимо знать, как документы представляется в поисковой системе.
А вот как. Сначала происходит очистка страницы от различных нетекстовых элементов, таких как графика, HTML-теги и т.п. В результате остается,  так называемый, «чистый» текст. Он  обрабатывается очень интересным способом:   все слова из текста располагаются в алфавитном порядке, а все элементы, которые словами не являются (пробелы, знаки препинания и прочее) отбрасываются. При этом поисковая машина не заносит в индекс слова в той форме, в которой они приведены в тексте. С помощью алгоритма лингвистической обработки все слова приводятся к начальным грамматическим формам или основам. Это позволяет сократить место в индексе и сделать поиск более точным. Из обработанных основ составляется  некоторое подобие словаря и в нем  указывается адрес страницы и конкретное место расположения каждой основы (номер вхождения). В поисковом индексе хранятся только номера основ, а сами основы располагаются отдельно. Если на странице находится несколько вхождений одного слова, то в индексе указывается номер этой страницы и все вхождения этого слова на ней.  Иначе говоря, происходит обратная копия страницы. Такой индекс поисковой машины называется инвертированным, или инверсным.
Но поисковые машины сохраняют и прямой индекс, который представляет собой сжатую текстовую копию всех страниц интернета. Это значительно экономит время, например, при показе цитат. Сохраненная копия сайта — это страница, сохраненная в прямом индексе поисковой системы.

                            Процесс поиска связанной информации

Чтобы понять, что именно ищет пользователь, поисковая система проводит тщательный лингвистический анализ запроса. Сначала определяется язык, на котором был сформулирован запрос. Ниже я   рассмотрю эту тему на примере Яндекса, где индикатором языка является алфавит, используемый в запросе, а также характерные особенности сочетания букв, присущие различным языковым группам.

Интересна работа ПС Яндекса  по трактовке морфологии. Поисковая система различает не только слова из запроса во всех их морфологических формах, но и синонимы. Обращаю внимание:  при ранжировании текста  предпочтение отдается точному вхождению. Это необходимо учитывать при продвижении страницы под конкретный запрос.
Также поисковой системе приходится разграничивать омонимы (слова с одинаковым написанием, но разным значением). Например, одно и то же слово может быть истолковано и как глагол, и как существительное.

Важно  отметить, что все действия по лингвистическому анализу запроса поисковая система успевает осуществить за сотые доли секунды!
Надеюсь понятно, что в результате  лингвистической обработки запрос, который вводит пользователь, и тот, который обрабатывается поисковой системой, сильно отличаются друг от друга.
Кстати, язык, на котором сформулированы запросы к поисковым системам, называется информационно-поисковым языком, или языком поисковых запросов.

                                                         Поиск релевантной информации

Сейчас практически  невозможно придумать запрос, по которому ПС не сможет найти менее десяти источников для ответа на него. Для большинства осмысленных запросов результат поиска — сотни, тысячи, даже  миллионы страниц. Интернет растет а следовательно, и страниц становится все больше. Поэтому основная цель поисковой системы — показать наиболее релевантную информацию, то есть  только те страницы, которые соответствуют запросу.

Как же  происходит поиск релевантной информации? Итак,  пользователь ввел запрос в поисковую строку. Роботы поисковой системы мгновенно переформировывают запрос и осуществляют поиск в индексных базах, которые созданы при индексации сайтов. Все страницы, которые робот найдет по данному запросу, будут считаться релевантными. Заключительный шаг — процесс ранжирования найденных страниц (выстраивание их в порядке убывания от наиболее релевантных к наименее релевантным).
Ранжированный список страниц сайтов (ссылки на определенные страницы), будет предоставлен на страницах результатов поиска.

Как определить релевантные запросу страницы на своем сайте?

Очень важный вопрос, неправда ли?  Отвечаю: В этом  случае необходимо открыть страницу расширенного поиска. Для Яндекса это страница http://yandex.ru/search/advanced, а для Google — https://www.google.com/advanced_search. В соответствующие строки нужно ввести запрос и сайт, на котором требуется найти релевантные страницы. При необходимости вводятся дополнительные параметры. После нажатия кнопки «Найти» выдается список релевантных страниц на сайте.

Можно так же  определить релевантные страницы для списка запросов используя различные сервисы, например , например, агрегатором, где осуществляется  продвижение сайтов  — rookee.ru. Для определения релевантных страниц необходимо добавить сайт и список запросов в систему, которая сама определит релевантные страницы. Тогда,  зная свои  релевантные страницы, можно грамотно продвигать их под желаемые запросы и, — соответственно личному бюджету. 🙂

Теперь более подробно, что же такое…

                                                                            Процесс ранжирования

Ранжирование —  это процесс сортировки страниц в порядке убывания по степени их значимости для пользователя (релевантности). Со времен основания поисковых систем алгоритмы ранжирования существенно усложнились, качество поиска  тоже выросло. Например, поисковая система Яндекс с ноября 2009 года использует метод машинного обучения «Матрикснет», запущенный в новом алгоритме под названием «Снежинск». Он позволяет строить и применять сложную формулу ранжирования, в которой используются тысячи факторов и их комбинации.

Условно процесс ранжирования можно разделить на два этапа:
➜➜ выбор наиболее релевантной страницы каждого сайта;
➜➜ вычисление значения релевантности для каждой страницы.
Поскольку на одном сайте может быть несколько страниц, дающих ответ на запрос пользователя, из них выбирается одна, наиболее релевантная. Чтобы показать наибольшее количество сайтов, в поисковой выдаче для одного сайта показывается, как правило, только одна страница. В некоторых случаях может открыться  несколько страниц с одного сайта.
Показатель релевантности определяется посредством применения сложных многоступенчатых формул, где учитываются различные факторы и их комбинации. Одним из главных факторов оценки релевантности считается степень соответствия содержимого страницы введенному запросу.
В Яндексе к этому фактору практически всегда добавляется региональная принадлежность сайта.
Страницы, которые были отобраны при первой фильтрации, участвуют в дальнейшем, более строгом, отборе. Чем выше значение релевантности, тем больше факторов участвует в процессе ранжирования страницы и тем точнее она оценивается. Причем для самых релевантных страниц значения тех или
иных факторов может быть различным.

При вычислении релевантности поисковыми системами используются
несколько основных групп факторов:
➜➜ Факторы страницы, или статические факторы. Связаны
непосредственно с самой страницей. Например, количество ссылок на
данную страницу, возраст страницы и домена, технические параметры,
поведенческие показатели сайта и страницы.
➜➜ Факторы запроса. Это уточняющие признаки запроса, влияющие на
сортировку страниц по типу запроса — геозависимый, коммерческий,
навигационный, транзакционный и т.д.
➜➜ Динамические факторы. Они одновременно связаны и с запросом, и со
страницей. Например, присутствие в тексте слов запроса, их количество
и расположение, количество ссылок с анкором, равным ключевому слову,
количество общей информации на сайте по данному запросу.
Кроме положительных факторов ранжирования, увеличивающих релевантность страницы и сайта, поисковыми системами могут применяться санкции в виде пессимизации, т.е. намеренное занижение позиций в выдаче. Это  и есть так называемые фильтры, которые из-за грубых нарушений могут быть
наложены на отдельную страницу, на пару «запрос — страница», а также на сайт в целом. После вычисления значения релевантности страницы сортируются относительно друг друга. Коротко  все можно охарактеризовать одной фразой: чем больше значение релевантности для страницы, тем выше она окажется в результатах поиска.

                                               Смысл апдейтов, смен алгоритмов и сбоев

В интернете каждый день создаются новые страницы и меняется информация на уже существующих площадках. Все изменения накапливаются в базе
поисковой системы, индексируются, а затем переносятся в «базовый поиск» — это и называется апдейтом.
В различных поисковых системах апдейты происходят с разной периодичностью. Для Яндекса это в среднем 1 раз в неделю, а в Google обновление базы происходит каждый день.
В зависимости от того, какие именно изменения начинают учитываться при очередном обновлении системы, различают несколько типов апдейтов.
Рядовой апдейт Яндекса
➜➜ Текстовый апдейт — изменение выдачи, связанное с попаданием в индекс
поисковой системы новых страниц и документов. Происходит довольно
часто — один-два раза в неделю. Учитывается релевантность текстов на
страницах.
➜➜ Ссылочый апдейт — изменение выдачи, связанное с пересчетом веса
ссылок, проставленных на сайт и страницу. Если на сайт поставлены
ссылки, как правило, они будут проиндексированы поисковой системой в
срок от недели до месяца.

➜➜ Региональный апдейт — изменение выдачи, связанное с пересчетом
региональных факторов.
➜➜ Поведенческий апдейт — изменение выдачи, связанное с обновлением
поведенческих данных и учетом их в ранжировании.
➜➜ Апдейт ТИЦ — в этот апдейт происходит пересчет тематического
индекса цитирования (ТИЦ) для всех ресурсов. Происходит примерно один
раз в два месяца.

Рядовой апдейт Google
➜➜ Апдейт выдачи — изменение выдачи в Google происходит ежедневно, и
учитываются все факторы — как внутренние, так и внешние.
➜➜ Апдейт PR — происходит изменение показателя авторитетности ресурса
и страницы. В Google этот показатель присваивается каждой странице
сайта, а не всему ресурсу в целом, как ТИЦ в Яндексе. Такой апдейт
происходит примерно раз в 3-4 месяца или полгода.

Смена алгоритма
Поисковые системы время от времени вводят в работу новые алгоритмы ранжирования, после которых обычно серьезно меняется выдача. Вспомним хотя бы  недавний Penguin. При этом в ранжировании начинают учитываться как совершенно новые факторы, так и старые, но уже по-новому.

Доработка алгоритма
Oказывается, выложить алгоритм в основную выдачу поисковой системы не так просто, поскольку не все факторы можно учесть заранее и может потребоваться
доработка. Выдается так называемая бете-версия.Поэтому поисковые системы осуществляют корректировки алгоритмов без выкладывания обновленной индексной базы. Корректировки могут вноситься как до официального выхода алгоритма, так и после выкладки.
Перед выкладкой все доработки алгоритма считаются тестовыми. Часто тестируется какая-то отдельная часть выдачи. Например:
➜➜ определенные тематики;
➜➜ отдельный регион;
➜➜ только информационные запросы;
➜➜ только коммерческие запросы;
➜➜ геозависимые запросы;
➜➜ геонезависимые запросы;
➜➜ любая другая группа выдачи.
Обычно вносят сразу несколько корректировок, поэтому колебание позиций может происходить каждый день для разных групп пользователей. После анализа результатов от выложенных доработок основной алгоритм корректируется и интегрируется в выдачу поисковой системой.

                                                        Оценка результатов поиска

Поисковые системы постоянно оценивают качество результатов поиска
и вносят необходимые поправки в алгоритм. Так, в Google идут активные
разработки персонализированного поиска, основанного на данных о
предпочтениях пользователя. Перед сменой своих алгоритмов ранжирования
Яндекс и Рамблер активно используют динамическую выдачу, когда разным
пользователям по одинаковым запросам показываются разные результаты
поиска для оценки кликабельности элементов.
Среди основных критериев оценки выдачи выделяются:
➜➜ скорость поиска — как быстро пользователь получает ответ на свой
вопрос, поскольку время ожидания значительно влияет на лояльность
пользователей;
➜➜ полнота ответа — все ли ответы представлены, поскольку часть
запросов имеет более одного значения, а другие запросы направлены на
получение нетекстовой информации;
➜➜ точность ответа — полностью ли отвечают на вопрос пользователя
документы, присутствующие в результатах поиска.
Для повышения оценок выдачи проводятся дополнительные исследования. Например, в Яндексе прибегают к помощи асессоров — специально обученных
сотрудников, которые проверяют сайты на соответствие поисковому запросу.
На основании отчетов асессоров проводится машинное обучение с целью обновления алгоритмов ранжирования. Также в своей работе Яндекс активно прибегает к помощи заинтересованных лиц. Пользователям предлагается перед выкладкой нового алгоритма ранжирования провести его тестирование
на сервисе Буки.Яндекс, а затем оставить свое мнение.

Рассказывать о работе поисковых систем, истории их развития можно бесконечно долго. Я ограничился лишь основными положениями и как мог, довел их до вашего сведения.

Нужно ли обладателям сайтов иметь хотя бы общее представление о механизмах работы поисковых машин? Полагаю — нужно.

 Источник

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *