Поисковые системы
Для того чтобы ваш сайт был популярным и его предлагали пользователям Google, Яндекс или любой другой поисковый сервис, нужно понимать, как работает поисковая система.
Ведь когда вы используете поиск для того, чтобы найти ближайшую кофейню вы даже не задумывается над тем как работает технологическая составляющая этого процесса, но Вас может заинтересовать как работает система и как ей удается просмотреть всю сеть и показать результаты и все еще сделать с молниеносной скоростью.
Как же это происходит вы можете прочитать ниже, но сначала познакомимся с принципами Google:
- Интересы пользователей больше всего.
- Лучше делать что-то одно, но действительно хорошо.
- Чем быстрее, тем лучше
- Мы верим в демократию в Интернете
- Чтобы пользоваться интернетом, не нужен компьютер
- Бизнес должен приносить пользу всем
- Информации, больше чем кажется
- Информация должна быть доступна всем.
- Серьезным можно быть и без галстука
- Всегда можно сделать лучше.
Итак, когда мы ищем какую-то информацию, например в Google или Yahoo, то выполняется определенный алгоритм действий на который мы можем повлиять.
Первое ошибочное впечатление, когда думаем, что поиск происходит в интернете.
На самом деле каждый поисковый сервис имеет свою базу данных. Например, если поиск происходит именно в Google, то поисковая система не ищет информацию во всем интернете, а только в своей базе данных, где миллиарды страниц.
Принципы работы поисковой системы
- Поисковый сервер
- Базы данных
- Модуль индексирования
Модуль индексирования состоит из 3 программ-ботов:
- Spider (паук) — программа предназначена для сканирования веб-страниц .
- Crawler (странствующий паук) — исследует найденные ссылки, ищет новые документы, еще не известны поисковой системе.
- Indexer (робот-индексатор) — программа, анализирующая страницы, которые сканировали роботы-пауки. Когда мы задаем поиск определенного вопроса, поисковая система отбирает лучшие страницы и упорядочивает их в поисковой выдаче.
Поисковые работы — специальные программы, как автоматически периодически заходят на сайты, собирают сведения о содержании страниц.
Поисковые системы сканируют интернет проявляя содержание: веб-страницы, изображения и видео. Они используют компьютерные программы анализа страниц, сканеры: пауки или работы. Работы переходят от страницы к странице, используя ссылки без остановки — их назначение просматривать веб-страницы, выявлять новые ссылки или содержание и включать их в индекс. В каждую поисковую систему заложена своя программа, однако Процесс отбора и упорядочения начинается задолго до того как вы ввели поисковый запрос, его можно разделить на 3 последовательных этапа:
- Сканирование
- Индексация
- Ранжирование
Сканирование — процесс выявления поисковыми ботами новых страниц к которому есть доступ, в сети Интернет, которые до этого не были включены в базу Google.
Как Google обнаруживает новые страницы?
1. По ссылке, но новые страницы, размещены уже в базах Google.
2. Владелец сайта самостоятельно сообщает Google о новых страницы через search console или файл sitemap.
3. Google самостоятельно выявляет новые страницы.
Как только Google самостоятельно наткнулся на новую страницу, поисковый бот сканирует каждый ее фрагмент и вносит информацию в базу данных — это процесс индексация.
Индекс — это огромный список страниц и содержания обнаруженного работами, поисковая система использует индекс как источник информации, отображаемой в результатах поиска. Но не вся информация добавляется в индекс, например поисковые системы могут находить много копий полностью одинаковой информации, размещенной на родных сайтах.
Как такое возможно? Представьте себе, что вы ищете новую кофеварку, вы можете заметить что у неё абсолютно одинаковые описания на сайтах разных продавцов, например описание они взяли у производителя. Тогда не нужно добавлять сотни страниц с одинаковым текстом и поисковые системы самостоятельно решают какие страницы добавлять в индекс, какие нет.
Что делать если у вас также онлайн-магазин кофеварок?
Вероятно вам нужно самостоятельно составить описание кофеварки, чтобы не было подобного.
Ранжирование — процесс оценки страницы сайта и определение ее места в поисковой выдаче по заданному запросу пользователя, выбор наиболее полезного.
Что такое рейтинг?
Cистема сопоставляет набранные вами слова с индексом и начинает искать совпадения.
Но, что делать когда оно превышает сотни, миллионы?
Метод по которым это делается скрыто, это что-то вроде скрытого источника.
Есть сотни способов:
— Анализ лексики
— Количество связанных веб-сайтов
— Новинка содержания
Но какой бы ни была формула, остается общая цель — найти для пользователя именно то, что он ищет.
Основные алгоритмы Google
- Фред — работает с марта 2017 года и снижает позиции страниц сайта, которые созданы только для заработка. На таких ресурсах, как правило, более не качественный контент, противоречит позиции Google давать полноценный ответ на вопрос пользователя.
- Панда — работает с февраля 2011 года и снижает позиции сайта, которые слишком наполнены не уникальным переспамленним контентом.
- Колибри — работает с августа 2013 года и оценивает содержание контента в целом.
- Голубь — работает с июня 2014. Алгоритм определяет местоположение пользователя в приоритете выдачи предоставляется преимущество компаниям, которые находятся ближе к пользователю.
- Пингвин — работает с апреля 2012 года и снижает позиции сайта, которые манипулируют внешними ссылками.
- Опоссум — работает с сентября 2016 его цель исключить из выдачи страниц, знакомыми адресами и телефонными номерами, ведь это противоречит нормам выдачи запросов Google пользователю.
- YMYL — с 2015 года тщательно проверяет и оценивает качество контента страниц, которые могут влиять на здоровье, безопасность и финансовую стабильность пользователя.
- Асессоры — обученные люди, проверяющие релевантность в поисковой выдаче, чтобы уменьшить возможность попадания в топ сайтов, которые не представляют никакой пользы для пользователя. К сайтам, которые наполнены не качественным контентом или к сайтам, где используются черные методы продвижения сайтов в топ выдачи поиска запроса, Google может применять санкции:
-Бар — полное исключение веб-ресурса по выдаче и индекса.
-Пессимизация — снижение позиций веб-страниц в поисковой выдаче
-Исключение — включает в себя выборочное исключения страниц с веб результатов.
Что такое база данных?
Комплекс хранения данных, массив информации, в котором хранятся определенным образом переработаны параметры каждого обработанного модулем индексации и загруженного документа. Наличием базы данных объясняется высокая скорость вывода результатов поиска на страницы поисковой системы.