Звідки в базі даних пошукової системи всі сторінки з сайтів?

Звідки в пошукової системи сторінки з сайтів?

Спершу невеликий відступ.

Інтернет – глобальний інформаційний простір, заснований на самих передових технологіях, володіє широким спектром інформаційних та комунікаційних ресурсів, містить колосальні обсяги даних. Поява Інтернету заведено пов’язувати з 1969 р. Саме тоді в США почалися роботи з об’єднання в невеликі мережі груп комп’ютерів. Це робилося з метою забезпечення збереженню інформації в критичних умовах. Вже в 1971 р., на основі цих розробок виникла електронна пошта. Успіх цих починань і заклав основи Інтернету в нинішньому вигляді. Справжній розквіт Інтернету почався в 1992 році, коли була винайдена нова служба, яка отримала назву «Всесвітня павутина» (World Wide Web, або WWW, або просто Web (веб)). WWW дозволяє будь-якому користувачеві Інтернету представляти свою інформацію в мультимедійній формі, пов’язуючи її з публікаціями інших авторів і надаючи зручну систему навігації (швидкого переходу по посиланнях від однієї публікації в іншу).

Які основні напрямки використання Інтернету для користувача?

Тут можна виділити три напрямки: 

  • Джерело інформації; 
  • Засіб обміну інформацією; 
  • Місце розміщення особистої інформації.

З усіх напрямків роботи бібліотеки найвідчутніший вплив Інтернет завдав інформаційно-бібліографічній діяльності. Той факт, що енциклопедичні, довідкові та бібліографічні джерела трансформуються в електронну форму швидше будь-яких інших видів документів, вже в найближчі два-три роки призведе до того, що цифрові або електронні ресурси і технології будуть повністю домінувати в інформаційно-бібліографічної діяльності бібліотек. Згідно з даними Інтернет-статистики ДПНТБ Росії, попит на електронні ресурси на даний час в 5-7 разів перевищує попит на ресурси друковані. Це означає, що електронні ресурси «працюють» в 50-70 разів активніше, ніж друковані. На відміну від пошуку документів в бібліотеці або архіві, пошук в Інтернеті не дає в руки користувача безпосередньо сам ресурс. при такому пошуку визначається тільки місце, де ресурс фізично зберігається. Це місце називається адресою ресурсу. Користувачеві повідомляється всі адреси, де знаходяться ресурси, що можуть його зацікавити. Потім користувач сам вибирає потенційно цікаві йому адреси. Адреса ресурсу називається Uniform Resource Locator (Уніфікований покажчик ресурсу). Скорочено його називають URL. 

База даних пошукової системи (індекс) – організований масив інформації, в якому зберігаються дані, зібрані модулями індексування пошукової системи (пошуковими ботами). Кількість інформації з проблеми ІВРНО в мережі Інтернет експоненціально зростає. Існують як англомовні, так і російськомовні професійні Інтернет-сайти, присвячені тим чи іншим аспектам високопродуктивних обчислень. Разом з тим саме ця велика кількість інформації часто призводить до ускладнення при необхідності знайти інформаційний ресурс, в мережі Інтернет, присвячений тій чи іншій проблемі, актуальної для користувача в цей момент. Ці фактори призводять до необхідності створення як бази даних з проблеми ІВРНО, так і автоматизованої пошукової системи.

Як перевірити, чи потрапила сторінка в індекс?

1. Вручну, через рядок пошуку.

1.2. За допомогою оператора пошуку site: domen.com можна перевірити індексацію всього сайту.

1.3. За допомогою оператора site: domen.com/page1, де domen.com/page1 – url сторінки, які перевіряють.

1.4. За допомогою оператора пошуку cache: domen.com/page1, де domen.com/page1 – url сторінки, які перевіряють.

2. За допомогою веб-майстра Google.

Більше цікавих фішок для перевірки наявності сторінки шукайте в індексі, враховуючи спеціальну таблицю для масової перевірки url-адрес.

Чому сторінка випадає з індексу?

1. Встановлено заборону на сканування в robots.txt, є мета-тег <meta name = “robots” content = “noindex” />. Якщо сторінки вже потрапили в індекс, при повторному скануванні робот побачить заборону і сторінки вийдуть з бази індексованих.

2. На сторінці існує атрибут rel = “canonical” для іншої сторінки сайту.

3.Відповідь сервера містить HTTP-статус 4XX або 5XX, це перешкоджає обробці сторінки роботом.

4. Сайт знаходиться під фільтрами пошукових систем (через неунікальність контенту).

5. На сторінці присутні дублі контенту.

6. Сторінка перенаправляє робота – відображається 301 код відповіді сервера.

Всі ці мільярди сторінок в базі даних пошукової системи з’являються там не самі по собі. Їх збирає спеціальна програма, яка називається пошуковий бот (вебпавук чи краулер), який спочатку сканує вміст кожної сторінки, а потім виділяє посилання і направляє роботу пошукового бота далі.

Пошуковий бот по посиланню переходить з однієї сторінки на іншу сторінку і сканує їх одна за одною. І в такий спосіб бот рухається по посиланнях, переходить зі сторінки на сторінку, скануючи їх. Коли бот просканував вашу сторінку, то формує два файли.

Що це за файли?

В першому буде просканований вміст сторінки

В другому набір посилань.

Як бот формує файли?

Бот формує таблиці, проаналізувавши, які слова повторюються на сторінці та як часто.

Індексація

Індексування – об’єднання і систематизація всієї зібраної на етапі сканування інформації про сторінки за допомогою створення спеціальної бази, індексу.

Не всі проскановані сторінки потрапляють в індекс. При скануванні робот вносить у свою базу всі сторінки, які може виявити, але в індекс увійдуть тільки ті, які робот визнає корисними для користувача.

Також не варто плутати індексування з ранжируванням. На даному етапі ранг документу не присвоюється тому, що база постійно поповнюється новими сторінками й визначити релевантність документа однозначно не можна – через секунду може з’явиться більш релевантна сторінка. Тому ранг сторінці присвоюється безпосередньо в момент пошуку.

Види пошукових баз даних:

Основний індекс. Сховище інформації, організоване на основі динамічно масштабних кластерів. У ньому містяться не повні версії вебдокументів, а лише ключові фрази, фрагменти тексту, якими вони оточені, і посилання на вихідну сторінку. Такий підхід дозволяє суттєво прискорити процедуру підбору контенту, релевантного введеному запиту, шляхом застосування алгоритмів інвертованої дії, а також скороченню обсягу самого індексу; 

Тимчасова база. У ній представлені результати індексування ресурсів, на яких новий контент розміщується мінімум 1 раз на добу (до таких належать блоги, мережеві ЗМІ, інформаційні портали). Ранжування сторінок, занесених у “швидку” базу, здійснюється в залежності від внутрішніх чинників оптимізації конкретного документа (релевантність спожитих ключових слів у тематиці тексту, частота їх вживання, унікальність). Тимчасовий індекс очищається після кожного апдейту, а дані з нього переносяться в основний, при цьому для оцінки якості контенту застосовуються стандартні алгоритми.

Цікаві факти

Власні бази даних має аж ніяк не кожен пошуковик, а лише найкращі гравці ринку (такі, як Yandex, Google, Yahoo). Інші сервіси використовують у своїй роботі індекс “старших братів”. Так, російські Mail.ru і Rambler засновані на алгоритмах і відомостях, наданий Яндекс, американський AOL веде пошук по базі Гугл. Це обумовлено тим фактом, що для збору, зберігання та обробки великих обсягів інформації потрібні обчислювальні потужності, які непрофільні підприємства не можуть собі дозволити (для прикладу, станом на травень 2017 року базі даних Яндекса присутні понад 35 мільярдів веб-документів).

За детальнішою інформацією звертайтеся у JustSEO