Программа, которая совершает обход сети, имеет название сетевого агента или робота. В качестве базы работы выступает список из адресов. Поисковая система Yandex.Ru дополнительно включает в себя модули индексации для того, чтобы распознавать кодировки и определять уровень уникальности для текста.
Чтобы узнать информацию о появлении новых страниц необходимо прибегнуть к двум способам. Первый заключается в личном добавлении их владельцами. Второй состоит в поиске роботом ссылок в проиндексированных страницах. Сервера, расположенные в доменах РФ, а также странах СНГ принимаются по умолчанию.
Главное правило индексации заключается в индексировании страницы, согласно истинному адресу. Yandex имеет возможность бороться со всевозможными проявлениями спама. Робот имеет возможность сохранять дату от последнего обхода каждого адреса, дату, когда было внесено изменение, а также дату, когда было внесено последнее изменение в базе для поиска. Оптимизация направлена на более частое посещение серверов, которые изменяются чаще остальных. Yandex.ru можно отнести к поисковой машине полнотекстового типа.
Для проверки страницы на предмет индексации необходимо скопировать определенную информацию со страницы, а после этого данный запрос адресовать поисковой системе. В случае, если на первой странице нет необходимого результата поиска, значит, станица не была обработана.
Существуют определенные правила, согласно которым необходимо добавлять страницу в поисковую систему:
|
|
||||||||
|
|
||||||||