|
![]() |
|
Сравнительные характеристики российских поисковых системСтатьи → Поисковые системыЭти данные являются несколько устаревшими (январь 99 г.), но все же представляют значительные интерес для понимания принципов работы поисковых систем. Рассматриваемые в данной таблице Rambler, Yandex и Апорт являются основными полнотекстовыми поисковыми системами, представленными в русскоязычном секторе Интернет. Системы проводят автоматическое сканирование документов только с доменов ru, su, ua и других доменов, принадлежащих странам ближнего зарубежья. При регистрации страницы, располагающейся в зоне. com, робот проверит корневую страницу ресурса. При отсутствии русского текста индексация не произойдет… I. Основные характеристики поисковых систем
* — включая поиск по TOP100 II. Факторы, влияющие на определение релевантности страницы
Пояснения к таблице I. Основные характеристики поисковых систем Размер поисковой системы Параметр, характеризующий объем информации, проиндексированной системой: (URL) — кол-во хранящихся в индексах адресов страниц; (DOC) — кол-во проиндексированных документов. Их, как правило, меньше чем (URL), т.к. по нескольким URL может находиться один и тот же документ; (SERV) — кол-во проиндексированных серверов. На одном сервере может располагаться от одной до нескольких тысяч страниц, поэтому данная цифра больше свидетельствует о широте охвата системы, чем об ее информационном объеме. От размера поисковой системы зависит, будет ли Ваш веб-сайт представлен в ее индексах, сколько страниц веб-сайта будет проиндексировано и т.д. Кол-во индексируемых в день страниц Кол-во страниц, которые индексируются роботами поисковых систем за одни сутки. Чем выше данный параметр, тем чаще происходит переидексация страниц, тем актуальнее информация в системе. Период обновления страницы в индексах Среднее и максимальное время, через которое происходит повторная индексация страницы. Содержимое многих веб-страниц часто меняется, некоторые страницы попросту исчезают, поэтому для поисковой системы немаловажно поддерживать актуальную информацию в своих индексах. Однако ссылки в поисковой системе могут быть как однодневной давности, так и не обновлявшимися несколько месяцев. Причина в том, что робот не возвращается на все страницы через одинаковый промежуток времени. На скорость обновления могут влиять следующие факторы:
— регистрация по запросу пользователя, при этом указанная страница заносится в индекс «вне очереди»; Появление в индексах после регистрации Время, через которое зарегистрированная пользователем страница появится в индексах системы. По идее робот поисковой системы рано или поздно найдет Вашу страницу, если на нее указывают другие веб-ресурсы. Но на практике гораздо быстрее это произойдет при их непосредственной регистрации (обычно ADD URL). Появление в индексах незарегистрированных страниц При регистрации (add url) пользователи, как правило, указывают URL главной страницы сайта. При этом поисковые системы обычно оперативно помещают в индексы указанную страницу и ставят весь остальной сайт в очередь на индексацию. Данный пункт указывает период, через который остальные страницы сайта появятся в индексах. Глубина индексирования Данный пункт показывает, сколько страниц помимо указанной будет индексировать поисковая система. Как правило, у крупных поисковых машин нет ограничения на глубину, и их роботы пытаются проиндексировать все страницы веб-сайта. Это не всегда получается, т.к. на их пути могут возникнуть преграды, например, такие как фреймы, Image maps, динамически созданные страницы и т.д. (см. ниже). Ряд поисковых систем (например, Infoseek, Lycos) при индексации ограничиваются лишь некоторым кол-вом страниц веб-сайта. Кол-во страниц зависит как от самой системы, так и от популярности индексируемого ресурса. Поддержка фреймов Некоторые поисковые системы не понимают фреймовой структуры сайта. Вследствие этого практически все страницы Вашего сайта могут быть не проиндексированы. Поддержка ImageMaps Не все поисковые системы могут следовать по ссылкам, указанным посредством image maps. Вследствие этого некоторые страницы Вашего сайта могут быть не проиндексированы. Индексация закрытых разделов Ряд поисковых машин могут индексировать защищенные разделы на серверах, если им указать login и пароль. Пользователь не сможет сразу перейти на защищенную страницу и изучить всю информацию, но благодаря поисковой системе он будет знать, что такая информация существует и, возможно, примет решение заплатить и получить к ней доступ. Популярность веб-сайта Поисковая система может определить «популярность» веб-сайта по количеству ссылок на него с других веб-ресурсов. «Популярность» может быть одним из факторов в принятии системой решения о том, индексировать данный веб-сайт или нет. Определение частоты обновления Некоторые поисковые машины определяют, насколько часто обновляются те или иные страницы. Данная информация помогает соответствующим образом спланировать график повторных визитов роботов для переиндексации страниц. Часто обновляемые ресурсы посещаются чаще, статичные страницы — реже. Robots.txt, Meta Robots В силу некоторых обстоятельств администратор сайта может не желать индексации всех или определенных страниц своего веб-ресурса. Избежать индексации можно двумя путями: — c помощью файла Robots.txt, размещенного на веб-сервере. Его спецификации Вы можете изучить по адресу http://info.webcrawler.com/mak/projects/robots/exclusion.html — при помощи специального мета-тега, который помещается на конкретную страницу веб-сайта и предписывает роботам не заносить ее в индексы системы. Выглядит следующим образом: <META NAME= «ROBOTS» CONTENT= «NOINDEX»> Возможность проверки страницы на наличие в индексах Очень полезная опция, которой обладают далеко не все поисковые машины. Позволяет определить наличие в индексах системы той или иной страницы и посмотреть, как она выглядит в системе.
Синтаксис запроса для Rambler — $URL: host/url_name Синтаксис запроса для Yandex — попробовать добавить страницу на http://yandex.ru/addurl.html, если страница уже есть в индексах, система выдаст соответствующее сообщение. Синтаксис запроса для Апорта — url=www.promotion.aha.ru. Возможность проверки наличия ссылок с других страниц Для человека, занимающегося продвижением сервера, немаловажно знать, какие ресурсы сети содержат на него ссылку, в каком контексте эта ссылка используется и т.д. Поэтому возможность вывода сайтов, содержащих подобные ссылки, придает поисковой системе дополнительную ценность. Синтаксис запроса для Апорта — link=www.promotion.aha.ru (пока можно указывать только имя сервера). II. Факторы, влияющие на определение релевантности страницы Популярность страниц Для каждой страницы поисковая система может определить, какое количество веб-ресурсов имеют на нее ссылку. Некоторые системы учитывают данный параметр «популярности» и считают подобные страницы более релевантными запросу. В этом действительно есть логика, т.к. наличие большого кол-ва ссылок, как правило, свидетельствует о полезности и информативности страницы. Мета-теги Не все системы поддерживают мета-теги: description и keywords, т.е. учитывают ключевые слова, содержащиеся в этих тегах, при определении релевантности страницы. Индексация в поле ALT Не все системы учитывают ключевые слова, содержащиеся в поле ALT тега IMG, при определении релевантности страницы. Для справки: в поле ALT заносится альтернативная текстовая подпись к картинкам на странице. Индексация текста в комментариях Не все системы учитывают ключевые слова, содержащиеся в комментариях, при определении релевантности страницы. Для справки: комментарии не отображаются в браузере и посетители сайта их обычно не видят. В основном, используются для служебной разметки html-страницы и содержат информацию, не предназначенную для широкого круга пользователей. Стоп-слова Для экономии места и увеличения производительности некоторые поисковые системы не включают в индексы слова, встречающиеся на веб-страницах очень большое кол-во раз. Например, «www», артикли «а», «the» и т.д. Морфологический поиск Если поисковая система поддерживает морфологию, то поиск будет осуществляться не только по указанному слову, но и по всем его морфологическим формам. Т.е., например, при запросе «баннер» такая поисковая машина найдет также страницы, содержащие «баннера», «баннеров», «баннере» и т.д. Учет регистра Некоторые поисковые системы чувствительны к запросам с учетом регистра, другие — нет. Например, поисковая система AltaVista при запросе «banner» выдаст Вам все страницы, содержащие слово «banner», где буквы могут быть в любом регистре, но при запросе «Banner» — только страницы, содержащие это слово с заглавной первой буквой. Meta-refresh В сети существуют страницы, которые автоматически переносят пользователя на другие веб-ресурсы. Причин, по которым они создаются, может быть много: сайт переехал на новое место и находится по другому адресу; страницы с редиректом созданы специально для поисковой системы, т.к. основные страницы сайта генерятся автоматически и не могут быть проиндексированы и т.д. Обычно такой автоматический редирект реализуется с помощью мета-тега refresh. Его синтаксис: <META HTTP-EQUIV= «Refresh» CONTENT= «10; URL=www.urlname.ru»> Поисковые системы ведут себя в этом случае по-разному:
— одни считают такие страницы спамом поисковых систем и не индексируют их; Спам поисковых систем Вполне понятно стремление каждого веб-мастера добиться того, чтобы при запросе по определенным ключевым словам его страница выдавалась как можно ближе к началу списка. Иногда желание добиться успеха на этом поприще толкает некоторых использовать неприглядные приемы искусственного увеличения релевантности свой страницы — спамить поисковые системы. В основном, спам заключается в использовании неоправданно большого кол-ва ключевых слов на странице. Причем их стараются использовать там, где они имеют наибольший «вес» для поисковой системы, — в заголовке страницы (теге title), названиях разделов и т.д. Часто для того, чтобы подобные дополнительные слова не портили посетителям впечатление от страницы, их пишут текстом, совпадающим по цвету с фоном страницы, пишут их мелким шрифтом и т.д. Разумеется, администрация поисковиков не одобряет подобные действия. Системы поиска призваны находить и отображать документы в соответствии с тем, что содержит текст, предназначенный для посетителей, а не по «обогащенной смеси» ключевых слов. Крупные международные поисковики применяют ряд мер по борьбе со спамом. Если таким системам попадется страница, которая содержит в мета-теге keywords одно и то же слово более 5 раз, или, например, невидимый для посетителей текст, она не будет проиндексирована системой. Наши поисковые системы, к сожалению, пока не поддерживают автоматических средств борьбы со спамом, и в таблице просто представлены те действия, которые расцениваются администрацией как спам. Несмотря на отсутствие автоматического контроля, я рекомендую не использовать описанные выше приемы, т.к.:
— спам поисковых систем сильно затрудняет поиск информации в Интернет; III. Факторы влияющие на отображение страниц в результатах поиска Длина заголовка (title) Максимальное кол-во сиволов из заголовка документа, которое отображает система. Если нет заголовка В сети встречаются страницы с пустым или отсутствующим тегом title (заголовком документа). Этот пункт показывает, что система выводит в этом случае. Вид описания (мета-тег, первый текст на странице и т.д.) Найденные документы каждая из систем отображает посвоему. Это могут быть первые N-символов текста со страницы, описание из мета-тега description, отрывки текста страницы, содержащие слова поиска и т.д. Длина описания Максимальное кол-во символов в описании страницы. Дата обновления документа При отображении веб-документов в результатах поиска некоторые системы указывают время создания или обновления данной страницы. Дата индексации документа При отображении веб-документов в результатах поиска некоторые системы указывают время последней индексации данной страницы. Размер документа При отображении веб-документов в результатах поиска некоторые системы указывают размер данной страницы в килобайтах. Кодировка документа При отображении веб-документов в результатах поиска некоторые системы указывают, в какой кодировке создана данная страница. Кол-во результатов на странице Найденные веб-документы отображаются в системе определенными порциями, обычно по 10 -20 документов. Варианты отображения Некоторые поисковые системы предусматривают несколько вариантов отображения найденых веб-документов. 26.02.2008 |
|
|
||||||||||||||
| Copyright © 2006-2008 Интернет студия "Wуравей" Украина, Киев |
|
|||||||||||||