Заметим, что число URL-адресов проиндексированных страниц превышает число документов с различным информационным содержанием из-за дублирования информации при поддержке нескольких кодировок кириллицы. В системе "Апорт!" отдельно учитывается количество
разных по содержанию документов, полученных с одного сервера (на основании контрольной суммы), которое и указано выше. Таким образом, приведенные данные позволяют судить не только о количестве серверов, но и об их информационном наполнении. Объем проиндексированной информации примерно одинаков у каждой из трех ведущих российских поисковых машин и составлял от 7 до 10
гигабайт, т.е. средний объем текстовой информации на одной странице не превышал четырех килобайт. Комментируя это не слишком большое значение суммарного объема проиндексированных Web-страниц (вся текстовая информация, обработанная поисковыми системами,
поместится на нескольких жестких дисках стандартного PC), надо отметить следующее обстоятельство. При извлечении документов с серверов поисковыми машинами обрабатываются только "статические" HTML-страницы, на которые имеются непосредственые гиперссылки.
В то же время значительная часть информации, доступной в Интернете, находится в базах данных, к которым организован Web-интерфейс, а для получения информации пользователь формирует запрос, при обработке которого динамически генерируется HTML-документ.
Информация, находящаяся в таких базах данных, остается вне поля зрения поисковых машин. |