ЭЛЕКТРОННАЯ БИБЛИОТЕКА КОАПП
Сборники Художественной, Технической, Справочной, Английской, Нормативной, Исторической, и др. литературы.



 

World Wide Web в мире и России

Заметим, что число URL-адресов проиндексированных страниц превышает число документов с различным информационным содержанием из-за дублирования информации при поддержке нескольких кодировок кириллицы. В системе "Апорт!" отдельно учитывается количество разных по содержанию документов, полученных с одного сервера (на основании контрольной суммы), которое и указано выше.

Таким образом, приведенные данные позволяют судить не только о количестве серверов, но и об их информационном наполнении. Объем проиндексированной информации примерно одинаков у каждой из трех ведущих российских поисковых машин и составлял от 7 до 10 гигабайт, т.е. средний объем текстовой информации на одной странице не превышал четырех килобайт.

Комментируя это не слишком большое значение суммарного объема проиндексированных Web-страниц (вся текстовая информация, обработанная поисковыми системами, поместится на нескольких жестких дисках стандартного PC), надо отметить следующее обстоятельство.

При извлечении документов с серверов поисковыми машинами обрабатываются только "статические" HTML-страницы, на которые имеются непосредственые гиперссылки.

В то же время значительная часть информации, доступной в Интернете, находится в базах данных, к которым организован Web-интерфейс, а для получения информации пользователь формирует запрос, при обработке которого динамически генерируется HTML-документ. Информация, находящаяся в таких базах данных, остается вне поля зрения поисковых машин.

 

KOAP Open Portal 2000


Яндекс цитирования