ЭЛЕКТРОННАЯ БИБЛИОТЕКА КОАПП
Сборники Художественной, Технической, Справочной, Английской, Нормативной, Исторической, и др. литературы.



 

Поиск информации

С ростом масштабов Интернета и объема его информационного наполнения проблемы поиска информации становятся все более актуальными.

С одной стороны в Сети появляется все большее количество самой разнообразной информации, затрагивающей все стороны жизни общества, а с другой  усложняются задачи как нахождения конкретных сведений, так и выяснения доступных сетевых источников информации по интересующему кругу вопросов.

Печатные справочники по ресурсам Сети, в частности книги серии "Желтые страницы Internet", являются весьма полезным, но не единственным средством, помогающим решать проблемы поиска информации. Мощнейшим инструментом для решения данных проблем являются имеющиеся в Интернете поисковые системы, помогающие найти необходимые серверы и отдельные Web-страницы среди поистине необъятных ресурсов Сети.

Существующие поисковые системы различаются применяемыми подходами к сбору и обработке информации, организацией баз данных и предоставляемыми пользователям возможностями по формулировке запросов и проведению поиска в базах данных.

Можно выделить два типа систем.К первому типу относятся поисковые машины (роботы), которые автоматически по заданному алгоритму обходят Web-серверы и скачивают Web-страницы, используя имеющиеся на них гиперссылки, а затем осуществляют полнотекстовое индексирование всех найденных документов и формируют базу данных, в которой хранятся сведения о содержащихся в документах словах и URL-адреса документов.

Пользователь, задавая в запросе ключевые слова, получает в результате подборку ссылок на документы, содержание которых удовлетворяет критерию поиска.

Заметим, что ведущие системы позволяют формулировать достаточно сложные запросы, используя объединение ключевых слов в логические выражения и введение дополнительных ограничений (например, на даты создания документов, на доменные имена серверов, среди которых выполняется поиск, и ряд других условий).

Первые зарубежные поисковые машины, автоматически обходящие Web-серверы, скачивающие и индексирующие документы, появились в 1994 году. С тех пор происходит их непрерывное развитие как в плане роста используемых вычислительных ресурсов, так и в направлении совершенствования применяемых алгоритмов.

Сегодня базы данных ведущих поисковых машин хранят сведения о многих десятках миллионов документов, а объемы их индекса составляют сотни гигабайт.

В число наиболее известных и мощных поисковых машин входят AltaVista (altavista.digital.com), EuroSeek (www.euroseek.net), Excite (www.excite.com), HotBot (www.hotbot.com), Infoseek (www.infoseek.com), Lycos (www.lycos.com), Northern Light (www.northernlight.com), Open Text (search.opentext.com), Starting Point (www.stpt.com), WebCrawler (www.webcrawler.com).

В поле зрения этих систем попадают все серверы Интернета, включая и российские, однако далеко не все системы корректно обрабатывают и индексируют русскоязычные документы.

Вторую большую группу поисковых систем образуют каталоги ресурсов Интернета, в которые сведения заносятся людьми. Такие справочные системы содержат тематически структурированные аннотации к Web-серверам и отдельным Web-сайтам.

Некоторые системы содержат просто классифицированные списки адресов серверов с указанием их названия. Первые каталоги подобного типа возникли практически одновременно с началом массового создания Web-серверов в 1993 году и стремились охватить все мировое Web-пространство, которое тогда было еще вполне обозримым.

По мере роста WWW задача сбора и классификации сведений, создания и поддержания в актуальном состоянии системы с информацией обо всех серверах стала практически неосуществимой. Однако каталоги ресурсов продолжают существовать, пополняются и развиваются, представляя собой весьма полезное средство поиска информации в Интернете.

Имеющиеся каталоги различаются своей целевой направленностью, структурой и объемом представленных сведений, способами поддержки и пополнения информацией. Одни каталоги стремятся охватить как можно больше ресурсов всего мирового Интернета по всем тематическим направлениям (в этом смысле уникальным каталогом остается система Yahoo!), другие ограничиваются ресурсами одной страны или региона или же имеют определенную тематическую направленность, третьи включают сведения только об избранных, лучших с точки зрения составителей серверах.

Все подобные системы имеют тематическую рубрикацию, причем число уровней в рубрикации варьируется в зависимости от сложности структуры каталога и объема содержащейся информации. В одни каталоги сведения могут свободно заносить все пользователи Сети, заполняя соответствующие интерактивные формы, а другие каталоги имеют редакторские группы, в задачу которых входит проверка присланных адресов и редактирование аннотаций, а также поиск интересных сайтов и составление описаний к ним.

Заметим, что для каталогов, в которых введенные пользователем через интерактивную форму сведения сразу попадают в рабочую базу данных, характерен довольно высокий процент "информационного мусора".Если речь идет о ресурсах WWW, то вносимые в каталог записи, как правило, содержат название Web-сайта, его URL-адрес, краткое описание тематики сайта и имеющейся на нем информации (аннотацию), а также ряд дополнительных сведений, часто используемых в служебных целях (страну, город, адрес электронной почты ответственного за сайт лица и др.).

В большинстве каталогов все имеющиеся сведения индексируются, что позволяет проводить поиск по ключевым словам. Разумеется, остается возможность поиска нужной информации путем выбора интересующих рубрик и последовательного просмотра их содержания.

Международные каталоги ресурсов ведутся на английском языке, но содержат сведения о сайтах, созданных в разных странах мира, в том числе и в России. Некоторые каталоги в свой тематический классификатор включают рубрикацию, связанную с географическим и национальным делением, что облегчает поиск в них ресурсов, относящихся к России.

Приведем перечень крупных международных каталогов общего характера, в которых представлены разные по тематике ресурсы: Yahoo!, (www.yahoo.com), 100hot (www.100hot.com), Apollo (apollo.co.uk), Europe Online (www.europeonline.com), Galaxy (galaxy.einet.net), LinkMonster (www.linkmonster.com), LookSmart (www.looksmart.com), Lycos A2Z (a2z.lycos.com), Magellan (www.mckinley.com).

При желании сделать информацию о своих сайтах доступной мировому Интернет-сообществу имеет смысл попытаться включить сведения о них в эти или другие международные справочные системы.

При работе с поисковыми системами следует помнить, что подмножества документов, проиндексированных разными поисковыми машинами, а также используемые ими алгоритмы поиска и ранжирования различаются.

Еще более различаются содержания каталогов ресурсов. При поиске интересующей информации успех зависит от выбора средства поиска и формулировки запроса.

В главе "Сети и телекоммуникации" данного справочника имеется раздел "Поисковые системы", посвященный средствам поиска информации в российской части Интернета и на русскоязычных зарубежных сайтах. В этом разделе даны ссылки на сайты, содержащие общие сведения и справочную информацию о поисковых системах, приведены сведения о поисковых машинах WWW, каталогах ресурсов WWW общего характера, некоторых специализированных поисковых системах по определенной тематике, системах поиска в телеконференциях.

Первые попытки сбора информации о ресурсах российского WWW нашли отражение в виде простых линейных списков серверов, которые велись на серверах ряда Интернет-провайдеров и некоторых других организаций-пионеров отечественного Интернета.

Когда число серверов и созданных на них тематических сайтов стало исчисляться сотнями, появились первые каталоги, имеющие тематическую рубрикацию, организованные в виде баз данных и предоставляющие возможности поиска по ключевым словам в названиях, адресах или описаниях сайтов.

Одними из первых систем такого рода, получивших дальнейшее развитие и продолжающих играть ведущую роль в систематизации ресурсов российской Сети, стали Russia on the Net (www.ru) компании "Демос" и Weblist (weblist.ru) компании "МАРК-ИТТ", работающие с 1995 года. В конце 1996 года появились еще два крупных каталога, содержащие структурированные и аннотированные описания ресурсов российского Интернета, "Созвездие Интернет" (www.stars.ru) и "Ау!" (www.au.ru). В начале 1998 года каждый из каталогов содержал сведения о нескольких тысячах сайтов, а в наиболее обширном из них  системе "Ау!"  были доступны около 7500 записей в базе данных и еще около четырех тысяч находились на стадии проверки.

Разумеется, число тематических сайтов в России существенно выше, однако далеко не все их создатели уделяют внимание регистрации своих творений в основных отечественных каталогах.

В 1998 году одновременно с выходом данного справочника начинает работу еще одна крупная база данных по российским и относящимся к России ресурсам Сети, созданная в издательстве "Питер" (www.piter-press.ru) и использованная при подготовке данного справочника.Что касается систем автоматического сканирования и индексирования российского WWW, то сначала возможности поиска информации в российском Интернете сводились, в основном, к способности системы AltaVista (altavista.digital.com) проводить поиск по ключевым словам в русскоязычных документах.

В 1996 году были созданы несколько отечественных поисковых машин, ориентированных на работу с русским текстом и индексирование российского Web-пространства, а также поиск в архивах русскоязычных телеконференций: Rambler (www.rambler.ru), Russian Internet Search (www.search.ru), "Русская машина поиска" (search.interrussia.com), TELA (tela.dux.ru), UnicorHarvest (www.unicor.ac.ru/search.ru.html), а также первая версия системы "Апорт!", которая работала на сервере фирмы "Агама" и индексировала избранные крупные серверы российского WWW. К началу 1997 года эти поисковые системы проиндексировали примерно по 10001500 российских Web-серверов и содержали сведения о сотнях тысяч документов.Во второй половине 1997 года начали свою работу еще две крупные поисковые машины  "Апорт!" (www.aport.ru) и Яndex (www.yandex.ru).

Эти системы базировались на сильных разработках компаний "Агама" и CompTek International и практически сразу заняли наряду с системой Rambler позиции лидеров.

Как уже было сказано выше, каждая из этих трех систем к началу 1998 года проиндексировала более 10 тысяч серверов, собрав сведения о более чем двух миллионах документов. Важным направлением развития поисковых систем, имеющим большое значение для русскоязычной части Интернета, явился учет при поиске по ключевым словами морфологии русского языка.

Наряду с универсальными поисковыми системами, включающими сведения о сайтах самой разнообразной тематики, в мире развиваются и предметно-ориентированные средства поиска. Вероятно, подобные системы получат развитие и в российском Интернете.

В качестве примера можно привести чрезвычайно удачную и полезную систему, которая позволяет получить информацию о тысячах фирм, работающих в российском компьютерном и телекоммуникационном бизнесе, включая и адреса их Web-серверов,  базу данных "Кто есть кто на компьютерном рынке Россию", Интернет-версию одноименного справочника.

 

KOAP Open Portal 2000


Яндекс цитирования