Журнал «Юный техник» - Юный техник, 2001 № 05
Перед Фаиной снова возник дисплей, на экране которого красовался групповой портрет героев мультика «Чип и Дейл спешат на помощь». Файка задумчиво водила курсором «мыши» вблизи строчки из нескольких ссылок на английском языке, располагавшихся внизу страницы.
— Это Кольцо специально посвящено Rescue Rangers, — продолжила прерванное объяснение Файка. — Но есть и еще множество самых разных колец WebRing, каждое из которых посвящено какой-то одной тематике. Кольцо связывает в единую замкнутую цепочку множество сайтов по этой теме, и на каждой из головных страниц этих сайтов есть такой вот набор ссылок: «Next» и «Prev» позволяют двигаться по кольцу в одном из двух возможных направлений, «Random» — перепрыгнуть на один из входящих в кольцо сайтов, выбранный случайным образом, «List Sites» выдает на экран весь список названий входящих в кольцо сайтов, а «Next 5» — список следующих пяти. И для всех этих колец есть единый сервер WebRing, где можно отыскать перечень тем, для которых существуют такие кольца. А поскольку войти в такое кольцо — честь для разработчика сайта, а для получения статуса «участника кольца» нужно соответствовать целому ряду требований, ну хотя бы «чистоты темы», то WebRing объединяет в себе четкое соответствие тематике, присущее каталогам ресурсов, и полноту информации, почти такую же, как для поиска по ключевым словам, — ведь здесь инициатива принадлежит энтузиастам, знатокам своей тематики, а не группке экспертов, вынужденных быть в этом смысле «универсалами».
— И все-таки найти что-нибудь в Интернете ничуть не легче, чем иголку в большом стоге сена! — подвела итог путешествию Фаина.
— Точно! — отозвалась Файка. — Здесь еще можно вспомнить стихи Маяковского, помнишь: «…та же добыча радия. В грамм добыча, в год труды». Пока перероешь весь выданный «поисковиком» список, да еще списки, полученные с других поисковых сайтов, — ведь далеко не всегда какая-то редкая страничка есть в базе данных «Яндекса» или «Апорта», — иной раз не один день пройдет. Это как промывка золота: приходится собирать крупинку к крупинке, иногда повезет — и попадется сколько-нибудь большой самородок, но чаще перемываешь пустую породу.
— Ну, может быть, в будущем придумают что-нибудь новое, чтобы облегчить эту работу? — неуверенно спросила Фаина.
— Может быть, — эхом отозвалась Файка. — Например, будут наконец-то созданы компьютерные системы с искусственным интеллектом, которые не только смогут автоматически просматривать сайты и вести поиск формального вхождения в базу данных ключевых слов, но и смогут понимать смысл содержащейся на этих сайтах информации. Возможно, такая система будет понимать речь и отвечать голосом вслух или даже самостоятельно отвечать на заданные тобой вопросы, проанализировав всю имеющуюся в Интернете информацию по этой теме. А может быть, все закончится тем, как описывает одно инопланетное общество писатель Станислав Лем в повести «Осмотр на месте», где главной задачей науки стало не исследование нового, а поиск того, что было изучено по этому вопросу ранее, так что весь Интернет придется превратить в одну гигантскую поисковую службу. Что ж, доживем — увидим! — немного грустно улыбнулась она Фаине на прощание.
И на этом вечер чудес благополучно закончился…
ИНТЕРНЕТ-СЛОВАРИК
• Поиск по ключевому слову — автоматизированная технология, основанная на поиске вхождения в информационные «выжимки», хранящиеся для каждого сайта из числа включенных в базу данных поискового сервера, заданного пользователем слова (слов) или фразы. Ключевое слово/фраза вводится в специально отведенном поле. После подтверждения ввода (щелчком «мышью» на имеющейся экранной кнопке или нажатием клавиши Enter) поисковый сервер возвращает Web-страницу, содержащую список, в котором для найденных сайтов даны их названия (обычно являющиеся ссылками на сами сайты) и короткие аннотации (обычно несколько первых строк содержащегося на странице текста).
Информационное наполнение (база данных) обычно создается автоматически работающей на данном сервере программой, рассылающей по сети автономные модули — «пауки», выполняющие сбор, первичный анализ и пересылку на поисковый сервер информации об обрабатываемых сайтах.
Преимущества: значительно больший, чем для каталогов, охват имеющейся в Интернете информации.
Недостатки: значительное количество «информационного шума» в результирующем списке (ссылок на сайты, в содержимом которых заданное ключевое слово употреблено лишь формально).
Пример: поисковая служба «Яндекс» (рис. 1).
Рис. 1
• «Пауки» — автономные программные модули, рассылаемые поисковым сервером на анализируемые сайты. Обычно «паук» выполняет сбор информации об анализируемом сайте, ее первичную обработку (создание «информационной выжимки») и пересылку на поисковый сервер, где основная программа добавляет эти сведения в базу данных. При обнаружении на анализируемом сайте ссылок на другие сайты «паук» может отправлять на них свои копии. После завершения работы «паук» самоуничтожается.
Технология «пауков» позволяет включить в сферу поиска максимально возможное количество сайтов, но у многих специалистов вызывает опасение тот факт, что способность этих программных модулей к автономной работе на других серверах (точнее, заложенное в системах безопасности этих серверов разрешение на допуск «паука» к информации и его запуск на исполнение) может стать «лазейкой» для создателей компьютерных вирусов и каких-либо разрушительных действий.
• Логика построения поискового запроса — правила, позволяющие формировать правильную ключевую фразу из набора ключевых слов. В зависимости от поставленной поисковой задачи возможны следующие ситуации:
— точное соответствие, когда в искомом тексте должна присутствовать именно эта фраза и никакая иная (пример: компьютерная мышь);
— в искомом тексте должны находиться все заданные ключевые слова (пример: мопеды И мотоциклы);
— достаточно, если в искомом тексте присутствует хотя бы одно ключевое слово (пример: самолет ИЛИ вертолет);
— одно или несколько ключевых слов не должно входить в искомый текст (скажем, чтобы отсечь большой массив «ложных» ссылок; пример: локомотив НЕ футбол).
Иногда отдельно рассматривается ситуация, когда еще заданные ключевые слова должны не только присутствовать в тексте, но и располагаться рядом, например, в пределах одного абзаца. Важным часто является и регистр букв (строчной или прописной), например, ключевое слово «лебедь» позволяет найти и птицу, и генерала, а «Лебедь» — только фамилию.
Современные поисковые серверы, как правило, предоставляют возможность ввода ключевой фразы в свободной форме и автоматически выполняют ее смысловую предобработку: выделение ключевых слов с отсечением незначащих (предлогов, местоимений и пр.), вариации окончаний слов, иногда автоматический перевод фразы на другие языки (например, заданная пользователем фраза «книги по программированию на Бейсике» автоматически превращается в запрос типа: (книга ИЛИ книге ИЛИ книгу ИЛИ книги ИЛИ книг ИЛИ book ИЛИ books) И (программирование ИЛИ программированию ИЛИ программирования ИЛИ programming) И (Бейсик ИЛИ Бейсике ИЛИ Бейсика ИЛИ Бейсику ИЛИ Basic ИЛИ BASIC). Кроме того, при задании нескольких ключевых слов в результирующий список могут включаться и сайты, в которых содержатся не все эти ключевые слова (на поисковом сервере «Яндекс» в этом случае после аннотации, помещенной в результирующий список, делается примечание: «Нестрогое соответствие»). Дополнительно предусматривается сортировка найденных ссылок в списке по «релевантности» — этот термин подразумевает максимальное соответствие найденных страниц заданному ключу поиска, которое программа определяет на основе анализа количества вхождений ключевых слов в текст, место, в котором они обнаружены (наиболее подходящими, например, считаются страницы, где ключевые слова обнаружены в заголовке документа), благодаря использованию алгоритмов «искусственного интеллекта» (хотя они пока еще далеко не совершенны). Соответственно, в результирующем списке наиболее подходящие ссылки выдаются первыми.
Конкретные правила записи (синтаксис) поискового запроса на конкретном поисковом сервере могут несколько отличаться от остальных (обычно на головной странице «поисковика» можно найти ссылку на описание этих правил). Чаще всего операция И обозначается символом «&» или «+» (а иногда подразумевается по умолчанию, если слова записаны друг за другом через пробелы), ИЛИ — символом «|», НЕ — «~» (либо знаком «минус» перед ключевым словом), а фраза, которая должна присутствовать как образец, должна целиком заключаться в кавычки.