Журнал «Новый мир» - Новый Мир. № 1, 2002
Связанный поиск, или поиск по ссылкам, реализуется в Сети так же, как и в офлайне. Существуют широко известные ресурсы, чьи адреса хранятся в списках избранного у многих пользователей. Существует множество сетевых обозрений и обозревателей, которые просматривают, рецензируют и рекомендуют новые сетевые ресурсы. Только в Сети этот поиск и быстрее, и проще. Идя по ссылкам, вы либо находите нужный текст, либо приходите в онлайновый магазин и заказываете нужную книгу — по почте или курьером. Это очень удобно и, конечно, экономит время и силы. Правда, не деньги. Здесь подороже, притом существенно.
Но в Сети есть и другой поиск — практически нереализуемый в пространстве печатной литературы. Я бы назвал его — свободным, или контекстным. В принципе, можно прийти в Ленинку (если она вдруг заработает) и погрузиться на несколько часов в систематический или алфавитный каталог с целью найти все статьи, в которых упоминается, скажем, Борис Пастернак. Это очень тяжелое и совершенно неэффективное времяпрепровождение. Никто так не делает, конечно. Берется солидное монографическое издание и совершается последовательный просмотр по приложенной к нему библиографии. Потом — просмотр библиографий в найденных изданиях и т. д., пока хватит терпения или пока не обнаружится нужный материал. То есть реализуется связанный, или ссылочный, поиск.
В Сети вы входите в любимую поисковую систему, например, в Яndex (www.yandex.ru), и набираете в поисковой строке: «+Борис+Пастернак». И дальше разбираетесь с теми ссылками, которые просыплются на голову. Это наблюдение, очевидное для любого пользователя Сети, подводит нас к определенным выводам об отличиях существования текста в Интернете от его же печатного близнеца.
Для того чтобы свободный поиск стал возможен, необходимо совершенно другое устройство сетевого пространства, чем пространства офлайн. Офлайновое пространство не является реально односвязанным — оно не едино. То есть, отталкиваясь от той же библиографии Пастернака, вы почти наверняка не сможете прийти по ссылкам, например, к описанию логики истины фон Вригта. И даже если такая последовательность ссылок существует, найти ее за обозримое время скорее всего не удастся. (Интересно, что теперь, после того как написана эта фраза с двумя фамилиями, — как раз удастся, а в Сети даже наверняка.) Информационное пространство вне Сети подразумевает априорное наличие классификаций и специализаций, которые определяются принадлежностью знания к той или иной области.
В Сети ситуация кардинально меняется. Весь объем информации укладывается в некоторый общий вид, например, в структуру — html (hyper text mackup language — язык гипертекстовой разметки), и становится доступен для тотального поиска — безо всякого различия и разграничения. Сеть — это первый и единственный на сегодняшний день информационный объект, в котором принципиально возможен свободный поиск по всему объему информации, накопленному человечеством на сегодняшний день, час, минуту… Нужно сразу оговориться, что глобальный поиск возможен только в принципе. На деле это не совсем так. Существует очень много ресурсов, которые закрыты для поисковых систем. Оценить их количество трудно, но по разным оценкам это от 30 до 70 процентов всей информации, размещенной в Сети. Это ресурсы, закрытые парольным входом, — конфиденциальные — или ресурсы, динамически порождаемые сервером на основании внешнего интерактивного запроса. Но даже при этих неизбежных ограничениях свободный поиск очень эффективен. Правда, надо уметь им пользоваться. Под логотипом Яndex написано: «Найдется все». А если в результате поиска не найдено ни одного ресурса, надпись меняется: «Найдется все. Со временем».
Теперь я подошел к тому, чтобы сформулировать основное утверждение этих заметок: главное отличие литературного произведения в Сети от печатной литературы заключается в том, что его читают не только люди. Его читают и даже по мере сил и интеллекта рецензируют роботы поисковых систем.
Это возможно в силу единства сетевого пространства и стандартного представления информации в нем и приводит к тому, что поисковые системы образуют замыкание Сети и делают его односвязанным.
Поисковый робот — программа, которая непрерывно, двадцать четыре часа в сутки, семь дней в неделю, читает одну за другой выставленные в Сети страницы и строит по ним поисковые индексы. От того, как работает эта программа, от того, как использует построенные индексы поисковый портал, зависит в конечном счете, насколько доступной окажется та или иная страница. Подробности работы любой конкретной поисковой системы, будь то Яndex или Google (www.google.com), практически никогда не афишируются авторами. Но многие принципы индексирования и поиска лежат на поверхности, и о них можно сказать.
Все тексты в Сети проиндексированы в разной степени: одни подробно и тщательно — можно зарегистрировать ресурс в поисковой системе и тем обратить на него ее внимание, другие — проигнорированы поисковыми системами вовсе (в частности, при формировании страницы можно «попросить» робот не индексировать ваш ресурс) и потому недоступны при свободном поиске.
В первую очередь индексируются и наиболее легко находятся при поиске синтаксически выделенные конструкции языка. И здесь нужно иметь в виду, что в Сети текст пишется и представляется не на естественном языке — русском или английском, а на языке разметки документа — html или dhtml. И конечно, более понятны поисковой программе именно синтаксические конструкции этих языков. То есть она регистрирует титулы, ключевые слова, заголовки всех уровней, ссылки, начала абзацев и другие элементы формальной структуры и обязательно также имена собственные.
Поставим простой эксперимент. Попытаемся отыскать, используя Яndex, «Анну Каренину» Льва Толстого. Сначала для поиска используем первую фразу романа: «Все счастливые семьи похожи друг на друга, каждая несчастливая семья несчастлива по-своему». Количество найденных адресов будет очень велико, и не все они будут указывать на роман. Некоторые — на собрания афоризмов. Я задам более жесткое требование и буду искать в найденном эпиграф к роману: «Мне отмщение, и Аз воздам». В результате отбора поисковая система выдаст одиннадцать адресов, из которых десять действительно будут указывать на текст романа Толстого.
Теперь я изменю условия и буду искать фразу из главы 17-й: «Это такая честная, правдивая натура, и сердце золотое». Результатом (точным, а другие нас не устраивают, фраза заведомо звучит так) будут четыре ссылки, из которых только две укажут толстовский текст — www.klassika.ru и orel.rsl.ru/nettext/russian/tolstoy_lev/annak1.htm, — и оба эти адреса уже вошли в список, который мы получили в предыдущем эксперименте. (Если вы повторите мой эксперимент, результат может быть совсем другим. Сеть меняется каждый день, не говоря о нескольких месяцах. Написано 2.10.2001.)
О чем это говорит? Ведь вторая цитата заведомо присутствует в найденных нами в первом эксперименте текстах. Но она — не проиндексирована. То есть поисковая система (в нашем случае Яndex) не связывает ее с адресами, указывающими на текст «Анны Карениной». Потому, в частности, что вторая цитата взята из середины абзаца и не содержит никаких синтаксических конструкций формального языка и собственных имен. Один и тот же по внешнему виду текст может быть в Сети более или менее активен. Он получает возможность, используя поисковые системы, продвигать себя навстречу читателю, облегчая ему поиск и становясь более актуальным сам. Текст, постоянно читаемый и перечитываемый поисковыми системами, не лежит в Сети — он движется, меняется, и происходит это, можно сказать, без участия реального читателя.
Когда писатель пишет и публикует текст, он хочет донести до читателя свою весть — message, как сегодня принято говорить. Чтобы это произошло, текст должен быть, во-первых, доступен, во-вторых, прочитан. Текст должны найти те, кто его ищет, может быть, даже не подозревая о его существовании.
Автор текста в Сети должен четко представить себе те запросы, которые будут адресованы поисковым системам и на которые именно его текст отвечает максимально полно. То есть если его ресурс попадет в отбор, то релевантность ресурса по оценке поисковой программы — другими словами, наиболее полное соответствие запросу — должна быть высокой. Релевантность можно представить себе как способ сортировки найденных по запросу документов. Чем больше документ соответствует запросу, тем выше в списке ответов он должен находиться, тем выше его значимость. Для достижения этого результата могут учитываться следующие параметры: количество найденных слов, «контрастность» слова (его относительную частоту для данного документа), расстояние между словами, положение слова в документе и в зонах документа. Релевантность документа может определяться количеством указывающих на него ссылок и весом этих ссылок — чем солиднее ссылающийся ресурс, тем больше вес. Но этим показателем оперировать крайне трудно. Если вы получите несколько сот или тысяч адресов, то вряд ли вам придется изучать все из них: первые десять — двадцать, вероятно, содержат требуемую информацию.