Алексей Кутовенко - Профессиональный поиск в Интернете
Для уточнения запросов в системе ScienceResearch применяются кластерные технологии. Результаты работы алгоритма демонстрируются на боковой панели страницы выдачи Кроме тематических кластеров предлагаются разделы, группирующие статьи по авторам, источникам публикаций и другим подобным признакам. С помощью соответствующих меню можно сортировать список выдачи по различным признакам, а также переключаться в режим просмотра результатов, полученных из какой-либо одной коллекции.
BASE
Научный интернет-поисковик Bielefeld Academic Search Engine (BASE) имеет европейские корни. Сам сервис BASE принадлежит немецкому университету, а в основе его поисковых алгоритмов лежат разработки норвежской компании Fast Search & Transfer. Ценность данного ресурса состоит в том, что BASE является поисковой машиной международного проекта Open Archives Initiative, кроме того, этот поисковик сотрудничает с европейским научно-информационным проектом DRIVER, что способствует повышению качества включенных в индексные базы поисковика материалов.
Первый из названных проектов позволяет владельцам электронных библиотек обмениваться данными о своих собраниях и является частью движения открытого доступа (Open Access), направленного на повышение доступности научной информации. В рамках этого движения, которое приобрело популярность в начале 2000-х годов, авторы получают платформу для распространения своих идей в международной академической среде с минимальными затратами и без необходимости длительного ожидания публикаций в традиционных научных журналах. Целью проекта DRIVER является создание сводного ресурса, объединяющего европейские электронные библиотеки, специализирующиеся на научной и учебной информации. Таким образом, проект BASE является удобной точкой доступа к свободно распространяемой научной информации. Кроме названных источников, в BASE используется и собственная индексная база тематических веб-сайтов и баз данных, поэтому в результатах поиска могут попадаться ссылки на коммерческие базы данных.
Для составления запросов BASE предлагает режимы простого и расширенного поиска. В простом режиме предлагается вести полнотекстовый поиск по всем возможным полям записей проиндексированных ресурсов, а для уточнения запроса доступно только переключение сферы поиска между ресурсами BASE и поиском в базе. Академии Google через интерфейс BASE.
В режиме расширенного поиска можно вести поиск конкретных полей описания ресурсов (автор, заглавие, тема), определять географический регион и год издания публикаций. Здесь же можно определиться с типом искомого контента. Поддерживается поиск статей, книг, текстов лекций, тезисов докладов, а также карт, видео– и аудиофайлов. В систему BASE интегрирован тезаурус Eurovoc, так что при обработке запроса пользователь может получить релевантные результаты сразу на двух десятках европейских языков, а также списки синонимов и близких терминов, что позволяет при необходимости качественно уточнить запрос.
Поиск книг
Книга как форма представления информации продолжает жить и здравствовать даже в нашу эпоху глобальных сетей и гипертекста. Действительно, концентрированное и компактное освещение какой-либо темы в книге выгодно отличается от самостоятельных поисков информации среди россыпей веб-страниц.
Электронные книги – не редкость в современной Сети. Они доступны в различных форматах и на значительном количестве сайтов онлайновых библиотек. Сетевых библиотек сегодня достаточно много, среди них есть как универсальные, так и специализирующиеся на определенных видах литературы. Эффективность интернет-поиска электронных книг во многом зависит от правильного выбора библиотеки, коллекция которой должна максимально соответствовать тематике запроса. Запоминать все библиотеки и их особенности – не самый лучший путь, проще возложить эту миссию на поисковые системы. Вот только универсальные интернет-поисковики в данном случае не очень удобны, поскольку не позволяют быстро находить страницы, предлагающие ссылки на полный текст нужного произведения. Такие ресурсы иногда приходится буквально выкапывать из массы сопутствующих ссылок.
Принцип работы специализированных книжных интернет-поисковиков прост: вместо общего поиска по. Сети они ограничиваются просмотром заранее составленного списка сетевых библиотек. Это обеспечивает повышение точности поиска: за каждой ссылкой на странице выдачи будет находиться именно электронная книга, которую можно просмотреть в режиме подключения или скачать, чтобы просмотреть позже.
Сейчас можно найти достаточное количество подобных поисковых машин. Мы сосредоточимся на лучших представителях семейства, работающих с русскоязычными сетевыми библиотеками. Отобранные нами поисковики соответствуют нескольким важным требованиям. Во-первых, они работают только с теми ресурсами, которые предлагают полнотекстовые версии электронных книг в свободном доступе. Во-вторых, они умеют обрабатывать запросы с различными поисковыми признаками, в том числе специфическими именно для книг. В-третьих, они обеспечивают хороший охват сетевых источников, ведь именно в этом состоит главное преимущество специализированного интернет-поиска по сравнению с поиском в какой-либо одной сетевой библиотеке.
Сервис Google Книги
Сервис Google Книги позволяет не только искать книги, но и читать их в режиме подключения. Основу базы составляют отсканированные книги и электронные версии книг, предоставленные правообладателями. Важным источником пополнения базы стало сотрудничество с крупными традиционными библиотеками. Вопросы корректного использования оцифрованных Google в рамках этого проекта книг во время его становления возникали неоднократно. Обострялись они тем, что, в отличие от многих других подобных проектов оцифровки книг, компания Google работала и с современными изданиями, на которые распространялись авторские права. В итоге компромисс был достигнут и многие особенности книжного поисковика Google обусловлены именно стремлением найти баланс между поисковыми возможностями и требованиями защиты авторских прав.
Возможности составления запроса на сервисе Google Книги по внешнему виду и возможностям в основном соответствуют стандартному веб-поисковику Google. Здесь также предлагаются простой и расширенный режимы поиска. Отличия можно найти только в форме расширенного поиска книг. В ней стандартный блок составления запроса дополнен такими специфическими поисковыми признаками, как Заголовок, Автор и Издатель. Возможен поиск и по специальным индексам, относящимся к издательской продукции. Это международный стандартный номер книги (ISBN) и международный стандартный номер периодических изданий (ISSN). Такие индексы являются уникальными и позволяют однозначно идентифицировать нужное издание.
Собственно поиск ведется среди полных текстов оцифрованных книг. Страница выдачи содержит список результатов, содержащий миниатюру обложки, а также краткое библиографическое описание издания: заглавие книги, сведения об ответственности (имя автора и название издательства), количество страниц. Обязательно приводятся условия просмотра книги. Возможны три варианта, определяемые условиями, на которых издания были предоставлены Google правообладателями. Первый вариант – запрет просмотра текста книги. В этом случае рядом с таким результатом выводится сообщение «Без предварительного просмотра». Второй, наиболее распространенный, вариант предполагает возможность просмотра фрагментов отсканированных книг. Размер фрагментов может отличаться. Как правило, демонстрируются только одна-две страницы, на которых были обнаружены слова из поискового запроса. Кроме того, к показу правообладателем могут быть разрешены только определенные страницы издания. Обойти эти ограничения иногда удается подбором дополнительных ключевых слов или работой с оглавлением. Также можно найти приложения, позволяющие автоматизировать этот процесс и загружать на свой компьютер как фрагменты книг из баз Google, так и издания целиком. Третий вариант применяется к изданиям, срок действия авторских прав на которые истек или которые предлагаются правообладателями в свободном доступе. Такие книги в результатах поиска имеют пометку «Полный просмотр». Для полного просмотра предлагаются также все периодические издания, размещенные в базе Google.
Страница просмотра книги предлагает два режима отображения: простой текст, полученный в результате распознавания оцифрованных страниц, и непосредственный вывод графических файлов отсканированных страниц. Если издание разрешено для полного просмотра, в интерфейсе страницы располагается ссылка, позволяющая загрузить электронную книгу в формате PDF.
Обладатели аккаунтов Google получают также возможность добавлять нужные книги со страницы выдачи в собственную онлайновую библиотеку. Сделать это можно с помощью меню. Добавить в мою библиотеку, которое сопровождает каждый результат на странице выдачи В меню можно выбрать папку персональной библиотеки, в которой будет сохранена книга. На сохраненные книги можно составлять собственные рецензии, которые будут видны другим пользователям проекта. Предлагается также поиск среди текстов книг персональной библиотеки.