Евгений Ющук - Интернет-разведка. Руководство к действию
– каталоги Российской национальной библиотеки (Санкт-Петербург);
– каталоги ГПНТБ РФ (включая Российский Сводный Каталог по научно-технической литературе);
– каталоги Государственной центральной научной медицинской библиотеки;
– каталоги Центральной научной сельскохозяйственной библиотеки;
– каталог библиотеки МГУ.
Каталоги зарубежных библиотек:
– Библиотека Конгресса США;
– Британская библиотека.
Списки Интернет-каталогов библиотек мира:
– каталоги национальных библиотек мира (Российская национальная библиотека);
– LibDex – The Library Index; Lib-Web-Cats. A directory of libraries throughout the world.
7. Толковые словари или словари иностранных слов известных авторов, размещенные на крупных поисковых ресурсах в качестве дополнительной услуги для пользователей.
Действительно, попытки найти значение слова «каталог» в словаре В. Даля через Яндекс «Словари» увенчались успехом. Был получен текст из сдоваря Даля:
«КАТАЛОГ м. роспись, ведомость или перепись, особенно книгам.
Католожный, к каталогу относящ.»
Попытка найти это же определение с использованием части текста (с помощью оператора «двойные кавычки») также дала положительный результат, но на других сайтах, не имеющих отношения к Яндексу (рис. 7).
Рис. 7. Слово «Каталог» найдено на других сайтах при поиске через Яндекс.
Попытка принудительно искать эту же часть текста именно на сайте Яндекса, с помощью оператора rhost, не дала результата.
8. История биржевых котировок.
Многие люди считают, что биржевые данные – это недолговечная информация, которая быстро теряет свою ценность. Однако для аналитиков, составляющих тренды, эти сведения необходимы. В качестве примера приведем описанный Шерманом и Прайсом сайт BigCharts, представленный на рис. 8 и расположенный по адресу: http://www.bigcharts.com/historical/.
Рис. 8. История биржевых котировок на сайте BigCharts.
Другим примером служит архив котировок Forex на ресурсе компании UMIS, находящемся по адресу: http://www.umis.ru/quotes_arch.
9. Исторические документы и рисунки.
Многие исторические документы присутствуют в Интернете лишь как изображения, отсканированные с оригинала. Но рисунки плохо распознаются поисковыми машинами. Как, например, Манифест об основании Русского исторического Общества 23 мая 1866 г. в Санкт-Петербурге с сайта http://www.russkymir.ru/out.php?cat=2.
10. Директории отдельных компаний.
Примером может служить сайт РАО ЕЭС http://www.rao-ees.ru/ru/ где есть ссылка на страницу «Сайты дочерних и зависимых обществ».
11. Экономическая информация.
Правительства и государственные учреждения содержат целую армию статистиков, которые проводят мониторинг экономической ситуации. Этому вопросу посвящен сайт Росстата, на котором собраны данные по темам: http://www.gks.ru/wps/portal/.
12. Предложения вакансий и резюме о работе.
Для поиска сотрудника или работы поисковые системы не особенно подходят: результаты, которые они при этом демонстрируют, не самые впечатляющие – как по релевантности, так и с точки зрения трудоемкости. В подобных случаях, к примеру, не лишне было бы обратиться к одной из многочисленных баз данных, которая находится на специальном ресурсе, посвященном поиску работы. Это могут быть http://www.superjob.ru/, http://megajob.ru/ или любой другой, подобный им региональнымй ресурс. Такие сайты обычно можно найти на сайтах городов или областей.
Например, поиску работы или вакансий посвящен сайт Самары http://www.63. ru/job/index.php.
13. Инструменты по переводу.
Онлайновые переводчики обеспечивают ценный сервис, когда переводят текст целых веб-страниц с языка, который вам незнаком. Такой переводчик, после ввода в специальное поле URL страницы, идет по указанному адресу, переводит весь текст на желаемый язык и показывает в браузере как динамически сгенерированный документ. Такой сервис предоставляется многими онлайновыми переводчиками, примером может служить переводчик «Babel Fish Translation» от поисковой машины AltaVista http://world.altavista.com/.
14. Данные о погоде.
Существует множество сайтов, специализирующихся на информации о погоде, одна из таких служб интегрирована в Яндекс и расположена по адресу: http://weather.yandex.ru/.
15. Галереи искусств.
Рис. 9. Просмотр картин на сайте Эрмитажа.
Многие галереи, начиная с крупнейших и заканчивая крошечными, все чаще и полнее оцифровывают свое собрание произведений и делают его доступным онлайн. Лучший способ увидеть экспонаты такого рода – это посетить ресурсы наподобие представительства Эрмитажа в Интернете (рис. 9), которое поддерживается при участии компании IBM: http://hermitage.museum.ru/.
Интересный и перспективный, на наш взгляд, эксперимент проводит на сайте Эрмитажа IBM. Там представлена система поиска изображений по цветовым фрагментам, расположенным в определенном месте полотна: http://hermitage. museum.ru/fcgi-bin/db2www/qbicSearch.mac/qbic?selLang=Russian.
Детальное описание этого инструмента приведено на сайте, и мы не будем на нем останавливаться, отметим лишь, что пользование этим поисковым инструментом IBM требует от человека изрядных художественных навыков.
Чего вообще обычно не бывает в Интернете
Интернет появился относительно недавно. Однако, несмотря на стремительное его развитие, далеко не все документы, созданные людьми, успели обрести оцифрованное обличие и попасть в Сеть. Каждый день эта ситуация улучшается, хотя, на наш взгляд, до решения проблемы еще далеко.
Основные виды информации, которую в Интернете нельзя найти в принципе, представлены ниже, в соответствии с классификацией Шермана и Прайса.
1. Некоторые базы данных и информационные сервисы, которые доступны на платной основе и не выкладываются владельцами в Интернет.
Ограничение доступа к этой категории сведений наиболее понятно. Закономерно, что базу данных Регистрационной палаты в Сети не найдешь. Она находится либо в самой Регистрационной палате, где и должна храниться, либо в том или ином виде продается на «черном рынке», чего, в принципе, быть не должно.
2. Многие государственные и общественные документы.
Концепция цифрового правительства провозглашена, однако оно до сих пор не появилось. Многие документы, которые возникли задолго до изобретения Интернета, никто и не думал переводить в цифровой формат и, соответственно, публиковать в Интернете. Наиболее сложной остается ситуация с региональными приказами некоторых ведомств. Так, приказ Роспотребнадзора Свердловской области по одному из важнейших для любого бизнеса вопросов был на момент написания книги недоступен в Сети в принципе, а раздел сайта Роспотребнадзора, в котором он, по идее, должен был храниться в открытом доступе, находился «в стадии разработки».
3. Аналитическая информация, которая продается за деньги.
Многие отчеты о маркетинговых исследованиях или полные тексты тренингов, проводимых известными специалистами, не попадают в Интернет потому, что авторы продают их непосредственно своим клиентам и сознательно препятствуют появлению этих материалов онлайн.
4. Полные тексты многих журналов и газет.
Не все материалы переведены «в цифру». Часть материалов остается непереведенной из-за того, что просто до них не дошли руки. Другая часть, особенно за рубежом – потому, что не всегда удается урегулировать авторские права по старым материалам. Есть еще техническая проблема – некоторые материалы на бумажных носителях требуют усилий и материальных затрат по восстановлению текста, поскольку документы физически изношены и трудночитаемы. Кроме того, некоторые архивы просто не сохранились, в силу ряда причин – как, например, часть архива «Комсомольской правды», уничтоженная во время пожара.
5. Печатный материал не попадал в Интернет потому, что никто из людей, владеющих методами его перевода в цифровой формат и последующего размещения в Сети, пока что этими текстами не заинтересовался.
Как говорится, руки не дошли. Ни у кого. И потребности не возникло оцифровывать тот или иной документ. Как следствие, найти его можно лишь в библиотеке, с помощью библиотечных каталогов.
Оценка достоверности и качества онлайновой информации
Интернет доступен любому человеку, независимо от того, разбирается ли он в предмете, по поводу которого высказывается или нет. Помимо откровенно заблуждающихся людей среди пользователей Сети встречаются и такие, кто намеренно распространяет ложную или искаженную информацию.
Еще одна проблема: в Интернете не всегда можно установить дату публикации материала, из-за чего сведения могут оказаться устаревшими и сыграть, скорее, дезинформирующую роль.