Денис Шевчук - Экономическая журналистика
Для глобальных исследований в ИНТЕРНЕТ используются специальные «процессоры сбора данных» (в некоторых источниках их называют еще «текстово-аналитические системы», хотя название не совсем верно, т. к. анализируется не только текст, но и рисунки, чертежи и графики). В данном контексте термин «процессор» не имеет ничего общего с микропроцессором, это часть программы, которая определяет, каким образом сама программа управляет и манипулирует данными. Процессор сбора данных использует программное обеспечение, получившие название «робот»: «робот» извлекает нужную информацию, используя целый арсенал средств лингвистического, семантического и статистического анализа. Действуя автономно, процессоры сбора данных перехватывают любую запрашиваемую информацию, как только она появится в ИНТЕРНЕТ.
Самым первым был рассекречен французский процессор «Taiga» («Traitement automatique de l’information geopolitique d’actualite», «автоматическая обработка актуальной геополитической информации»). Этот программный комплекс первоначально разрабатывался для нужд французской разведки, где он потом ударно трудился в течение 11 лет, после чего был передан для коммерческого использования. Задачи, которые перед ним ставят теперь уже гражданские специалисты остались теми же: «шарить» по ИНТЕРНЕТ для извлечения ценной информации из баз данных о патентах, сообщений информационных агентств и публикаций о научных конференциях.
Методика ведения компьютерной разведки с помощью данного программного обеспечения следующая: обрабатывая материалы открытого доступа, имеющиеся в ИНТЕРНЕТ-пространстве, программа статистического анализа составляет, так называемые карты работы в различных отраслях науки. В свою очередь, это позволяет аналитикам устанавливать наиболее перспективные научные разработки в областях, где конкуренция пока что сравнительно невелика. Результаты количественного и качественного анализа результатов работы научных лабораторий позволяют оценить степень творческой атмосферы исследовательских коллективов. Это так же может быть весьма полезным при выявлении «перспективных летунов», то есть исследователей, которые за сравнительно короткий срок успевают поменять ряд представляющих интерес научных центров, а тем самым знакомы со многими результатами их работы.
Стоит упомянуть еще одну французскую разработку. Для проведения семантического анализа крупных информационных массивов компания «Acetic» совместно с учеными университета Париж VIII разработала пакет прикладных программ «Tropes». Отбор требуемой информации происходит в соответствии с ключевыми словами и понятиями, связанными по смыслу. Например, название типа самолета – «Мираж» соотносится со словами «самолет», «истребитель». А сочетание слов «госсекретарь США» автоматически ассоциируется со словами «министр», «политик». Данное программное обеспечение позволяет одновременно анализировать два текстовых информационных фрагмента объемом в несколько десятков книжных томов. Помимо этого «Tropes» предоставляет возможность создавать необходимые для работы информационные «сценарии», на основе которых автоматически осуществляется не только поиск, но и целевое группирование требуемых данных.
Технический прогресс не стоит на месте, и весьма очевидно, что если государственные спецслужбы отдают для коммерческого использования подобные разработки, то это может означать только одно – они получили в свое распоряжение что-то гораздо более мощное.
«Noemic», сменивший «Taiga» на боевом посту, не только сканирует, но и автоматически осуществляет «объединение источников», обрабатывая полученную информацию со скоростью одного миллиарда знаков в секунду независимо от того, существуют ли она в виде готовой базы данных или, например, передается электронным агентством новостей на любом языке в виде целостного текста. Этот семантический процессор сбора данных способен также подвергать обработке заслуживающие его внимания концепции, метафоры и совокупности идей. Если перед ним поставить задачу выявить, например, все случаи установления связей между гонконгскими и американскими фирмами, действующими в области микроэлектроники, за последние пять лет, то для ее выполнения ему хватит всего несколько часов.
Американский аналог этих программных комплексов, который называется «Topic», также первоначально разрабатывался для нужд разведки. Данная система появилась на свет в результате длительных исследовательских работ, осуществлявшихся под контролем ЦРУ. Сегодня он также передан в коммерческое использование и все права на него принадлежат калифорнийской фирме «Verity», мирового лидера по сбору документальных данных.
Не отстают от «Verity» и ее конкуренты, так, например американская фирма «Intelligent Search Solutions» выпустила на рынок пакет программного обеспечения «InfoTracer», предназначенный для сбора разведывательной информации экономического характера в сети ИНТЕРНЕТ. Для «фильтрования» информации указанное программное обеспечение использует ключевые слова и фразы, после чего автоматически составляются сообщения необходимого пользователям содержания. В них могут быть, например, данные о деловых операциях конкретной компании и ее партнерах, используемых ими технологиях и выпускаемой продукции, а также фамилии руководящего персонала.
В данной связи хотелось бы отметить, что появление новых сетевых информационных технологий практически уравняло возможности конкурентов в получении необходимой исходной информации. Теперь основное значение получает быстрота поиска и правильный анализ. В этом как раз и могут помочь процессоры сбора данных, позволяющие «извлекать» и анализировать необходимую информацию из крупных информационных массивов. Профессионалы прекрасно понимают, что экономическую разведку, можно вести без компьютерных взломов, просто обрабатывая по специальному алгоритму огромные массивы информации, доступные каждому пользователю ИНТЕРНЕТ.
Но следует отметить, что информационно-поисковая работа средствами ИНТЕРНЕТ, – это палка о двух концах. Дело в том, что если отследить и проанализировать тематику интересующих конкретный хозяйствующий субъект данных имеющихся в ИНТЕРНЕТ, то достаточно просто можно построить причинно-следственную цепочку и выявить перспективные намерения предприятия, уровень его притязаний, по которым, в свою очередь, можно будет оценить его уровень развития. Для этого разработаны специальные «роботы роботов», которые позволяют перехватывать данные о работе системы, занимающейся целенаправленным сбором информации.
Но на этом пока все, более подробно о компьютерной контрразведке мы поговорим в одной из следующих глав.
А теперь вернемся в российскую действительность и попытаемся рассмотреть национальные особенности ведения компьютерной разведки, причем остановимся на тех, что не требуют значительных финансовых вложений. Я думаю, что предыдущий материал смог убедить большинство читателей в том, что использование методик компьютерной разведки открывает огромные возможности по оперативному получению необходимых данных как из профессиональных баз и банков данных, так и из неструктурированной информации имеющейся в ИНТЕРНЕТ.
Эти обстоятельства естественным образом выделяют компьютерную разведку в самостоятельное направление деятельности подразделений безопасности хозяйствующих субъектов, а в сочетании с технологиями аналитической обработки информации позволяют говорить о целом комплексе разведывательных мероприятий, основанных на современных информационных технологиях.
Итак, приступим к делу. В информационно-поисковой работе средствами ИНТЕРНЕТ можно использовать материалы каталогов, собирающих и классифицирующих российские сайты.
При работе с классификаторами следует учитывать, что сайты классифицируются разными каталогами по-разному, это и понятно, так как ИНТЕРНЕТ-пространство в принципе не может быть упорядочено линейно, оно имеет более сложную геометрию.
Следуют отметить, результативность поиска в данном случае зависит от двух составляющих:
Во-первых, от степени соответствия ключевого слова или фразы поставленной информационной задаче, т. е. релевантности информационного запроса.
Во-вторых, у каждой поисковой системы свой алгоритм поиска и перечень сайтов входящих в базу данный поиска, поэтому при одном и том же запросе результаты поиска в различных поисковых системах могут значительно отличаться. Поэтому для чистоты эксперимента лучше всего последовательно «прочесать» информационное пространство ИНТЕРНЕТА при помощи нескольких поисковиков. При поиске информации о конкретных хозяйствующих субъектах или о целых экономических регионах особое внимание стоит уделить поиску как официальных сайтов субъектов федерации и муниципальных образований, где расположены объекты вашего оперативного интереса. Причем не стоит ограничиваться элементарным «скачивание» заинтересовавшего вас документа. Стоит «обработать» весь сайт как следует. Это связано с тем, что очень часто на них имеются ссылки на сайты местной торгово-промышленной палаты, средств массовой информации и т. д. и т. п.