Юрий Курносов - Аналитика: методология, технология и организация информационно-аналитической работы
Именно поэтому использование исключительно пассивных методов сбора информации в современных условиях нельзя считать приемлемыми. При работе с вторичными источниками информации, к которым могут быть отнесены все без исключения средства массовой информации, допустимо использование только активных методов сбора информации либо при анализе данных должны быть учтены все специфические акценты, которые обусловлены ценностной ориентацией источника информации.
Так, в настоящее время в интересах использования ресурсов ГСТК Интернет для решения задач информационного обеспечения деятельности военно-политического руководства американским агентством перспективных исследований МО США рассматриваются проекты систем, реализующих активный мониторинг ресурсов сети с применением аппарата семантических сетей. Предполагается, что за счет этого система сбора информации по качеству совокупности добываемых данных сможет приблизиться к системам непосредственного перехвата информации из каналов внутрисистемных коммуникаций.
Интересный класс средств сбора информации из телекоммуникационных сетей представляют собой, так называемые, «троянские кони», «сетевые черви» и иные программы, предназначенные для осуществления несанкционированного доступа к защищаемым личным и корпоративным ресурсам, хранящимся на компьютерах, подключенных к сети. Эти программы, несмотря на множество различий в стратегии проникновения к данным, имеют много общего и могут использоваться для сбора информации, пересылая критическую информацию внешнему потребителю. Низкий профессионализм среднестатистического пользователя персонального компьютера, как правило, не позволяет обнаружить факт утечки данных, а в случае корпоративного пользователя, где служба защиты данных поставлена должным образом, чаще используются иные методы несанкционированного доступа к данным (сетевые анализаторы, системы перехвата внешнего трафика сообщений и иные).
В этом подразделе мы выделили и рассмотрели особенности достаточно узкого класса средств сбора информации, исходя из тех соображений, что прочие средства сбора информации взаимодействуют преимущественно с физическими процессами, данные о характеристиках которых можно считать высоконадежными (почти не подверженными модификации, хотя существуют и эффективные средства маскировки, взять, хотя бы те же «стелс»-технологии и т. п. ухищрения). Однако, будем уповать на то, что реальность можно будет хоть как-то отличить от декораций — в противном случае тезис «Практика — критерий истины» придется заменить чем-то иным.
9.2 Средства хранения данных
На самом деле, рассматривая Интернет, мы уже затронули вопрос, связанный со средствами хранения данных… В противном случае, что же такое Интернет, если не система распределенного хранения данных? Средства хранения данных представляют собой обязательный компонент любой технологии, связанной с анализом информации.
В природе очень мало (если не отсутствуют вообще) систем, для которых несущественна предыстория их существования — можно говорить о физических аналогах памяти, например, любая запасенная (потенциальная) энергия — это тоже своеобразная память. В этом смысле, камень, лежащий на вершине горы, и тот обладает памятью о той силе, которой он некогда был вознесен на нее. Поэтому, любая система, предназначенная для анализа информации, должна располагать подсистемой хранения данных. И, если даже нам неизвестно, сколько тысячелетий камень лежит на вершине горы, мы, все равно, располагаем памятью в виде физической модели поведения подобных объектов и можем вычислить ту потенциальную энергию, которая запасена в нем.
То есть, для того, чтобы предсказать поведение системы, надо либо знать ее предысторию (помнить ее), либо быть в состоянии восстановить ее (помнить предысторию поведения других систем). Именно этим продиктована необходимость включения в системы анализа подсистемы хранения данных. Однако, этим сходство большинства систем анализа и ограничивается. Да, все они должны располагать блоком памяти, но способ организации хранения данных, способ их представления существенно варьируется. О группе различий, определяемых способом представления моделей, мы говорили ранее, но это лишь часть тех отличий, которые действительно значимы при рассмотрении системы анализа и предельных показателей качества ее функционирования.
Безусловно, многое определяется выбором технологической базы для реализации подсистемы хранения. Здесь следует выделять следующие классы подсистем хранения данных:
— подсистемы хранения данных на носителях с последовательным доступом к данным;
— подсистемы хранения данных на базе технологий, обеспечивающих параллельный доступ к данным.
И те, и другие методы организации хранения данных могут быть реализованы с помощью ЭВМ и сетей ЭВМ, однако при хранении данных на традиционных носителях (бумага, магнитная лента и т. д.) параллельный доступ реализовать не удается. Многое указывает на то, что для человека более естественен именно параллельный способ организации доступа к данным, что обусловлено в том числе и спецификой носителя данных, представляющего собой сложно организованную пространственную структуру, обладающую свойствами, сходными с голограммой (каждый элемент памяти одновременно хранит информацию не об одном, а о множестве реакций/событий). Лишь по мере совершенствования технологий хранения и считывания данных, системы, создаваемые человеком, постепенно приобретают такие свойства — для этого создаются многоканальные устройства регистрации с произвольным доступом, распределенные системы хранения данных на базе сетей компьютеров, вводится иерархическая организация данных, системы параллельных вычислений, нейросетевые компьютеры и так далее. Постепенно совершенствуя технологии, человечество приближается к моменту, когда можно будет говорить о создании эффективных самоорганизующихся структур хранения данных, на базе которых могут быть созданы действительно интеллектуальные системы анализа данных.
Идеи голографической организации структур данных уже не единожды высказывались специалистами, но проблемы, связанные с их реализацией и организацией эффективного поиска данных в подобных системах, на практике остаются нерешенными (насколько это известно авторам). Вероятно, здесь может оказаться полезным раздел математики, связанный с фрактальными структурами[65] (в частности фрактальная геометрия).
Многое также зависит и от того, что, собственно, подлежит хранению в подсистеме хранения данных. Здесь следует рассматривать два аспекта: аспект, связанный с уровнем детализации и завершенностью этапа их анализа (фактографические данные или модели), и аспект, связанный со способом представления (неформализованные или формализованные данные).
Современные подсистемы хранения данных чаще всего строятся по принципу, либо исключающему возможность их анализа без привлечения информации, внешней по отношению к данным, либо препятствующему их параллельному считыванию и обработке. В одном случае данные организуются в структуры, конфигурация и семантика связей которых находится вне подсистемы хранения (в подсистеме интерпретации), а в другом случае данные организуются таким образом, чтобы по мере поэтапного вхождения в контекст хранения система считывания накапливала знания, необходимые для интерпретации данных. В одном случае система считывания заранее должна располагать моделью интерпретации, а в другом — формулирует модель в ходе обработки.
Реляционные базы данныхНаиболее широкое распространение на сегодня (если не считать архивы на традиционных носителях) получили подсистемы хранения данных, использующие реляционную технологию. Идеология и логические основания теории реляционных баз данных разработаны американским ученым Е.Ф. Коддом (Codd E.F.) Подобные системы хранения относятся к классу систем, которым для работы с данными требуются внешние модели интерпретации — даже при наличии непосредственного доступа к носителю данных семантика связей может быть восстановлена лишь в редких случаях. Любое изменение структур таблиц, используемых для хранения экземпляров данных, должно сопровождаться внесением изменений в модель интерпретации, зафиксированную в приложении, обеспечивающем считывание и связывание данных. При изменении структуры объектов учета и атрибутов, используемых для их описания, организация сталкивается с необходимостью доработки программного обеспечения, используемого пользователями, что не всегда возможно (меняются языки программирования, высока кадровая динамика и т. д.).
С другой же стороны, реляционная технология (лучше даже — парадигма) баз данных (БД) обладает множеством положительных свойств. Первое и важнейшее из них — это то, что все отношения между экземплярами данных могут быть заданы извне — ни один из методов связывания по заданным пользователем логическим условиям не будет воспринят как недопустимый. Любой запрос считается допустимым и может вернуть непустое множество записей базы данных: были бы соблюдены формальные правила именования объектов базы данных (таблиц и полей — колонок) и синтаксис языка запросов — остальное находится в компетенции пользователя. Это свойство превращает реляционные базы данных в мощный инструмент исследований, добывания нового знания из существующего набора данных. Более того, введение стандарта языка управления базами данных SQL'92 позволило сделать прозрачным (независимым от особенностей реализации) процесс обращения к различным системам управления базами данных (СУБД) и уже через их интерфейсы к БД, функционирующим под их управлением.