Евгений Ющук - Интернет-разведка. Руководство к действию
– это позволяет эффективно продавать контекстную рекламу, так как количество посетителей поисковой машины возрастает;
– дает дополнительный трафик поисковикам;
– позволяет собирать статистику по ключевым словам, используемым пользователями;
– помогает отслеживать перемещения людей от одной машины к другой и тем самым узнавать об их предпочтениях.
Недаром при установке нового пакета программ Гугла, в котором персональный поисковик для настольного компьютера представляет собой лишь один из его компонентов, по умолчанию ставится «галочка» в графе о подтверждении согласия пользователя на сбор «неличной информации» с его компьютера.
Вот текст этого дисклеймера, который появляется при установке Google Desktop.
При использовании расширенных функций Вы можете передавать информацию о просмотренных сайтах и неличную информацию об использовании в Google. Например, для персонализации новостей, отображаемых на боковой панели, Google Desktop отправляет в Google информацию о посещаемых Вами страницах новостей. Мы используем неличные данные об использовании, включая сообщения о сбоях, в целях усовершенствования Google Desktop. Учтите, что эти данные на самом деле не содержат сведений, позволяющих нам узнать, кто Вы такой. Мы используем их только для расширения возможностей Google Desktop по предоставлению Вам наиболее релевантной информации.
Существует два варианта установки поисковика Гугла отдельно от пакета (о «галочке» в этом случае можно забыть) – с расширенными функциями и без таковых. Если выбрать вариант, когда расширенные функции включены, то программа начнет соединяться с Интернетом сразу по множеству каналов, перебирая закладки на сайты, сделанные в браузере компьютера. В результате откроется боковая панель, с которой можно будут осуществлять быстрые переходы к ресурсам, которыми вы интересуетесь. Соединение при этом будет установлено с адресом kh.google.com и mt.google.com.
Коперник, как известно, выпущен компанией, которая не имеет собственной поисковой машины, а владеет метапоисковиком, распределяющим запросы между поисковыми системами других владельцев, и затем анализирующим полученные результаты. Вероятно, поэтому столь выраженного интереса к сбору статистики, который характерен для поисковых машин, у владельцев и авторов Коперника нет.
Проводя исследование передачи данных в Интернет настольными поисковыми системами, мы обратились за помощью к человеку, который профессионально занимается вопросами конфиденциальности сведений, представленных в Сети. В работе были использованы специальные программы для подробного анализа интернет-активности приложений – SmSniff и Ethereal.
Владимир Казеннов, так зовут нашего эксперта, не только помог нам советами, но и непосредственно проделал основную часть экспериментальной работы. Если читателям потребуется связаться с ним для прояснения непонятных моментов, это можно сделать по электронной почте [email protected].
Проведенное нами исследование подтвердило, что Коперник Десктоп и Яндекс Десктоп достаточно безвредны. Так, Коперник Десктоп вообще ничего не передавал в Интернет, а Яндекс Десктоп передавал лишь информацию о запросе, сделанном пользователем (да и то, как вначале предположил Владимир Казен-нов, а впоследствии подтвердили сотрудники Яндекса, это не преднамеренный поступок, а некритичная ошибка в написании программы).
Однако с Гугл Десктоп ситуация оказалась более угрожающей, с точки зрения конфиденциальности информации на персональном компьютере. Мы выявили, что он передает на свой сервер некие неустановленные данные по зашифрованному каналу (именно потому, что они зашифрованы, их и не удалось установить). Кроме того, нами было доказано, что Гугл предоставляет своим хозяевам обширную статистическую информацию о параметрах машины, которая использует данную программу, и о работе системы поиска.
Вместе с тем, исследование большей части полученных данных показало, что основная сетевая активность Гугла Десктоп осуществляется в незашифрованном виде и в большинстве своем неопасна с точки зрения угрозы конфиденциальным сведениям.
А кроме того, было установлено, что часть программного кода, применяемого Гуглом – в частности, java-скрипт, – может при определенных условиях быть вредоносной, так как использует технологию скрытого сбора информации и не требует получения разрешения от пользователя на ее отправку поисковику. Во всяком случае, такие java-скрипты обычно запрещаются в защищенных системах.
Так обстояло дело на момент написания книги. Мы не в состоянии спрогнозировать, каким будет поведение поисковых машин этих производителей завтра.
Полное описание эксперимента с детализацией полученных на каждом этапе данных читатель может найти по адресу: http://yushchuk.livejournal.com/37721. html.
Таким образом, если во главе угла – конфиденциальность информации на персональном компьютере, можно было бы рекомендовать в первую очередь Коперник Десктоп и, пожалуй, Яндекс Десктоп. Гугл, передающий в Интернет неустановленные зашифрованные данные с персонального компьютера, на наш взгляд, не может считаться полностью безопасным.
Однако есть еще один параметр, по которому мы также проводили эксперимент, сравнивая два поисковик-лидера. Речь идет о том, что лучше – Яндекс Десктоп или Коперник Десктоп, с точки зрения языка запросов, который используется в этих программах. Интерфейс Коперника англоязычный, Яндекса – русскоязычный.
Для того, чтобы разобраться в этом вопросе, на жесткий диск персонального компьютера были записаны четыре файла, созданных в Word и содержавших короткие, достаточно бессмысленные тексты, включающие в себя нестандартные, редко встречающиеся слова, а также понятия, намеренно написанные с орфографическими ошибками. Это позволило работать без «информационного мусора», который мог быть создан другими документами, хранящимися на том же компьютере. Полное описание эксперимента можно увидеть по адресу: http://yushchuk.livejournal.com/40521.html.
В результате, нами были сделаны приведенные ниже выводы.
На наш взгляд, программа Copernic Desktop Search обеспечивает больше возможностей для точного поиска на персональном компьютере, нежели Яндекс Десктоп.
Коперник Десктоп больше подходит для человека, который знает, что такое Булева алгебра и которого не смущает англоязычный интерфейс.
Яндекс, на наш взгляд, за счет упрощения языка запросов настольной поисковой программы, утратил свое главное преимущество – способность составить точный поисковый запрос.
Если же пользователь не испытывает необходимости в составлении точного запроса, то Яндекс Десктоп – лучшее решение, нежели продукт Коперника, поскольку он прощает большее количество ошибок и неточностей.
Особенности фактического языка запросов обеих испытанных программ. Яндекс Десктоп:
– воспринимает слова в любой их форме, и возможности отменить процесс образования производных от исходного слова нет. Причем, не работают ни стандартный для поисковой машины Яндекс оператор «!», находящийся перед словом, ни заключение запроса в двойные кавычки;
– не проводит различий между заглавной и прописной буквами в тексте;
– ищет по целому слову, изменяя его, по фрагменту слова поиск не выполняется;
– не поддерживает функцию принудительного включения слова в результат поиска. Если из двух слов, соединенных логическим «И» в пределах текста есть только одно, этот документ все равно попадет в выдачу, даже если перед обоими словами стоит знак «плюс»;
– оператор логическое «И» внутри одного предложения («&») при этом действует;
– оператор расстояния между словами не действует;
– логическое «НЕ» существует, но всегда относится ко всему тексту (что соответствует двойной тильде «~~»);
– точная фраза (оператор «кавычки») действует;
– логическое «ИЛИ» также действует.
Коперник Десктоп:
– выдает результат в зависимости от того, с заглавной или прописной буквы написано слово. Эта зависимость исчезает, если перед словом поставить логическое «ИЛИ» (оператор OR – заглавными буквами);
– ищет информацию по фрагменту слова;
– словоформы не поддерживает. Если нужно любое производное от искомого понятия, надо написать его не до конца, чтобы все варианты окончаний могли быть добавлены к этому фрагменту;
– если в запросе два слова связаны логтческим «И», представляет в выдаче только те тексты, в которых обязательно есть оба слова (напоминаем, что лучше писать слово без окончания, если нет уверенности в том, в какой форме оно присутствует в тексте);
– логическое «НЕ» представляет знаком «минус», действие которого распространяется на любой фрагмент текста.
Мониторинг изменений на сайтах в Интернете
Ни специалисту конкурентной разведки, ни сотруднику отдела маркетинга или сбыта недостаточно просто знать, на какой страничке Интернета содержится нужная информация. Надо иметь возможность своевременно и точно отслеживать изменения на этой страничке. Каждый может себе представить, насколько сложна, а чаще всего и вовсе неосуществима эта задача. Вряд ли даже самый внимательный и скрупулезный человек в состоянии быстро и точно оценить изменения в тексте – скажем, в прайс-листе, – занимающем пять страниц.