Берд Киви - Гигабайты власти. Информационные технологии между свободой и тоталитаризмом
Формирование «базовых» лиц программы речевого морфинга
Программа построена на основе самообучающейся системы искусственного интеллекта, которая после анализа 2-4-минутного видеоролика (необходимый для работы минимум) выделяет кадры, представляющие полный спектр возможных движений рта и окружающих его областей. После чего компьютер становится способен синтезировать любое выражение лица как комбинацию из примерно полусотни «базовых» лиц объекта. Затем программа просматривает всю имеющуюся видеозапись, обучаясь тому, как лицо отображает произнесение каждого звука и как оно двигается от одного звука к другому. Теперь, получая новую последовательность звуков, компьютер может сгенерировать точную картину движений области рта и аккуратно наложить эти движения на лицо объекта.
Разработчики признают, что в настоящее время высокая реалистичность образа достигается лишь на протяжении одной-двух фраз, после чего становится заметным отсутствие эмоциональности в лице говорящего. Однако уже ведутся работы по созданию и более сложной модели, способной обучаться выражению базовых эмоций человека. Так что генерация эмоциональной окраски и все более достоверного звукового сопровождения синтезируемых сцен - дело лишь времени. Новая программа разработчиков МТИ уже применяется на телевидении для формирования более правдоподобной мимики при дубляже читаемых диктором новостей с английского языка на испанский. Потенциал подобной технологии в кино и компьютерных играх поистине неисчерпаем, поскольку позволяет реалистично возродить на экране любого из уже ушедших из жизни актеров или знаменитых людей.
Яркий тому пример - инициатива южнокорейского продюсера Чул Шина, возвращающего на киноэкраны легендарного Брюса Ли, героя целой серии культовых фильмов 1970-х годов о мастерах восточных единоборств. Скоропостижная смерть от кровоизлияния в мозг оборвала карьеру артиста в 1973 году, когда после картин «Кулаки ярости» и «Путь Дракона» он находился в самом зените славы. Несмотря на прошедшие годы, фильмы с Брюсом Ли по-прежнему пользуются популярностью у зрителей Азии, Америки и Европы. Поэтому в 2001 году Чул Шин объявил о начале съемок новой картины, в которой благодаря современным компьютерным технологиям в главной роли вновь будет выступать легендарный артист. Сгенерированный компьютером персонаж будет на равных участвовать в действии вместе с живыми актерами и актрисами. Для этого тщательно подобран список азиатских актеров-спортсменов, чрезвычайно похоже имитирующих манеру боя и движений Брюса Ли. С помощью хорошо известной в компьютерной анимации технологии «захвата движения» с максимальной реалистичностью моделируются все сцены схваток «цифрового Ли». Что же касается речи, то предполагается, что за Брюса Ли будет говорить актер с похожим голосом, а окончательное доведение тембра и прочих голосовых нюансов до оригинального звучания возьмет на себя программа синтеза речи [MS01].
Отдельного упоминания заслуживает и нынешний уровень наиболее продвинутых программ синтеза речи. С лета 2001 года научно-исследовательский центр ATT Labs занимается коммерческими продажами своего программного обеспечения Natural Voices (www.naturalvoices.att.com). По свидетельству экспертов, на сегодняшний день у этой программы нет конкурентов в правдоподобности воспроизведения тембра, нюансов интонирования и прочих особенностей натурального человеческого голоса. При этом программа, основная цель которой - перевод печатного текста в синтезированную речь, способна говорить не только заранее выбранным голосом, но и обучаться воспроизведению хорошо всем знакомых голосов знаменитостей, как ныне живущих, так и давно ушедших из жизни [АВОЗ].
На примере Natural Voices уже очевидно, что клонирование человеческого голоса достигло такого уровня совершенства, когда на слух разница с оригиналом становится неощутима. В своей «базовой» версии это программное обеспечение вышло на рынок с тремя голосами профессиональных актеров, двух мужчин и одной женщины. Затем были добавлены еще два голоса- «ребенка» и «бабушки». Активно ведутся работы над версиями программы для разных языков и диалектов. Уже выпущены варианты «естественных голосов» на испанском, английском, французском и британском английском языках. Пока что комплект такого программного обеспечения стоит несколько тысяч долларов, и ориентировано оно на корпоративных клиентов, таких как телефонные компании; фирмы, занимающиеся созданием программ для чтения разного рода текстовых файлов; изготовители встраиваемых автоматизированных речевых устройств и тому подобное. Ясно, что перед бизнесом открываются захватывающие перспективы - привлечение толп новых клиентов с помощью легко узнаваемых голосов самых знаменитых актеров, телеведущих или политиков, бодро читающих нужные тексты абсолютно произвольного содержания. Но тут же встают многочисленные «скользкие» вопросы. Кто владеет правами на голос знаменитости? Наряду с полностью синтезированными актерами, проникающими ныне в кинематограф, не вытеснят ли синтезированные голоса живых артистов? Конечно же, всплывает сложнейшая проблема с имитацией голоса в мошеннических операциях, поскольку в телефонных переговорах начинается полное размытие границ между «настоящим» и «поддельным».
В настоящее время процесс обучения программы нужному - «заказному» - голосу выглядит следующим образом. Обладатель голоса приходит в студию, где в течение достаточно продолжительного времени - от 10 до 40 часов - начитывает специально подобранные тексты, от бессмысленной чепухи до бизнес-отчетов. Все сделанные записи нарезаются на крошечные звуки-фрагменты и в отсортированном виде хранятся в базе данных. Теперь, когда программа зачитывает произвольный текст, нужные фрагменты быстро извлекаются из базы, рекомбинируются и формируют требующиеся предложения. Данная технология именуется «конкатенативный синтез речи». Для тех ситуаций, когда в качестве обладателя заказного голоса фигурирует давно почившая знаменитость, подбирается массив архивных записей требуемого объема. Понятно, что если вдруг злоумышленники решат подделать чей-то голос, от них потребуется «всего лишь» накопить нужный объем достаточно качественных записей жертвы…
По сути дела, такие программы как Natural Voices и компьютерный морфинг видеоизображения предоставляют неисчерпаемые возможности для преступных злоупотреблений в целях фабрикации ложных улик, дезинформации, провоцирования и просто обмана публики. И сегодня многие эксперты по анализу изображений все чаще предполагают, что судам в ближайшее время придется, возможно, вернуться к средневековой практике и принимать во внимание лишь показания тех свидетелей, которые видели произошедшее собственными глазами.
Нейромаркетинговое мозготраханьеВ условиях, когда очень многие осведомлены о возможностях злоупотребления компьютерными технологиями, всем - и политикам, и бизнесу - приходится действовать в этой области весьма осторожно.
Ведь противники-конкуренты не дремлют, и малейшая оплошность может самым сокрушительным образом сказаться на репутации. Но слишком уж заманчивые перспективы открывают научные и технологические достижения на пути к установлению тотального контроля за мыслями «человека из народа» - а ведь это предел мечтаний идеологов и маркетологов. Разница лишь в том, что одним нужна послушная кукла для воплощения идей политического руководства, а другим - для непрерывной и интенсивной покупки потребительских товаров.
Вполне естественно и объяснимо, что и стратеги идеологического программирования, и специалисты маркетологи обычно бывают весьма скрытны, когда речь заходит о подробностях кухни манипулирования человеческой психикой. Как правило, конкретная и содержательная информация становится общедоступна лишь в тех нечастых случаях, когда изобретают и начинают раскручивать какой-нибудь новый перспективный метод «мозготраханья».
В конце 2002 года о намерении произвести революцию в маркетинге громко возвестило интересное научно-коммерческое заведение из города Атланта (шт. Джорджия, США) под названием «Институт наук о мышлении Брайтхаус» [BrightHouse Institute for Thought Sciences, http://www.thoughtsciences.com]. По сути своей, это маркетинговая компания нового типа, помимо психологов собравшая под своей крышей ученых-нейрофизиологов и специалистов-медиков по ядерно-магнитно-резонансному сканированию мозга. Здесь разработан особый метод «нейромаркетинга» на основе изучения ЯМР-снимков головы, когда тайные предпочтения потребителя устанавливаются по особой окраске специфических областей мозга, реагирующих положительными или отрицательными эмоциями на предъявляемую к оценке рекламу. Прагматичные руководители компании прямо заявляют, что при изучении реакции человека их абсолютно не интересует, нравится тому собственно реклама или нет. Главное - это установить, насколько она эффективна в подсознательной стимуляции покупки конкретного товара или в выработке большей лояльности к брэнду фирмы-заказчика исследования [JL02].