Компьютерра - Компьютерра PDA 19.06.2010-25.06.2010
Получая в анализ запись, сделанную полицией или публикой, криминалисты по методу Григораса выявляют сигнатуру электропитания, по собственной технологии автоматического сравнения прогоняют её на соответствие через базу данных ENF, и за несколько минут устанавливают, когда именно была сделана запись. Эта же техника применяется и для выявления случаев тайного редактирования записи, либо, наоборот, для исключения таких случаев (как было в недавнем судебном разбирательстве) — потому что порезанная и склеенная аудиозапись проявляет в себе больше, чем одно совпадение сигнатур при ENF-анализе.
Полиция лондонского метрополитена отнюдь не представляет новую технологию как абсолютно надежный метод доказательства. Скорее даже напротив, пока стараются подчеркивать новизну и несовершенство ENF в качестве практичного инструмента расследований. В Британии, строго говоря, его применяли пока что всего в пяти случаях. Тем не менее, сторонники технологии полны энтузиазма. Так, д-р Алан Купер (Alan Cooper), возглавляющий проект ENF в полиции лондонского метрополитена, говорит, что эта технология способна оказывать бесценную помощь в разбирательстве дел серьёзного уровня, где улики на основе аудио- и видеозаписей, а также их аутентичность довольно часто ставятся под сомнение.
По свидетельству Алана Купера, анализ ENF в основе своей стал возможен, благодаря переходу от аналоговых к цифровым методам записи. Старые магнитофонные ленты и кассеты, или видеопленка в VHS не удерживали синхронизацию настолько аккуратно, чтобы выделять из записи надёжные данные, однако ныне можно продуктивно анализировать даже записи совсем дешёвеньких цифровых рекордеров.
Как говорят британские криминалисты, новая технология анализа записей сильно заинтересовала американцев, прежде считавшихся лидерами данного направления. Сегодня же нередко отмечают, что ENF стала наиболее существенным достижением в области аудиокриминалистики со времён технологий, в своё время созданных для анализа так называемой "уотергейтской ленты".
С подачи американцев принято считать, что, собственно, область аудиокриминалистики была создана, по большому счету, как побочный результат Уотергейтского скандала. В 1973 году федеральный суд США назначил специальную комиссию аудиоинженеров для расследования знаменитой темной истории со стёртым фрагментом длительностью 18,5 минут на важной аудиозаписи. Эта запись фигурировала среди магнитофонных лент, на которых по прямому указанию президента Никсона секретно делались записи переговоров, происходивших в Белом доме. "Пропавший" фрагмент на одной из магнитолент вызывал особый интерес расследования, поскольку имелись основания подозревать умышленное уничтожение важных документальных свидетельств.
Предпринятое в тот период большое аудиорасследование породило целый ряд новых интересных технологий, которые показали, что записи делались на одном магнитофоне, а стирались на другом, причем на принципиально важной для следствия пленке на самом деле было стерто не менее девяти отдельных фрагментов. Отчет этой группы стал своего рода фундаментом, на котором в последующие десятилетия выстраивалась аудиокриминалистика (подробности см. в "КТ" # N30(455) от 06.08.2002, "Иногда они возвращаются").
Подробности о новой технологии анализа ENF (на английском языке) можно почерпнуть на персональном сайте Каталина Григораса www.forensicav.ro.
Суперкомпьютер IBM Watson: элементарно, Ватсон
Автор: Олег Нечай
Опубликовано 23 июня 2010 года
У хорошо известного нашим читателям Анатолия Вассермана, многократного победителя интеллектуальной телевикторины "Своя игра", появился опасный конкурент – суперкомпьютер IBM Watson, специально разработанный для участия в этой игре, которая в оригинальном американском варианте носит название Jeopardy.
Казалось бы, нет никаких проблем в том, чтобы заставить компьютер находить в памяти ответы на поставленные вопросы. Однако не всё так просто. Во-первых, особенность игры Jeopardy – "обратные вопросы", как в кроссвордах: игрок должен ответить, какое слово соответствует хитроумному определению или заданным условиям. При этом придумывается далеко не словарное определение, в котором нередко переплетаются прямые и переносные значения понятий, а ответ требует развитого ассоциативного мышления и широкого кругозора. Во-вторых, вопросы задаются обычным человеческим языком, поэтому машина должна уметь трансформировать его в понятный для себя. В-третьих, как и у игроков, возможности машины ограничены тем, что уже заложено в её памяти, поиск в интернете невозможен. И, наконец, в четвёртых, ответы принимаются в течение нескольких секунд, так что правильное решение должно быть найдено максимально быстро.
История Watson началась в 2006 году, когда Дэвид Феруччи, старший менеджер отделения IBM по семантическому анализу, занялся тестированием одного из самых мощных суперкомпьютеров компании, занимавшего одну из верхних строчек 500 самых производительных машин мира. Феруччи решил попробовать, насколько эффективно машина будет справляться с задачами, поставленными "естественным языком", и предложил ей ответить на 500 вопросов, заданных в уже состоявшихся программах Jeopardy! Результаты оказались катастрофическими: по сравнению с живыми игроками, машина недостаточно быстро "нажимала на кнопку" (то есть была готова к ответу), а в случае, когда она всё-таки могла конкурировать с людьми, количество правильных ответов не превышало 15%.
Феруччи заинтересовался причинами такого поведения суперкомпьютера и в итоге в 2007 году смог убедить руководство IBM дать ему команду из 15 человек и от 3 до 5 лет на создание эффективной автоматической системы, способной отвечать на неформализованные вопросы. Такая система пригодилась бы всевозможным колл-центрам, справочным и любым другим службам, обслуживающим клиентов. У IBM уже был успешный опыт создания машины, способной поспорить с интеллектом человека – речь идёт о суперкомпьютере Deep Blue, который в 1997 году победил чемпиона мира по шахматам Гарри Каспарова. Эта победа сделала большую рекламу IBM, но коммерческого применения подобной установке найти так и не удалось. В случае же с системой автоматических ответов на вопросы коммерческий потенциал вполне очевиден.
Принципиальное отличие Watson от Deep Blue заключается в том, что если шахматный автомат имеет дело со строго логическими правилами игры, то машина, распознающая "естественную речь", сталкивается в куда более сложными правилами языка и многочисленными искажениями и отклонениями от них. Но самая большая сложность заключается в том, что люди, сами того не осознавая, общаются в рамках своего культурного и социального контекста. В разговорной речи полно намёков, аллюзий и коннотаций, отсылок к неким общим для конкретной общественной среды фактам, понятиям и явлениям. В их числе и религиозные представления, и политические убеждения, и всевозможные произведения искусства – от книг и картин до кинофильмов и компьютерных игр.
Для эффективной обработки подобной информации используются статистические алгоритмы, позволяющие путём анализа самых разнообразных документов устанавливать связь разных понятий друг с другом. Проще говоря, она определяет, какие слова чаще всего употребляются вместе. К примеру, "Кремль" чаще связан со словами "Россия", "Москва", чуть реже с "Казань", "Нижний Новгород", ещё реже – с "собор", "икона"" и т.п. Хотя эти алгоритмы известны давным-давно, полноценно применять их стало возможно лишь в последнее десятилетие – после кардинального роста производительности вычислительной техники и снижения стоимости накопителей для хранения огромных массивов данных.
Команда Феруччи загружает в память IBM Watson миллионы всевозможных документов – учебники, энциклопедии, справочники, художественную и религиозную литературу. Для анализа вопросов одновременно используется более сотни алгоритмов, предлагающих сотни возможных решений. Затем другие алгоритмы оценивают достоверность потенциальных ответов, отсеивая невозможные в силу объективных причин (например, несоответствия даты события и лет жизни действующих лиц) и маловероятные. Чем больше будет получено одинаковых ответов, тем выше вероятность, что они правильны – в процессе игры, на табло выводится рейтинг из нескольких самых вероятных ответов, помимо чаще всего встречающегося.
К 2008 году IBM Watson переместился из разряда "неудачников" на верхние строчки так называемого "облака победителей", состоящего из людей, в 50% случаев успевающих первыми нажать кнопку, сигнализирующую о готовности к ответу и затем в 85-95% случаев дающих правильный ответ. В IBM даже договорились с продюсерами Jeopardy о проведении осенью 2010 года специальной серии игр с участием Watson и победителей прошлых лет. Для подготовки к этим играм (то есть фактически для совершенствования алгоритмов) был воссоздан примерный интерьер студии викторины и стали проводиться испытания с участием живых игроков и ведущего. При этом, как и полагается, "Ватсон" даёт свои ответы вслух синтезированным компьютерным голосом, чем немало веселит присутствующих.