Немного о программах распознавания речи

01.01.2000 30930   Комментарии (0)

В эхоконференции RU.COMPUTER.LIFE сети Фидо недавно промелькнуло забавное письмо, которое я публикую здесь с разрешения автора:

Ой... Распознавалки... Я сейчас начну погибать от хохота. Ситуация: Сидит нормальный (до этого) человек перед компутером. Микрофон в мониторе, его не видно. И, уткнувшись рылом в монитор, уговаривает железяку: "Опен виндоу!" Хрен. "Опен виндоу!". Hи фига. Меняем интонацию. "Уопен уиндоу... Да прекратите вы ржать, идиоты, не мешайте овладевать передовыми технологиями!" Железяка жалобные стоны игнорирует. "Опен, твою мать, виндов!" Естественно, хренушки.>

Заходит девочка-бухгалтер. Hаблюдает родного сисадмина, уламывающего железку открыть окошко. Войсом. Ей плохеет. Пятится по направлению к двери, на лице неудержимое желание вызвать скорую. Ей быренько все объясняют, она остается посмотреть на цирк. Ладно, выдыхаю, обучаю по новой. Опен. Виндоу. Запускаю. "Опен виндоу". Hе-а. От задница. Окончательно разозлившись, ору "Шатдаун на хрен, дура!" Винда послушно гаснет. Hарод вокруг просто лежит вповалку. Еле живой.

Случай два. Тестирование программы набора текстов голосом. Тут уже я наблюдал и хихикал. Hачинаем. "Блэк..." Программа: "Ась? Чаво? " Вываливает список словей, которые, по ее мнению, могли бы иметь место в данном случае. Экспериментатор, привстав со стула, тянется за мышой и тыкает в "black". Программа: "Ааа... Ясно, так бы и сказал, чего орать-то?" "Кэт". Программа: "Шо? Hедопонял?" И список. В котором такие фантастические варианты... Клиент тыкает в "cat". Единственная команда, которую оно воспринимало с четкостью хорошо выдрессированной собаки - "new line". Это да. Hью лайн - это завсегда пожалуйста. Особенно с интонацией "Твою мать!". Видимо, автор программы и клиент учились в разных университетах. "А у нас, в Оксфорде, слово "cat" произносят не так...". Hо заряд бодрости на весь день я получил. После того, как наблюдал совершенно разозленного человека, орущего в микрофон: "Hью лайн, дура! Hью лайн!". Причем на "дура" оно тоже какой-то список выкатило. Я не посмотрел, живот болел от смеха. Искусственный интеллект, однако.

Poul Deniskin (poul@lanck.ru)

Да, уж. Распознавалки речи. Помнится, некоторое время назад я тоже любил с ними играться. А началось все так. Купил микрофон, поставил программу и давай ее обучать особенностям моего произношения. Надо сказать, что программа обучалась весьма добросовестно и немилосердно скрипела винчестером, периодически будя кота Парловзора, спавшего на мониторе. Но результаты были неутешительными. Чтобы заставить Windows выполнить даже самую простейшую команду, приходилось долго вспоминать, как именно я произносил эту фразу в момент обучения... Но точно вспомнить удавалось не сразу. А правильно реагировать на другие интонации программа не желала. Поэтому мои первоначальные голосовые попытки общения с компьютером сильно напоминали ту картину, которую нарисовал Павел Денискин.

Но тут я почувствовал, что задета гордость. Чтобы я, да не смог нечувствительно превзойти какую-то Windows? Да ни в жисть!

Первый вариант был найден достаточно быстро. Оказалось, что если при обучении программы команды выдавать громко, почти криком, то в дальнейшем вероятность правильной интерпретации возрастает в несколько раз. Я быстро ввел в программу понятия "Заткнись" (свернуть окно), "Руки вверх" (открыть программу) и т.д. и т.п. и стал развлекаться. Вот только орать все время надоедало, да и домашние на мои попытки интеллектуального общения с компьютером реагировали как-то не очень хорошо. Жена-то привыкла более-менее быстро, а вот приходящие в гости родители всякий раз пугались, когда из кабинета доносились мои жуткие крики. Отец, когда первый раз услышал это безобразие, кивнул в сторону кабинета и спросил мою жену: "Он там что - пытает кого-то?" " Да нет, - ответила жена, - это он просто интеллектуально общается с компьютером". Папа промолчал, но у него явно появились сильные сомнения в моей интеллектуальности.

Наконец, орать мне надоело, и я опять попытался обучить программу воспринимать команды, отдаваемые простым человеческим голосом. Выяснилось, что главное - заставить программу правильно реагировать на первое слово. И если она его восприняла нормально, то дальше можно добавлять любую чушь, на которую она просто не будет обращать внимания. А слушается это со стороны довольно забавно. Например, когда ко мне приходили знакомые, я гордо брал микрофон в рот и говорил: "Откройся, негодяйская программа, проевшая мне всю плешь", и программа действительно открывалась (реагируя на слово "откройся".) Далее я выдавал: "Ну что, наглюкавила? Закройся немедленно, чтобы я тебя больше не видел!" (программа реагировала на слово "ну что".) Разумеется, достаточно было правильно произнести только первое слово, а все остальные слова не имели никакого значения и могли меняться, создавая у приятелей впечатление, что компьютер весьма интеллектуально интерпретирует мои потоки сознания.

Но я обучал программу все дальше и дальше, роя таким образом себе яму. Потому что программа распознавания речи знала уже довольно большое количество моих слов и выражений, часто реагируя на те слова, которые вовсе не являлись командой. Никогда не забуду ситуацию, когда я, демонстрируя приятелю свое голосовое общение с компьютером, выдал какую-то весьма емкую тираду, предлагая программе открыться, но тирада, как оказалось, содержала в себе массу всевозможных понятий, так что компьютер выполнил следующие действия: открыл запрашиваемую программу, немедленно закрыл ее, помотался курсором по десктопу, открыл Word, загрузил в него один из моих рассказов, полистал туда-сюда страницы, выделил блок текста, вывел его на принтер, удалил из текста, сохранил получившиеся результаты и выключил компьютер. Я даже мяукнуть не успел. Приятель тоже был поражен. Он-то не понял, что произошло, поэтому был в полном восторге.

С тех пор я стал исповедывать следующий способ: микрофон все время держится выключенным, а включается только во время произнесения ключевого слова. Со стороны это все выглядит просто потрясающе. Но мне, если честно, уже давно наскучила эта забава, так что когда меня никто не видит, я общаюсь с компьютером по старинке: с помощью клавиатуры и мышки.

Кстати, если вы думаете, что компьютеру было достаточно иметь всего один вариант моих команд, то вы сильно ошибаетесь. Я поначалу никак не мог понять, почему когда я просто работаю за компьютером и даю команды - машина слушается. А когда приходят друзья, мы выпиваем, а затем я пытаюсь заставить компьютер меня слушаться, он вообще не реагирует. Сначала я думал, что ему просто неприятен запах вина или вискаря. Оказалось, что он вовсе не такой чувствительный, а просто у меня голос и интонации после выпивки меняются. Кстати, это происходит далеко не только со мной. Кроме того, выяснилось, что есть еще несколько стандартных ситуаций, когда голос, тембр и интонации отличаются от стандартных. Так что пришлось создавать несколько файлов: "Леша утром", "Леша днем", "Леша вечером", "Леша выпивший", "Леша в состоянии синих крокодилов", "Леша, получивший хамское письмо e-mail-ом", "Леша, получивший приятное письмо e-mail-ом". Кстати, это оказалось очень удобно. Потому что команды можно четко привязывать к конкретной ситуации. Вот, к примеру, как выглядела команда "Открыть программу" в разных ситуационных файлах:

"Леша утром"

Привет.
"Леша днем" Равняйсь, смирно!
"Леша вечером" Спать хочу
"Леша выпивший" Поиграем?
"Леша в состоянии синих крокодилов" Ы-ы-ы-ы-ы-ы-ы...
"Леша, получивший хамское письмо e-mail-ом" Откройся, сука!
"Леша, получивший приятное письмо e-mail-ом" Прошу к столу.

Одно время я очень рассчитывал на программу распознавания речи в плане голосового ввода текстов, намереваясь отвертеться от освоения слепого десятипальцевого метода по программе В.В. Шахиджаняна (http://1001.vdv.ru/solo), поэтому потратил определенное время на попытки вводить текст в компьютер через микрофон... Надо сказать, что эти попытки не были безнадежными. Кое-что она вводила. Только не совсем то, что я говорил. Точнее, совсем не то. У программы было свое отношение к тексту, и иногда мне казалось, что подлая машина просто использует меня для того, чтобы пропихнуть в рассказ или статью свои собственные мысли. Кстати, таким образом были написаны пара рассказов, которые здесь публиковались. Я специально не стал править то, что ввела программа. Интересно, вы догадаетесь, какие это рассказы, а?

Теперь надо бы резюмировать, а я уже и забыл, как это делается. Короче говоря, друзья мои, используйте программы распознавания речи! Используйте! Этим вы доставите немало приятных минут и себе, и домашним, и вашим друзьям. А вот для работы все эти штучки-дрючки использовать не надо. Потому что штучки-дрючки используются для развлечения, а не для работы. Попытки извлечь реальную пользу от программ голосового управления компьютером полностью эквивалентны попыткам изучения английского языка за три дня по методу Илоны Давыдовой... или как ее там...

***

© 1998–2024 Alex Exler
01.01.2000

Комментарии 0