Программа распознавания голоса на русском. Программы для распознавания речи

Пожалуй, самая удобная программа для расшифровки текста для Windows и Mac OS, которая совмещает в себе аудиоплеер и текстовый редактор. Принцип работы очень прост – загружаете в программу аудиофайл, прослушиваете его при помощи горячих клавиш на клавиатуре (их можно назначать самому) и параллельно набираете текст. Скорость воспроизведения и громкость аудио также регулируются при помощи клавиатуры. Таким образом, ваши руки постоянно находятся на клавиатуре и отпадает необходимость использовать мышку или переключаться между разными программами. Нужно учитывать, что встроенный редактор текста не распознает ошибки и не имеет многих других привычных функций, например, переключение дефиса в тире. Однако можно пользоваться другими редакторами текста параллельно с Express Scribe, используя горячие клавиши для управления воспроизведением аудио. Программа условно бесплатная, полная стоимость: 17-50 долларов.


02. Transcriber-pro



Русскоязычная программа для Windows, которая позволяет прослушивать не только аудио, но и просматривать видеофайлы. Встроенный текстовый редактор имеет возможность проставлять временные метки и имена собеседников. Полученный текст можно импортировать в «интерактивные стенограммы», а также корректировать в рамках группового проекта. Приложение доступно только при годовой подписке, стоимость – 689 рублей в год.


03. RSplayer V1.4



Простая программа для обработки и расшифровки аудиофайлов с поддержкой горячих клавиш и возможностью набора текста в Microsoft Word. В отличие от предыдущих подобных программ, ее можно скачать бесплатно, но она нестабильно работает на новых версиях Windows.

04. Voco

Профессиональное Windows-приложение для преобразования речи в текст. Поддерживает голосовой набор в любом тестовом браузере, имеет большую коллекцию тематических словарей и не требует подключения к интернету для распознавания речи. Расширенные версии «Voco.Professional» и «Voco.Enterprise» могут работать с готовыми аудиофайлами. Единственный недостаток – высокая стоимость приложения.


05. Dragon Dictation



Бесплатное мобильное приложение для распознавания надиктованной речи. Программа умеет распознавать около 40 языков и их разновидностей, позволяет редактировать текст и отправлять его на почту, социальные сети или копировать в буфер обмена. Для работы необходимо подключение к интернету.


06. RealSpeaker



Уникальное приложение, которое способно не только распознавать аудиофайлы, но и живую речь, наговариваемую на камеру. За счет специального видеорасширения «RealSpeaker» считывает движение губ, тем самым улучшая процесс распознавания речи до 20-30% по сравнению с другими подобными алгоритмами. На данный момент приложение поддерживает 11 языков: русский, английский (американский и британский диалекты), французский, немецкий, китайский, корейский и японский, турецкий, испанский, итальянский и украинский. Программа распространяется условно бесплатно, стоимость зависит от времени подписки, бессрочная версия стоит около 2 тыс. руб.

В нашем современном, насыщенном событиями мире, скорость работы с информацией является одним из краеугольных камней достижения успеха. От того как насколько быстро мы получаем, создаём, перерабатываем информацию зависит наша рабочая производительность и продуктивность, а значит и наш непосредственный материальный достаток. Среди инструментов, способных повысить наши рабочие возможности, важное место занимают программы для перевода речи в текст, позволяющие существенно увеличить скорость набора нужных нам текстов. В данном материале я расскажу, какие существуют популярные программы для перевода аудио голоса в текст, и каковы их особенности.

Большинство ныне существующих программ для перевода голоса в текст имеют платный характер, предъявляя ряд требований к микрофону (в случае, когда программа предназначена для компьютера). Крайне не рекомендуется работать с микрофоном, встроенным в веб-камеру, а также размещённым в корпусе стандартного ноутбука (качество распознавания речи с таких устройств находится на довольно низком уровне). Кроме того, довольно важно иметь тихую окружающую обстановку, без лишних шумов, способных напрямую повлиять на уровень распознавания вашей речи.

При этом большинство таких программ способны не только трансформировать речь в текст на экране компьютера, но и использовать голосовые команды для управления вашим компьютером (запуск программ и их закрытие, приём и отправление электронной почты, открытие и закрытие сайтов и так далее).

Программа преобразования речи в текст

Перейдём к непосредственному описанию программ, способных помочь в переводе речи в текст.

Программа «Laitis»

Бесплатная русскоязычная программа для распознавания голоса «Laitis » обладает хорошим качеством понимания речи, и, по мнению её создателей, способна практически полностью заменить пользователю привычную клавиатуру. Программа хорошо работает и с голосовыми командами, позволяя с их помощью выполнять множество действий по управлению компьютером.

Для своей работы программа требует обязательного наличия на ПК скоростного интернета (в работе программы используются сетевые сервисы распознавания голоса от «Google» и «Yandex»). Возможности программы позволяют, также, управлять с помощью голосовых команд и вашим браузером, для чего необходима установка на веб-навигатор специального расширения от «Laitis» (Chrome, Mozilla, Opera).

«Dragon Professional» — расшифровка аудиозаписей в текст

На момент написания данного материала цифровой англоязычный продукт « Dragon Professional Individual » является одним из мировых лидеров по качеству распознаваемых текстов. Программа понимает семь языков (с русским пока работает лишь мобильное приложение «Dragon Anywhere» на и ), обладает высоким качеством распознавания голоса, умеет выполнять ряд голосовых команд. При этом данный продукт имеет исключительно платный характер (цена за основную программу составляет 300 долларов США, а за «домашнюю» версия продукта «Dragon Home » покупателю придётся выложить 75 американских долларов).

Для своей работы данный продукт от «Nuance Communications» требует создания своего профиля, который призван адаптировать возможности программы под специфику вашего голоса. Кроме непосредственной диктовки текста, вы можете обучить программу выполнять ряд команд, тем самым делая своё взаимодействие с компьютером ещё более конгруэнтным и удобным.

«RealSpeaker» — сверхточный распознаватель речи

Программа для трансформации голоса в текст «RealSpeaker » кроме стандартных для программ такого рода функций, позволяет задействовать возможности веб-камеры вашего ПК. Теперь программа не только считывает аудио составляющую звука, но и фиксирует движение уголков губ говорящего, тем самым более корректно распознавая выговариваемые им слова.


«RealSpeaker» считывает не только аудио, но и визуальную составляющую процесса речи

Приложение поддерживает более десяти языков (в том числе и русский), позволяет распознавать речь с учётом акцентов и диалектов, позволяет транскрибировать аудио и видео, даёт доступ к облаку и многое другое. Программа условно бесплатна, за платную версию придётся заплатить вполне реальные деньги.

«Voco» — программа быстро переведёт голос в текстовый документ

Ещё один преобразователь голоса в текст – это платный цифровой продукт «Voco », цена «домашней» версии которого ныне составляет около 1700 рублей. Более продвинутые и дорогие варианты данной программы – «Voco.Professional» и «Voco.Enterprise» имеют ряд дополнительных возможностей, одной из которых является распознавание речи из имеющихся у пользователя аудиозаписей.

Среди особенностей «Voco» отмечу возможность дополнения словарного запаса программы (ныне словарный запас программы включает более 85 тысяч слов), а также её автономную работу от сети, позволяющую не зависеть от вашего подключения к Интернету.


Среди плюсов «Voco» — высокая обучаемость программы

Приложение включается довольно просто — достаточно дважды нажать на клавишу «Ctrl».Приложение абсолютно бесплатно, поддерживает несколько десятков языков, среди которых и русский.

Заключение

Выше мной были перечислены программы для перевода вашей аудио записи голоса в текст, описан их общий функционал и характерные особенности. Большинство подобных продуктов обычно имеет платный характер, при этом ассортимент и качество русскоязычных программ качественно уступает англоязычным аналогам. Особое внимание при работе с подобными приложениями рекомендую уделить вашему микрофону и его настройкам – это имеет важное значение в процессе распознавания речи, ведь плохой микрофон может свести на нет даже самый качественный софт рассмотренного мной типа.

Существуют два типа программ распознавания речи:

1. привязанные к говорящему – эти программы постоянно обучаются и со временем начинают понимать голос «своего хозяина» все лучше и лучше. Чем чаще пользователь работает в программе, тем лучше она понимает его. К счастью, обучение происходит довольно быстро – примерно через 20 минут программа научится неплохо понимать вас.

2. независимые от говорящего – вы можете начинать говорить сразу – программа будет реагировать на голосовые команды. В отличие от первого типа, этим программам не нужно учиться понимать вас. Наоборот, вам надо научиться говорить так, чтобы программа вас понимала.

Для чего на ПК используют программу распознавания речи?

Не думайте, что если вы поставите программу распознавания речи, то вам больше не понадобятся клавиатура и мышь, однако работа на ПК существенно облегчится.

1. Диктовка – с помощью программ распознавания речи многие пользователи надиктовывают тексты документов. Такая возможность актуальна, например, для медиков, проводящих обследование (в ходе которого руки обычно заняты) и одновременно протоколирующих его результаты. Для обычного пользователя, которому набивать текст по какой-либо причине сложно (или просто лень) она также может оказаться полезной.

2. Ввод команд – пользователи ПК могут использовать «распознавалку» для ввода команд, то есть проговариваемое слово будет восприниматься системой как щелчок клавиши мыши. Пользователь командует: «Открыть файл», «Отправить почту» или «Новое окно», а компьютер выполняет соответствующие действия. Это особенно актуально для людей с ограниченными физическими возможностями – вместо мыши и клавиатуры они смогут управлять компьютером при помощи голоса.

Что потребуется для распознавания речи?

1. Программа распознавания речи – англоязычные пользователи Windows могут воспользоваться, например, Dragon Naturally Speaking или IBM Via Voice. Русский язык понимают программы «Горыныч» и «Диктограф». В операционную систему Windows Vista программа распознавания речи уже встроена.

2. Микрофон или гарнитура (гибрид наушника и микрофона) – для «попадания» слов в компьютер.

3. Достаточно производительный компьютер – для работы функции распознавания речи компьютер не должен быть сверхбыстрым. Вполне достаточно 1 Гб оперативной памяти (для работы Windows Vista лучше иметь 2 Гб) и тактовой частоты процессора не менее 1 ГГц.

В каких устройствах используется функция распознавания речи?

Функция распознавания речи может использоваться не только в ПК, но и во многих других устройствах. Это особенно актуально, если у «гаджета» компактная клавиатура с малюсенькими клавишами (или вовсе ее нет).

1. Мобильные телефоны – уже несколько лет существуют модели с возможностью голосового управления. Но к распознаванию голоса это отношения не имеет – аппарат не переводит голос в текст, а сравнивает произнесенную фразу с заранее записанной (последняя является «эталонной» и обычно называется «голосовой меткой»). Голосовая метка может соответствовать записи в адресной книге (голосовой набор) или пункту меню (голосовое управление). Если телефон изначально не имеет соответствующих функций, «обучить» его будет невозможно.

2. Мобильные навигаторы – в новых навигационных устройствах, например, Tom Tom Go 720T водитель может голосом ввести пункт назначения. Если произносить слова отчетливо и, по возможности, в тишине, то эта функция работает очень хорошо. Хотя данная операция занимает столько же времени, сколько и клавиатурный ввод, но во время движения в любом случае более безопасно и удобно использовать голосовое управление. Правда, совсем без рук здесь не обойтись – для запуска голосовой команды нужно нажать на экранную кнопку.

3. Автомобили – некоторыми новыми марками автомобилей, например, Mercedes, Audi, Toyota, Ford или BMW, можно управлять при помощи голоса (правда, набор команд ограничен). Например, в некоторых моделях BMW после нажатия кнопки, расположенной на руле (см. рисунок), активируются функции голосового управления стереосистемой или системой навигации.

4. Мультимедийные диски для изучения иностранных языков – некоторые обучающие программы проверяют правильность произношения. Программа просит вас прочитать определенное предложение и, обработав с помощью функции распознавания речи результат, сообщает, все ли у вас в порядке с произношением.

Какие проблемы возникают при работе с программами-«распознавалками»?

Управление устройствами или диктовка текстов выполняются достаточно хорошо, но, к сожалению, не идеально. И вызвано это рядом причин:

1. Слова не всегда звучат одинаково – самая большая трудность при распознавании речи заключается в том, что ни один человек не произнесет одно и то же слово одинаково, даже если очень постарается.

2. Все люди говорят по-разному – поэтому программа распознавания речи будет функционировать более четко, если новый пользователь сначала немного «потренирует» ее. Правда, это не всегда возможно, а иногда даже и не нужно, например, при использовании программ, не привязанных к собеседнику. Многие программы распознавания речи умеют настраиваться на нового пользователя автоматически.

3. Фоновые шумы могут существенно искажать звучание произносимого слова. Это в значительной степени ограничивает функции распознавания речи, а в многолюдных или зашумленных местах и вовсе делает его невозможным.

4. Быстрая речь – некоторые пользователи говорят очень быстро – слова практически сливаются. Собеседник легко поймет такую речь, однако программе такая задача окажется «не по зубам».

5. Слова с одинаковым (или очень похожим) звучанием – особенно тяжело приходится программам распознавания речи с так называемыми омофонами – словами, которые произносятся практически одинаково, а пишутся по-разному («лез» и «лес», «рот» и «род»). Значение таких слов программа должна определять по контексту предложения.

Каковы перспективы функции распознавания речи?

В мобильных телефонах роль функции распознавания речи существенно возрастет, ведь набивать текст на маленьких клавиатурах мобильных телефонов весьма утомительно.

1. Диктовка SMS-сообщений – скоро вам не понадобится набирать текст сообщений на телефоне – можно будет просто диктовать. Эту функцию обещает внедрить в некоторые модели своих телефонов фирма Samsung (в ближайшее время они должны появиться на рынке).

2. Перевод – ко времени проведения Олимпийских игр–2008 в Пекине ожидается появление мобильного телефона со встроенным переводчиком. Если вы, находясь в Поднебесной, захотите, к примеру, отобедать в ресторане, то вам достаточно будет по-русски наговорить свой заказ в мобильный телефон – все будет переведено на китайский язык, а электронный голос из динамика передаст заказ официанту.

Можно предположить, что со временем все большее количество устройств будет понимать человеческий голос. Поэтому не удивляйтесь, если однажды утром ваша кофе-машина не только спросит вас, что приготовить – капуччино или эспрессо – но и поймет ваш ответ.

Распознавание речи в Windows Vista

В Windows Vista имеется программа распознавания речи. К сожалению, этот компонент понимает только английскую, немецкую, французскую, испанскую, японскую и китайскую речь. При первом запуске компонента (в Control Panel нужно выбрать пункты Ease of Access и Speech Recognition) открывается окно мастера обучения, который целых полчаса будет знакомить вас с принципами работы голосового управления Windows. Выполнив несколько упражнений, вы научитесь диктовать и управлять Windows с помощью голосовых команд. Поскольку программа распознавания речи является зависимой от говорящего, она будет одновременно изучать ваш голос. После успешного освоения вводной части Windows отреагирует на ваш призыв: «Слушать!» и начнет принимать голосовые команды. Недостаток: голосовой ввод функционирует только для программ Microsoft (например, для самой Windows, Word или Internet Explorer). При использовании других программ (например, Open Office или Firefox) компьютер будет «глух».

Обновлено: Понедельник, Июль 31, 2017

Какое отношение имеет полу фантастическая идея разговора с компьютером к профессиональной фотографии? Почти никакого, если вы не поклонник идеи бесконечного развития всего технического окружения человека. Представьте на минуту, что вы отдаете голосом приказы своему фотоаппарату изменить фокусное расстояние и сделать коррекцию экспозиции на пол ступени в плюс. Дистанционное управление камерой уже реализовано, но там нужно молча нажимать на кнопки, а тут слышащий фотик!

Стало традицией приводить в пример голосового общения человека с ЭВМ какой- либо фантастический фильм, ну хоть бы «Космическая одиссея 2001» режиссера Стэнли Кубрика. Там бортовой компьютер не только ведет осмысленный диалог с астронавтами, но умеет читать по губам как глухой. Другими словами, машина научилась распознавать человеческую речь без ошибок. Возможно, кому-то дистанционное голосовое управление фотокамерой покажется лишним, но многим бы понравилось такая фраза «Сними нас, крошка» и снимок всей семьи на фоне пальмы готов.

Ну, вот и я отдал дань традиции, слегка пофантазировал. Но, говоря от души, эта статья писалась трудно, а началось все с подарка в виде смартфона с ОС «Андроид 4». Эта модель HUAWEI U8815 имеет небольшой сенсорный экран в четыре дюйма и экранную клавиатуру. Набирать на ней несколько непривычно, но оказалось это и не особенно нужно. (image01)

1. Распознание голоса в смартфоне на ОС «Андроид»

Осваивая новую игрушку, я заметил графическое изображение микрофона в строке поиска Google и на клавиатуре в «Заметках». Ранее мне было не интересно, что этот символ обозначает. Разговоры я вел в Skype , а письма набирал на клавиатуре. Так поступает большинство пользователей Интернета. Но как потом мне объяснили, в поисковик Google был добавлен голосовой поиск на русском языке и появились программы, позволяющие диктовать короткие сообщения при использовании браузера «Chrome» .

Я произнес фразу из трех слов, программа их определила и показала в ячейке с синим фоном. Тут было чему удивиться, потому что все слова были написаны правильно. Если нажать на эту ячейку, то фраза появляется в текстовом поле андроид-блокнота. Так еще пару фраз наговорил и отправил сообщение помощнику по SMS.


2. Краткая история программ распознания голоса.

Для меня не было открытием, что современные достижения в области управления голосом позволяют отдавать команды бытовой технике, автомобилю, роботу. Командный режим был представлен в прошлых версиях Windows, OS/2 и Mac OS. Мне встречались программы-говорилки, но что с них пользы? Возможно, это моя особенность, что говорить мне проще, чем печатать на клавиатуре, а на сотовом телефоне я вообще не могу ничего набрать. Приходится записывать контакты на ноутбуке с нормальной клавиатурой и передавать по USB кабелю. Но чтобы просто говорить в микрофон и компьютер сам набирал текст без ошибок – это для меня было мечтой. Атмосферу безнадежности поддерживали дискуссии на форумах. В них везде была такая печальная мысль:

«Однако на деле до настоящего времени программ для реального распознавания речи (да еще и на русском языке) практически не существует, и созданы они будут, очевидно, не скоро. Более того, даже обратная распознаванию задача - синтез речи, что, казалось бы, значительно проще распознавания, до конца так и не решена». (КомпьютерПресс №12, 2004г.)

«Нормальных программ распознавания речи (не только русской) по сию пору нет, поскольку задача изрядно трудна для компьютера. А хуже всего то, что механизм распознавания слов человеком так и не осознан, поэтому не от чего отталкиваться при создании программ-распознавалок». (Еще одно обсуждение на форуме).

При этом обзоры англоязычных программ ввода текста голосом указывали на явные успехи. Например, IBM ViaVoice 98 Executive Edition имела базовый словарь в 64000 слов и возможность добавления такого же количества своих слов. Процент распознания слов без тренировки программы был около 80% и при последующей работе с конкретным пользователем доходил до 95%.

Из программ распознания русского языка стоит отметить «Горыныч» – дополнение к англоязычной Dragon Dictate 2.5. Про поиски, а потом «битву с пятью Горынычами» я расскажу во второй части обзора. Первым я нашел «английского Дракона».

3. Программа распознания слитной речи «Dragon Naturally Speaking»

Современная версия программы фирмы «Nuance» оказалась у моей давнишней знакомой по Минскому институту иностранных языков. Она ее привезла из заграничной поездки, а купила, думая, что та сможет быть «компьютерным секретарем». Но что-то не пошло, и программа осталась на ноутбуке почти забытая. По причине отсутствия сколь-нибудь внятного опыта мне пришлось ехать к своей знакомой самому. Все это длительное вступление необходимо для правильного понимания выводов, которые я сделал.

Полное название первого моего дракона звучало так: . Программа на английском и все в ней понятно даже без руководства. Первым шагом необходимо создать профиль конкретного пользователя для определения особенностей звучания слов в его исполнении. Что я и сделал – важен возраст говорящего, страна, особенности произношения. Мой выбор таков: возраст 22–54 года, английский UK, произношение стандартное. Далее идет несколько окон, в которых вы настраиваете свой микрофон. (image04)

Следующий этап у серьезных программ распознания речи – тренировка под особенности произношения конкретного человека. Вам предлагается выбрать характер текста: мой выбор – краткая инструкция по диктовке, но можно «заказать» и юмористический рассказ.

Суть этого этапа работы с программой предельно проста – в окошке выводится текст, над ним желтая стрелочка. При правильном произнесении стрелочка перемещается по фразам, а внизу идет полоса прогресса тренировки. Английский разговорный был мной изрядно позабыт, так что продвигался я с трудом. Время также было ограничено – компьютер ведь не мой и пришлось тренировку прервать. Но подруга сказала, что проходила тест менее чем за полчаса. (image05)

Отказавшись от адаптации программой моего произношения, я перешел в основное окно и запустил встроенный текстовой редактор. Говорил отдельные слова из каких-то текстов, что нашел на компьютере. Те слова, что произнес правильно, программа напечатала, те, что плохо сказал, заменила чем-то «английским». Произнеся команду «стереть строку» по-английски четко – программа ее выполнила. Значит, команды я читаю правильно, и программа распознает их без предварительной тренировки.

Но мне было важно, как этот «дракон» пишет по-русски. Как вы поняли из предыдущего описания, при тренировке программы можно выбрать только английский текст, русского там попросту нет. Понятно, что и натренировать распознание русской речи не получится. На следующем фото можно увидеть, какую фразу набрала прога при произнесении русского слова «Привет». (image06)

Итог общения с первым драконом получился слегка комичным. Если внимательно почитать текст на официальном сайте, то можно увидеть английскую «специализацию» этого программного продукта. Кроме того, при загрузке мы читаем в окне программы «English». Так зачем это все было нужно. Понятно, что виноваты форумы и слухи…

Но есть и полезный опыт. Моя знакомая попросила посмотреть состояние ее ноутбука. Как-то медленно он стал работать. Это не удивительно – системный раздел имел только 5% свободного места. Удаляя ненужные программы я увидел, что официальная версия занимала более 2,3 Гб. Эта цифра нам пригодится позже. (image. 07)



Распознание русской речи, как оказалось, было задачей нетривиальной. В Минске мне удалось найти у знакомого «Горыныча». Диск он долго искал в своих старых завалах и, по его словам, это официальное издание. Установилась прога мгновенно, и я узнал, что в ее словаре есть 5000 русских слов плюс 100 команд и 600 английских слов плюс 31 команда.

Вначале нужно настроить микрофон, что я сделал. Потом открыл словарь и добавил слово «проверка» ибо его не оказалось в словаре программы. Старался говорить четко, монотонно. Наконец, открыл программу «Горыныч Про 3,0», включил режим диктовки и получил вот такой список «близких по звучанию слов». (image. 09)

Полученный результат меня озадачил, ведь он явно отличался в худшую сторону от работы андроид-смартфона, и я решил попробовать другие программы из «интернет-магазина Google Chrome» . А разбираться со «змеями-горынычами» отложил на потом. Мне показалось это откладывание действием в исконно русском духе

5. Возможности компании Google по работе с голосом

Для работы с голосом на обычном компьютере с OS Windows вам понадобится установить браузер Google Chrome . Если вы в нем работаете в Интернете, то внизу справа можно нажать на ссылку магазина программного обеспечения. Там совершенно бесплатно я нашел две программы и два расширения для голосового ввода текста. Программы называются «Голосовой блокнот» и «Войснот – голос в текст» . После установки их можно найти на закладке «Приложения» вашего браузера «Хром» . (image. 10)

Расширения называются «Google Voice Search Hotword (Beta) 0.1.0.5» и «Голосовой ввод текста — Speechpad.ru 5.4» . После установки их можно будет выключить или удалить на вкладке «Расширения» . (image. 11)

VoiceNote . На вкладке приложения в браузере «Хром» дважды щелкните иконку программы. Откроется диалоговое окно как на картинке ниже. Нажав на значке микрофона, вы говорите в микрофон короткие фразы. Программа передает ваши слова на сервер по распознанию речи и набирает текст в окне. Все слова и фразы, показанные на иллюстрации, были набраны с первого раза. Очевидно, что этот способ работает только при активном подключении к Интернету. (image. 12)

Голосовой блокнот . Если запустить программу на вкладке приложений, то откроется новая вкладка Интернет страницы Speechpad.ru . Там есть подробная инструкция, как пользоваться этой службой и компактная форма. Последняя показана на иллюстрации ниже. (image. 13)

Голосовой ввод текста позволяет заполнять текстовые поля Интернет страниц голосом. Для примера я вышел на свою страницу «Google+» . В поле ввода нового сообщения щелкнул правой кнопкой мыши и выбрал пункт «SpeechPad» . Окрашенное в розовый цвет окно ввода говорит, что можно диктовать ваш текст. (image. 14)

Google Voice Search позволяет производить поиск голосом. При установке и активации этого расширения в строке поиска появляется символ микрофона. Когда вы его нажмете, появится символ в большом красном круге. Просто скажите поисковую фразу и она появится в результатах поиска. (image. 15)

Важное замечание: для работы микрофона с расширениями «Хром» вам нужно разрешить доступ к микрофону в настройках браузера. По умолчанию в целях безопасности он запрещен. Пройдите в Настройки→Личные данные→Настройки контента . (Для доступа ко всем настройкам в конце списка щелкните Показать дополнительные настройки) . Откроется диалоговое окно Настройки содержания страницы . Выберите вниз по списку пункт Мультимедиа→микрофон .

6. Итоги работы с программами распознания русской речи

Небольшой опыт использования программ ввода текста голосом показал отличную реализацию этой возможности на серверах интернет-компании Google . Без всякой предварительной тренировки слова распознаются правильно. Это свидетельствует о том, что проблема распознания русской речи решена.

Теперь можно говорить, что результат разработок Google будет новым критерием для оценки продуктов других производителей. Хотелось бы, чтобы система распознания работала в автономном режиме без обращения к серверам компании –так удобнее и быстрее. Но когда будет выпущена самостоятельная программа по работе с непрерывным потоком русской речи неизвестно. Стоит, однако, предположить, что при возможности тренировки это «творение» станет настоящим прорывом.

Программы российских разработчиков «Горыныч» , «Диктограф» и «Комбат» я подробно рассмотрю во второй части данного обзора. Эта статья писалась очень медленно по той причине, что сам поиск оригинальных дисков сейчас затруднен. На данный момент у меня уже есть все версии российских «распознавалок» голоса в текст кроме «Комбат 2.52». Ни у кого из моих знакомых или коллег нет этой программы, а я сам имею только несколько хвалебных отзывов на форумах. Правда нашелся такой странный вариант – скачать «Комбат» через SMS, но мне он не нравится. (image16)


Короткий видео ролик покажет вам, как идет распознание речи в смартфоне с ОС Андроид. Особенность голосового набора — это необходимость подключения к серверам Гугла. Таким образом у вас должен работать Интернет

Цена — $199,99
Разработчик ScanSoft
Web-сайт www.scansoft.com
Размер Нет
Страница загрузки Нет
+
Широчайшая функциональность; рабо-та во всех Windows-приложениях; мощные словарные базы
Высокая цена
! Лучшая из существующих программ распознавания речи

Однозначно лучший из существующих модулей распознавания речи! За свою долгую историю Dragon прошел весь нелегкий путь от солдата до маршала; нет, пожалуй, все-таки не до маршала, но звание генерала армии он уж точно заслужил. Весь алгоритм работы с программой предельно прост — подключаем наушники и микрофон к соответствующим выходам из аудиоплаты и запускаем саму утилиту. Вначале пользователю будет предложено откалибровать уровень звука из микрофона и надиктовать компьютеру ряд уже готовых текстов для более тонкой подстройки Dragon Naturally Speaking под ваши тембр, интонацию и произношение. И наконец, интерактивный tutorial, где пользователя обучают базовым голосовым командам.

Стоит заметить, что ПК — это не живой собеседник и он не может додумать "проглоченные" слоги или понять неразборчиво сказанное предложение. Не меньшее значение имеет и собственный акцент диктора — такой уровень английского, который, например, звучит на разнообразных международных научных конференциях, в принципе, непригоден для работы. С другой стороны, всегда есть возможность самообучения: если Dragon никак не хочет распознавать какое-то слово, не поленитесь заглянуть в Lingvo и произнести его с учетом правильной транскрипции. Уверяю вас, максимум за неделю—две вы будете не только с легкостью надиктовывать килобайты текстов, но и щеголять среди знакомых истинно английским произношением.

Все еще не удовлетворяет качество распознавания? Обратитесь к местному Accuracy Center, который позволит оптимизировать ваш пользовательский профиль и научит, как пополнять словарь популярными нео-логизмами. Возможны и более экзотические действия вроде распознавания текстового содержимого wav-файла (в том числе и с Pocket PC или напрямую с линейного выхода аудиоплаты). Кроме того, Dragon Na-turally Speaking умеет запускать различные программы, переключаться между ними и даже управлять рядом их функций (например, начинать/приостанавливать воспроизведение музыки в медиапроигрывателе или напрямую работать с меню). Ну а в состав версий Preferred и Pro-fessional дополнительно входит собственный речевой движок Real-Speech 2, один из наиболее совершенных на сегодня.

Но вернемся к записи речи. Особенно радует то, что надиктовывать текст можно не только в родном текст-процессоре DragonPad, но и в любом другом аналогичном приложении — MS Word, Outlook Express, Internet Ex-plorer и Corel WordPerfect. С таким же успехом программа работает и с ICQ, сетевым чатом (Network Assistant) и прочими instant messengers; правда, тогда некоторые команды ста-новятся недоступны, зато для отправки сообщения даже Enter нажимать не надо, достаточно сказать: "New paragraph" — и ICQ автоматически сделает это. В более специализированных приложениях, в частности в том же Word, применяются дополнительные команды: форматирование текста, правописание, редактирование — и все исключительно за счет устной речи. Если же стандартного набора приказов оказалось мало, всегда можно создать собственные, тем самым еще более расширив функциональность Dragon. Стоит немного постараться, и вполне реально набрать страницу текста без каких-либо правок. Главное — верное сочетание интонации и, само собой, произношения. Не растягивайте фразы, но и не строчите как из пулемета, иначе процент правильно понятого материала будет уверенно стремиться к нулю. Причем вовсе необязательно постоянно смотреть в словарь — даже если вы не совсем верно выговорили какое-то словосочетание (например, I’m very happy), известное программе, она "догадается" автоматически исправить текст. Поражает? Все дело в огромном словарном запасе, который наряду с продвинутой технологией распознавания речи не оставляет никаких шансов конкурентам. Как тут не вспомнить ранние версии Dragon, с которыми автор этих строк немало намучился в прошлом, но так и не добился от них качественной работы…

Intelligent Voice Recognition System (IVOS) 2.0.2A
Shareware (30 дней trial, регистрация — $50)
Разработчик ComunX
Web-сайт www.ivos.biz
Размер 2,69 MB
Страница загрузки ftp://ftp.download.com/
pub/ppd/1007091810190380/
setup_ivos.exe
+
Микроскопический размер дистрибутива; отличная функциональность
Режим стенографирования речи пока не дотягивает до уровня Dragon
! Одна из лучших утилит в этой области

Самая скромная (по размерам дистрибутива) программа в обзоре проявила себя на удивление достойно и в значительной мере оправдала свое громкое название. Причиной тому — ее универсальность, призванная полностью искоренить средства "ручного" ввода информации. Итак, IVOS позволяет: а) распознавать речь и преобразовывать ее в текст в любом Windows-совместимом текст-процессоре; б) управлять своим ПК с помощью разнообразных голосовых команд, а также создавать свои собственные; в) озвучивать электронные книги с помощью внешних голосовых движков. Плюс, разумеется, такие мелочи, как извлечение текста из Wav-файлов, удобная, не отягощающая экран панель управления программой и демократичная (по сравнению с тем же Dragon) цена. После регистрации пользователю становится доступна технология VoiceTouch, позволяющая обучать ПК вашим собственным устным приказам.

Эффективность исполнения команд на удивление высока — пожалуй, еще лучше, чем у Realize Voice. А вот уровень распознавания "лекций" будет пониже, что и не странно: одно дело — понять пару слов, и совсем другое — цельное предложение. Надо отметить, что IVOS, как и многие другие программы распознавания речи, кроме Dragon, использует для таких целей модуль Speech API от Microsoft, и ее результативность в данной области напрямую зависит от творческих успехов этой корпорации. Тем не менее добиться качественной работы от IVOS можно уже сейчас, начитав программе все наличествующие в ее запасе обучающие тексты. Конечно, до уровня Dragon Naturally Speaking в итоге она не дотянет, но набирать не слишком сложные документы ей вполне под силу. А если еще регулярно пополнять пользовательский словарь, то и с научными терминами не будет особых проблем. Правда, здесь возникает дилемма — за ту неделю, которую придется потратить на обучение утилиты всем тонкостям работы с речью, вполне можно ударными темпами овладеть методом слепого десятипальцевого набора на клавиатуре… С другой стороны, квалификация пользователя ПК лишь повысится, если он будет владеть сразу несколькими методами ввода информации в компьютер.

Realize Voice 4.0

Realize Voice 4.0
Shareware (15 дней trial, регистрация — $49,00)
Разработчик Realize Software Corporation
Web-сайт www.realizesoftware.com
Размер 55 MB
Страница загрузки
www.realizesoftware.com/
download/RzRV40download.exe (Web-инсталлятор)
+
Неприхотлива к произношению пользователя; весьма широкий набор команд
Качество работы все-таки могло бы быть и получше; устанавливается только на англоязычную версию Windows
! Руководите своим ПК с помощью одного лишь голоса

Realize Voice, в отличие от ранее рассмотренного Dragon Naturally Speaking, не очень-то способна к стенографированию (хотя такая функция в ее арсенале и имеется), зато блестяще справляется с голосовыми командами. Что примечательно, исключительно глубоких знаний в области английского не нужно — благодаря умному модулю эвристического анализатора программа без особых проблем найдет общий язык практически с любым диктором. Спектр функций Realize Voice довольно широк: от запуска исполняемых файлов и ярлыков программ до работы с корреспонденцией и сложными макросами. Как и в остальных подобных программах, от пользователя требуется лишь подключенный микрофон и пара минут для того, чтобы вникнуть в курс дела. А перед тем как приступить к собственно общению с утилитой, стоит обозначить ей фронт работ. По умолчанию в эту категорию попадают ярлыки системного меню, Рабочего стола , содержимое папки Избранное и панели быстрого запуска, а также недавно открытые документы и программы. Весь процесс полностью автоматизирован и выполняется буквально мгновенно. Правда, некоторые неудобства вызывает невозможность использования в названии команд цифр — к примеру, запустить DOOM 3 с помощью голосового приказа удастся, лишь переименовав его ярлык в "DOOM Three". То же, кстати, касается и кириллицы — не такая уж веселая перспектива, не правда ли? Впрочем, в подобном случае всегда можно прибегнуть к ручной настройке программы, напрямую указав путь к интересующему вас файлу/документу/графическому изображению и т. д. Здесь уже название файла и его координаты никакого значения не имеют — будь он хоть абвгд.exe, да и Рабочий стол уродовать не придется. Весьма порадовал и набор встроенных системных команд для работы с Windows — хоть он и не слишком велик, но перемещаться между открытыми окнами, эмулировать действие самых распространенных клавиш (Spacebar, Insert, Home и т. д.), выключать и блокировать систему с его помощью вполне реально.

Немного о макросах. Утилита позволяет объединять под одной командой целую серию операций — начиная от ввода символов с клавиатуры и системных команд до синтеза речи посредством встроенного голосового движка. Правда, до такой идиллии, как запись CD с помощью одного-единственного словосочетания, пока далеко, но время покажет… Главное, что уже сейчас можно (и небезуспешно!) "порулить" своим домашним питомцем безо всяких анахронизмов вроде мыши и клавиатуры. Попробуйте — не пожалеете!

Voice Studio 1.4.6

Voice Studio 1.4.6
Shareware (7 дней trial, регистрация — $20,97)
Разработчик Ultimate Interactive Desktop’s
Web-сайт www.voicestudio.us
Размер 57 MB
Страница загрузки
ftp://ftp.voicestudio.us/
pub/dl2/vssetup.exe
+
Отличная функциональность; наличие "живого" анимированного персонажа; очень низкая цена
Для распознавания речи используется MS SAPI; довольно высокая ресурсоемкость
! Великолепное дополнение к Dragon для управления ПК голосом

Пожалуй, одна из немногих, если вообще не единственная такая программа, где наш виртуальный собеседник по ту сторону монитора наконец-то обрел материальную форму. И хотя технологию MS Agent, которая используется для данных целей, пока трудно назвать прообразом искусственного интеллекта, все предпосылки для этого у нее есть. Анимированный помощник не только наделен некоторой долей самостоятельности, но и умеет отвечать на ряд стандартных фраз (вроде "Hello!", "How do you feel", "Вad computer" и т. д.). При желании его словарный и фразеологический запас легко пополнить, а кроме того, задать его действия в зависимости от "настроения". Хотя подобная болтовня с ПК и будет ограничена рамками знаний программы, никто не мешает расширить их практически до бесконечности. А там уже рукой подать и до пресловутого АІ… Впрочем, я немного отвлекся.

Собственно с функциональностью Voice Studio все в полном порядке — стенографирование (правда, Dragon значительно лучше), разнообразные голосовые команды (для большего удобства и быстрейшего запоминания их можно распечатать), а также приемлемый машинный синтез речи. Из более серьезных вещей — создание макросов для запуска сразу серии операций с помощью одного ключевого слова, даже запись и воспроизведение движений мыши! Напомню, что последняя "фича" широко используется во многих альтернативных браузерах вроде GreenBrowser или MyIE2 для выполнения ряда действий (переход на другую страницу, открытие нового окна и т. д.). Теперь не надо никаких ненужных телодвижений — достаточно произнести соответствующую команду, и компьютер автоматически воссоздаст записанный ранее скрипт. Кто знает, может, скоро и в игры мы будем играть с помощью одного только микрофона? Время покажет…

А пока Voice Studio за потрясающую дружественность и легкость в работе несомненно заслуживает высшей оценки. Пусть корректная запись речи ей пока не под силу, но управление ПК голосом здесь просто бесподобно. Лучшая из таких утилит и достойное дополнение к Dragon!

Dictation 2004 v.4.5.2399

Dictation 2004 v.4.5.2399
Shareware (7 дней trial, регистрация — $49,99)
Разработчик United Research Labs
Web-сайт www.research-lab.com
Размер 41 MB
Страница загрузки
www.bandwidthsaver.com/
downloads/dict2002.zip
+
Базовый набор функций по управлению ПК и записи речи; отличная работа с wav-файлами
Не лучшие показатели распознавания речи; надоедливый модуль правки текста
! Слишком мало за такую цену

Несмотря на, казалось бы, совершенно стандартные базовые умения, кое-чем Dictation 2004 все-таки похвастаться может. В первую очередь, это технология Point-and-Speak, позволяющая с легкостью создавать команды для ввода паролей, запуска ПО и диктовать практически во всех Windows-приложениях. Заявлена интеграция с MS Word, а также интеллектуальная технология правильного определения фраз. Правда, реализована она на редкость неудобно — в виде всплывающего окна, которое появляется при каждом сказанном слове и лишь отбивает всякое желание работать. Хорошо хоть, что ее можно отключить. Dictation 2004 использует все тот же SAPI 5.1, так что качество ее принципиально не отличается от другого ПО, основанного на той же технологии (Voxx, IVOS, Realize Voice и пр.). Из дополнительных функций стоит отметить WAV Recorder для захвата информации с аудиокассет, мобильных устройств, микрофонов и последующей записи ее в wav-файлы; потом текст из них извлекается с помощью отдельного апплета Dictation — Wave-to-Text. Пока что он, конечно, все еще далек от идеала, но если у диктора четкая речь и неплохое произношение, то проблем не возникнет.

+
Универсальность в работе; разнообразие возможностей
— "Тренировка" программы займет много времени ! Интересный продукт, но мог быть и лучше…

Еще один "мастер на все руки", позволяющий вволю поболтать с ПК. Список возможностей программы весьма напоминает таковой у IVOS (стенографирование/голосовые команды/чтение текста), за исключением того, что здесь есть полезный бонус — скрупулезное озвучивание каждого вашего действия, будь то набор текста или открытие файла. Программа использует тот же Microsoft Speech API, что и IVOS, поэтому и качество распознавания у нее аналогичное. Наличествует неплохой набор голосовых команд для навигации браузером, элементарных операций в текстовом редакторе (сut/copy/paste и т. д.), а также работы с окнами, имеются ярлыки вызова системных апплетов, даже открытие/закрытие лотка оптического привода — в общем, все для комфортной работы. Что же касается синтеза речи, то он напрямую зависит от соответствующих модулей, установленных в системе. Бесплатные движки от Microsoft, поставляемые вместе с программой, далеки от идеала, но, в принципе, к ним привыкнуть можно. Более удобный вариант, увы, не безвозмездный — попробовать сторонние разработки, в частности Digit PC , ко всему прочему обладающий весьма неплохим русскоязычным диктором. Учитывая все плюсы и минусы, Voxx будет неплохим кандидатом на покупку. Кстати, trial-версия ограничена лишь количеством фраз/команд на сеанс работы; для начала нового сеанса достаточно перезапустить программу…

Заключение

Несмотря на все еще многочисленные недостатки, программы распознавания речи уже перешли из ранга игрушек в серьезный инструмент делового человека. Если раньше толку от них было мало, то теперь они позволяют реально облегчить жизнь пользователю и разрушить ранее незыблемый стереотип, что компьютер — всего лишь железный ящик, перемалывающий цифры. И конечно, самый приятный факт состоит в возможности ощутить технологический прогресс XXI столетия, о котором так часто писали многочисленные фантасты, уже сейчас. Присоединяйтесь!