Редактор ударений для Digalo

Для тех, кто не хочет читать книги с экрана монитора, ухудшая свое зрение. А так же для людей любящих новые технологии. Ну и для лентяев как я. J

 

Последнее обновление сайта: 14 августа 2004 г.

Добавлены ссылки, файлы, изменен текст.

В exc_rus.txt 7095 исключений

 

return_links(5); ?>

 

 

Введение

Что такое Digalo?

 

Это основной компонент, движек, для чтения текста с помощью компьютера вслух, например Вы сейчас можете раскладывать пасьянс и слушать, как компьютер прочитает эту страничку.

 

А вот что пишет об этом Старикович А.К., автор Спикера.

Зачем это все нужно? Слушать книжки, конечно же! А почему это удобнее, чем просто читать с экрана?..

·         На компьютере человек выполняет массу самых разнообразных работ. Часть из них бывает совершенно рутинной. Вот как раз во время выполнения оных можно одновременно слушать книжку.

·         Читать с экрана - не самое приятное и полезное для глаз занятие. А если учесть, что есть люди с ослабленным зрением...

·         Восприятие от прослушивания книжки в корне отличается от ее чтения. Нельзя однозначно сказать что лучше... Все люди разные. Но, как мне кажется, попробовать стоит. И не только попробовать, но и постараться хоть немного привыкнуть.

·         Полезно это может оказаться при написании тестов статей, речей...  Прослушать как бы со стороны, исправить стилистику, найти ошибки...

·         Замечательно запоминать тексты, стихи...

 

Тут пошаговая инструкция для тех, кто не знает с чего начать.

 

Что такое DigaloEditor (редактор ударений Digalo)?

 

Как и все в мире не совершенно, так и движек Digalo произносит некоторые слова с неправильным ударением и произношением. Для этого, французская компания Elan Informatique поставляет вместе с движками файлы со словарями и утилитками для их редактирования. Но почему-то для русского движка Digalo она решила этого не делать J. Мне это не понравилось и после выкачивания пары сотен мегабайт данных с их сайтов и прочтения многих страниц их документаций, я разобрался, как вернуть часть отобранного J.

 

Вообще Elan предлагает большие возможности по редактированию качества звучания голоса, например можно редактировать правила произнесения отдельных слов и звуков, кому интересно, вот как пример ссылка на документашку FrenchTTS на английском языке для движка с французским голосом, есть еще для семи языков кроме русского J.  На Elan Informatique еще описаны утилитки Lexitool и Prosel о которых в доке ни слова. Например утилитка для редактирования звуковых файлов, из кусков которых генерируется голос.. Честно говоря, они серьезно подошли к вопросу, не даром они некоторые последние версии движков всерьез предлагают использовать в аэропортах для объявлений. В общем, мне удалось сделать только самое главное: создать файлы со словарями: в одном аббревиатуры (abb_rus.txt), а в другом так называемые исключения (exc_rus.txt) – в нем можно редактировать ударения, при желании (если кто разберется)  в нем можно еще редактировать фонетическое звучание слова. Так вот DigaloEditor написаная моим хорошим знакомым по моей просьбе, максимально упрощает занесение слов и словосочетаний в последний файл.

 

Почему я предпочел DigaloEditor вместо альтернативы?

 

+        Я использую WordAgent – это макрос для чтения из Word. На мой взгляд, работать с книгами в Word удобнее, но для него нет встроенного словаря как у Govorilka или ReaderTTS.

+        Я предпочитаю заносить слова, неправильно произносимые Дигало в словарь из Word. Судя по подчеркиванию в Word, я знаю, что слово с ошибкой и его сначала надо исправить и только потом заносить при необходимости (может без ошибки оно правильно читается) в словарь. Считаю занесение в словарь без проверки орфографии лишней тратой времени. Прочитав эту статью, я убежден, что текст сначала надо проверить на ошибки, а только потом требовать от синтезатора речи правильного его произношения.

+        Я могу пользоваться любой программой-оболочкой (включая программы без своих словарей) используя один, общий словарь для всех.

+        Родной словарь Digalo не использует звездочки (*), и я считаю это правильным. По моему субъективному мнению использование звездочек вместо окончания и предлогов ухудшает словарь, так как разные слова с разными ударениями могут иметь одинаковый корень и  кто-нибудь да добавит этот корень с одним ударением, заставляя дигало читать все слова с одним ударением. Я долго пользовался Говорилкой, мои словари лежат на ее сайте отправленные с мейлов koljan_c(сабака-бабка)mail.ru и wolfskull(сабака-бабка)mail.ru, первый из них я послал автору аж  06.11.2001 года. Так что это я прочувствовал на себе, на сколько со временем ухудшилось чтение, мне кажется даже что без словаря он лучше читает. И не только я заметил это, почитайте что пишет Вера, автор одного из словарей размещенных на сайте Говорилки http://www.vector-ski.ru/vecs/govorilka/veraz.htm.

 

Зачем я выложил все это для скачивания?

 

DigaloEditor я использую с 2002 года, за два года в словаре появилось более 7 тысяч исключений (в 2 файлах). Это намного улучшило качество чтения. Но вот если бы два года над словарем работал не один, а скажем 10 человек, то я бы сейчас не писал бы эти строки, а наслаждался бы, слушая очередную книгу. Другими словами я призываю вас использовать мой словарь и дополнять его. А так же не забывать присылать вашу версию мне, после добавления в него не менее 10-50 исключений. Я же, в свою очередь буду объединять ваши словари, и выкладывать для всеобщего скачивания один общий, большой словарь.

 

Скриншот

Основное и единственное окно утилитки J

 

Примечание

 

Основное что нужно знать перед пополнением словаря, это:

!         Исключение может содержать не более пяти слов. Количество пробелов в области исключения должно совпадать с количеством пробелов в области произношения.

!         Не заносите в словарь слова, которые могут иметь два ударения, например «замок».  В этом случае в словарь стоит добавлять только словосочетания где это слово может иметь только одно ударение, например «навесной замо<к».  А «большой за<мок» не подходит, т.к. большим может быть и «за<мок» и «замо<к».

Иначе много работы может быть потеряно впустую. Подробности в FAQ.

И еще совет: не гонитесь за совершенством, боритесь только с тем, что Вас раздражает.

 

Загрузка

DigaloEditor v1.0 (280 КБ) – редактор ударений и словари. При распаковке не меняйте путь. На рабочем столе появится ярлык к папке с нужными файлами.

 

Свежие словарираспакуйте в C:\Program Files\Digalo\Digalo 2000 Russian\russian\data

В exc_rus.txt 7095 исключений, изменен 29 июля 2004 г.

В abb_rus.txt 437 аббревиатур, изменен 7 июля 2004 г.

Чтобы они чаще пополнялись - присылайте мне свои версии.

 

Исходники на delphi6 v1.0 (238 КБ) - для тех, кто хочет помочь улучшить утилитку. Я не умею программировать, эту утилитку мне написал мой хороший знакомый. За что ему большое спасибо.

 

Если не скачиваются – попробуйте позднее, возможно сервер перегружен…

Как использовать

 

Просмотрите файлы abb_rus.txt и exc_rus.txt, в этих файлах хранятся словари исключений. Способ занесения исключения/исправления слова в файл abb_rus.txt проще, чем в exc_rus.txt, поэтому первый легко можно править, например в блокноте. Во второй же добавить исключение гораздо сложнее из-за дополнительных знаков, которые приходиться набирать, поэтому была написана утилита DigaloEditor для автоматизации занесения слов и словосочетаний в этот словарь.

 

Способ занесения слов в словарь exc_rus.txt с помощью DigaloEditor:

 

В большом поле будут представлены все слова, входящие в ваш пользовательский словарь ударений. Эти слова отсортированы в алфавитном порядке для удобства поиска. Ударная гласная обозначается знаком < после нее.

 

Во-первых, нажмите кнопку «Добавить». Во-вторых, вводите слово в левое верхнее поле, во время ввода, список перемещается таким образом, чтобы показывать ближайшее похожее слово, которое начинается с тех же букв, что и набираемое вами. В правом верхнем поле автоматически набирается копия слова. Если слово уже присутствует в словаре – набираемое слово изменит свой цвет на красный. Если набираемое вами слово отсутствует в словаре, в правом верхнем поле укажите ударную гласную с помощью знака <. Если вы хотите, чтобы Дигало обращал внимание на регистр набранного Вами слова – снимите галочку в правом верхнем углу. Чтобы удалить слово, выберете его в большом поле и нажмите кнопку «Удалить». Теперь можно сохранить все изменения, нажав кнопку «Сохранить». Если допустили ошибку и не хотите сохранять, соответственно нажмите «Выход» и ответьте на вопрос программы «Сохранить изменения?» нажав «Нет».

 

Обратите внимание: Чтобы изменения вступили в силу, словарь исключения должен быть перезагружен в памяти. В случае с WordAgent нужно нажать два раза кнопку с красным кружочком, так чтобы персонаж исчез и появился заново.

 

Способ занесения слов в словари без DigaloEditor:

 

Abbreviations, имя файла: abb_rus.txt

 

Сокращение (аббревиатура) или акроним - слово, сформированное из первых букв словосочетания, которое оно заменяет. Например: AGP, ASAP, snafu.

 

Ограничения:

 

Используемые специальные символы в словарях:

                space           word boundary

                //                comment

 

Exceptions(исключения), имя файла: exc_rus.txt

 

Для слов и словосочетаний.

 

Ограничения:

 

Используемые специальные символы в словарях:

       :        end of exception word - разделитель области исключения и произношения

       []       phonetic codes

       <>      orthographic codes – знак < например, ставится пред ударной гласной (гото<во)

       ##     word boundary - обозначаются пробелы в области произношения

       /i        to ignore case - игнорировать регистр

       //       comment - комментарий

       ()       word tag - ??? (неизвестно)

 

Схема занесения исключений в текстовый файл exc_rus.txt:

Пример:

мультимедийной : <мультимеди<йной> /i

Расшифровка:

область исключения пробел : табуляция <область произношения> пробел знак игнорирования регистра

 

< - Этот знак ставится перед ударной гласной.

 

Более полную информацию о специальных символах можно узнать из FrenchTTS.

 

Другие программы

Вот еще несколько программ по теме, которые могут пригодиться:

 

MS-Agent (3,40 КБ) - Программа вызова окна свойств Microsoft Agent Алексей Ермакова, автора Говорун+

 

Word Agent (98,7 КБ) – дополнение к MS Word для чтения текста с использованием персонажей MS Agent.

Распакуйте в: C:\...\Application Data\Microsoft\Word\STARTUP\ Точный путь для распаковки Вы можете узнать открыв: Word->Сервис->Параметры->Расположение->Автозагружаемые.

 

Верстка (91,6 КБ) - дополнение к MS Word содержащее в себе несколько макросов, самый нужный, это обработка текста MS-DOS, в котором в конце каждой строки стоит символ конца абзаца.

Распакуйте в: C:\...\Application Data\Microsoft\Word\STARTUP\ Точный путь для распаковки Вы можете узнать открыв: Word->Сервис->Параметры->Расположение->Автозагружаемые.

 

Macros (8,34 КБ) – макрос для MS Word, написанный мной для нормализации текста под особенности движка Digalo. Особенности я вычитал в FrenchTTS и в доках к другим языкам.

 

DelIdent (10,0 КБ) - Макрос для удаления одинаковых ячеек от Олега Вдовиченко. Он был написан для Говорилки. В случае с дигаловским словарем сначала надо будет заменить знак табуляции на другой, например заменить пробел:знак табуляции< на =, а потом вернуть назад.

 

Genie (1,55 МБ) - MS Agent, Джин. Я использую его в Word Agent, он быстрее пробегает абзацы. В Word Agent при каждом абзаце персонаж перелистывает страницу или выполняет еще какое-либо мультяшное действие. При чтении диалога или стихов у других персонажей получается довольно-таки долгий переход с одной строчки на другую, у Джина пошустрее. Если кто знает других персонажей, которые быстро пробегают абзацы, пожалуйста, напишите мне, буду очень благодарен.

 

FrenchTTS – документация к французскому движку Digalo.

 

Audiotools - запись всего того что слышите из колонок прямо в mp3 или wma, либо другой формат. Море настроек, и т.д. Рекомендую.

 

Beyond Compare – хорошо подходит для объединения словарей.

 

FAQ

Совет: не гонитесь за совершенством, боритесь только с тем, что Вас раздражает.

 

Что такое «исключение»?

Это слово или словосочетание занесено в словарь в файле exc_rus.txt.

 

Добавил словосочетание, и теперь Дигало при загрузке выдает ошибку. Либо при чтении вдруг вылетает в ошибку!

Скорее всего, не соблюдено это правило: "Исключение может содержать не более пяти слов, необходимо, что бы в области произношения было столько же слов. Количество пробелов также должно совпадать в обеих областях". Хуже всего, когда движек загружается, но иногда вылетает в ошибку. Это все из-за несоблюдения этого правила, поэтому чаще сохраняйте резервные копии словарей и желательно несколько версий. Как раз и навсегда решить эту проблему?

 

Но в некоторых словосочетаниях нужно убрать между некоторыми словами пробел для более правильного произношения.

Обходится правило так: - недостающие пробелы ставятся в конце.

до сих пор :  <до##сихпо<р##> /i

на хрен :      <на<хрен##> /i

 

Как заставить читать в слове вместо "ё" - "е".

Перед "е" поставить "<<".

буду нем :    <буду##не<<м> /i

вселенная :  <вселе<<нная> /i

 

А если слово может иметь два ударения, "замок" например?

В этом случае в словарь стоит добавлять только словосочетания где неправильно произносимое  слово может иметь только одно ударение, иначе Вы и другие люди будут постоянно исправлять эти слова на свой лад.

Например:

на полном ходу :     <на##полном##ходу<> /i

на краю леса :       <на##краю##ле<са> /i

из стороны : <из##стороны<> /i

вытянутой руки :    <вытянутой##руки<> /i

навесной замок :    <навесной##замо<к> /i

но не:

большой замок :     <большой##за<мок> /i"  - большим может быть и «за<мок» и «замо<к»

 

С буквой "ё" то же самое:

все готово :  <всё<##гото<во> /i

 

Добавил слово, перезагрузил Дигало и все равно иногда произносит с неправильным ударением.

o       Это происходит когда в тексте между словом и одним из следующих знаков <[{"()"}]># нет пробела. Увы, не лечиться.

o       Сначала движок Дигало выбирает из словаря словосочетания, а потом слова. Это стоит учитывать при добавлении в словарь. Лечится это так: открываете файл exc_rus.txt в блокноте и ищете интересующее Вас слово, которое в данном случае произносится с неправильным ударением, скорее всего оно уже есть в каком-нибудь словосочетании. Удаляете это словосочетание, перезапускаете движок и слушаете, изменилось ли ударение.

 

Некоторые слова Дигало произносит с разным ударением в зависимости от предложения, почему?

Да, даже без внешнего словаря, Дигало меняет ударение в слове в зависимости от предложения. Возможно, движек меняет ударение в зависимости от слов стоящих до или после интересующего слова. Возможно движек проводит грамматический анализ предложения и определяет где поставить ударение. Я точно не знаю по какому принципу он работает в данном случае.

 

По какой схеме лучше всего заносить слова в словарь?

Я делаю так: Открываю книгу в Word, если это текст Dos - конвертирую Версткой. Обрабатываю макросом. Слушаю книгу с помощью WordAgent и на ходу меняю цвет интересующих слов в другой. Спустя десяток страниц, останавливаю чтение и заношу в словарь выделенные другим цветом слова.

 

Почему дигало длинные слова читает с разрывом и в предложении ставит паузу там, где ее не должно быть?

В доке к французскому языку есть такое описание:

 

Особенности при чтении предложения

Количество символов

Если предложение содержит больше 255 символов без знака препинания, то оно будет усечено между двумя словами, чтобы создать два или несколько предложений, которые будут меньше 255 символов.

         Количество слов

Если предложение содержит больше 28 слов без знака препинания, то оно будет усечено между двумя словами, чтобы создать два или несколько предложений, которые будут меньше 28 слов.

         Синтаксис

Предложение должно всегда начинаться с заглавной буквы и заканчиваться с точкой. Обратите внимание, слово в начале предложения не имеет той же самой просодии слова в пределах предложения. Если предложение не начинается с заглавной буквы, система может применить просодию, которая не соответствует просодии начального слова, полагая что предыдущее слово и "." - это сокращение.

         Слово

Слово должно быть меньше 25 символов. Более длинные слова будут усечены после 25-ого символа.

 

В русском языке, насколько я заметил, эти ограничения отличаются. Учитывайте ограничения при добавлении в словарь длинных слов.

 

Поддержка

Не задавайте мне, пожалуйста, вопросы о других программах, у меня очень мало свободного времени, т.к. я работаю минимум 40 часов в неделю. Сайт поддерживаю в свободное время. Прошу искать ответы на вопросы, не касающиеся словаря на других сайтах, например в разделе ссылки. Там вы обязательно найдете ответы на свои вопросы, они там уже не раз задавались.

 

Если у вас есть вопрос по словарю, то:

ü      Прочитайте эту страничку от начала до конца.

ü      Прочитайте еще раз FAQ.

ü      Просмотрите гостевую книгу.

ü      Попробуйте еще раз найти ответ/решить проблему самостоятельно.

ü      Если так и не нашли ответа, задавайте пожалуйста вопросы по почте, я отвечу как только появится время.

 

Планы

-         Автоматическая проверка количества пробелов в области исключения и в области произношения. И в случае не совпадения их количества в этих областях – выдавать предупреждение и не заносить в словарь.

-         При наборе слова искать на совпадение еще и в словосочетаниях, т.е. поиск не по маске «слово*», а по «*слово*».

 

Но, к сожалению я не умею программировать и это не будет реализовано пока кто-нибудь не допишет утилитку используя исходники (delphi) или не напишет заново на языке подвластному добровольцу.

 

Ссылки

http://art.bdk.com.ru/govor/ - Информационный портал речевых технологий

http://govorilovo.narod.ru/1.html - пошаговая инструкция для тех у кого «не хочет читать текст»

http://www.digalo.com/ - Digalo TTS engine

http://www.elantts.com/ - Elan Text to Speech Technology - sounds write to me! Сайт компании родившей движек Дигало. Русский движек правда рожали вместе со специалистами из Питера. Конкретно с какими не сообщается.

http://www.sakrament.com/ - Синтез и распознавание речи – Sakrament, до Дигало им пока далеко.

http://www.speechpro.com/rus/ - Центр речевых технологий

http://www.agentry.net/ - там много персонажей, скриншот одного из них в начале страницы.

http://www.vector-ski.ru/vecs/govorilka/index.html - Govorilka.

http://readertts.chat.ru/ - Reader TTS [Text-to-Speech]

http://govorunplus.narod.ru/ - Говорун+

http://www.vsen.sp.ru/ - VoiceMan

http://www.magnamedia.ru/products/talker/ - Рассказчик, на CD готовое решение, но с движком от Sakrament.
http://speaker.vitebsk.net/ - Спикер, еще одна оболочка, по-своему удобная. Мне понравился интерфейс.

http://characters.narod.ru/ - коллекция MS Agent`ов.

http://xcomx.narod.ru/ttsc5.html - плагин для Word использующий SAPI 5.
http://www.scootersoftware.com/ - Beyond Compare, хорошо подходит для объединения словарей.

http://www.prestosoft.com/ps.asp?page=edp_examdiffpro - ExamDiff Pro, раньше использовал для объединения словарей.
http://www.unrelatedinventions.com/Audiotools/ - Audiotools, запись всего того что слышите из колонок прямо в mp3 или wma, либо другой формат. Море настроек, и т.д. Рекомендую.
http://www.microstar.ru/program/products/ia/ia/pro_ia_detail.php?UID=543 - Mega Stick 256, не плохо подходит для прослушивания книжек. Я закидываю туда книжки нарезанные по 5 мин. в wma формате.

 

Created by Nikolay

Рейтинг@Mail.ru