блог за уеб дизайн | графичен дизайн | уеб технологии | оптимизация
Гласовото разпознаване е от функциите, които дори и веднъж да ви се наложи да използвате, ще ви спести доста време. Въпреки, че думичките “гласово разпознаване” ги асоциирам повече с достъп и някакви алгоритми свързани със сигурността на нещо, в този случай става въпрос за друго.
Soundbooth CS4, както и Premiere CS4 разпознават гласове. Функцията е Transcribe и това, което прави е да “извлича текста” от аудио/видео файл, като го записва в метадатата на файла под Speech Transcript, което автоматично го прави възможен за търсене с всякакъв софтуер, който може да претърсва метадата. Тъй като алгоритъмът не е безгрешен, колкото по-отчетлива е речта, толкова по-точна ще е транскрипцията. Ако има повече от един гласа, всички гласове се разпознават, като това по интуитивен начин се отбелязва в лога (метадатата).
Езикът по подразбиране е английски. Предполагам има възможност за добавка и на други езици, но не ми се е налагало да търся как става.
![]()
Самата транскрипция става така – отваряте файла с аудиото, което ще сваляте, след което отивате на Windows/Metadata (ctrl+7), там ще видите подменю Speech Transcript. Най-долу на това меню ще намерите бутон Transcribe… Това е бутона!
![]()
![]()
След като процеса преключи полето Speech Transcript се изпълва с текст. Текст, в който може да се търси, който може да се копира, коригира, и който може да се проследява от коя секунда точно е свален чрез движение по timeline-а на осцилограмата.
Аналогично всичко това се случва и в Premiere.
За преобразуването на сканиран текст към печатан с Acrobat може да хвърлите един поглед тук. Малко повече за метадатата тук.
СподелиИмето ми е Юлиян, накратко ph1x.
Идеята нарекох Pixelmind.
Pixelmind е студио за уеб дизайн, графичен дизайн, интернет маркетинг, програмиране и цялостни интернет решения, базирано в Пловдив.
Повече информация за нас и услугите, които предлагаме може да намерите на pixelmind.org
ипотпал
February 16th, 2010 at 6:36 pm
май не е далеч времето, когато Гугъл ще може да разбира текста във видео и тогава ще стане доста модерно сео-тата да използват видео за да с екласират на първите места
ph1x
February 21st, 2010 at 6:48 pm
И аз мисля, че това време не е далече, Nexus и iPhone така или иначе си имат speech recognition софтуер…