Минало, Настояще и Бъдеще на Технологиите за Разпознаване на Глас

Често ни се налага да бъдем креативни и иновативни, за да се различим от конкуренцията. Независимо в коя ниша работим и с какво точно се занимаваме. Без значение дали имаме маркетинг агенция, онлайн академия или софтуерна фирма – трябва винаги да търсим начин, за да се откроим, макар и с нещо малко.

Точно това ме накара да създам инструмента за търсене и управление на уеб сайт с глас Voxpow, виждайки силата на тази технология и бъдещото й значение.

Това е инструмент, чрез който разширява възможностите на посетителите с нашия сайт, като им предоставяме още една възможност за взаимодействие. Такава, която ще ги накара да извършат по-малко действия при боравенето с уебсайта. Аз съм Симеон Емануилов и днес съм гост автор в Webselo, една от най-бързо развиващите с рекламни агенции е в България.

Радвам се да споделя за моята платформа, която стартирах едва преди няколко месеца и вече има доволни клиенти от целия свят.

Ключовите функционалности са:

дава възможност за гласово търсене във всеки уеб сайт;
поддържа гласови команди, които може лесно да задаваме;
съхранява потребителските търсения, които може да анализираме впоследствие;
инсталира се лесно през Google Tag Manager или чрез WordPress плъгин.

В тази статия съм описал още детайли за платформата за разпознаване на глас.

Но гледайки нещата по-глобално, какво е значението на технологиите за Speech Recognition? Дали наистина имат своето място в днешния свят? Нека направим едно пътуване през историята на технологиите за разпознаване на реч, което да ни подготви и за нейното бъдеще. Нека видим какво е било и какво се очаква да бъде тази модерна опция, която прави живота ни още по-лесен и хубав.

Минало

Технологията за разпознаване на глас навлиза в общественото съзнание от скоро, първо и най-вече покрай лъскавите събития на технологичните гиганти. Призивът е инстинктивен, ние сме очаровани от машини, които могат да ни разберат.

От антропологична гледна точка, ние разчитаме на речта от много повече време, отколкото на писмеността. И можем да казваме до 150 думи в минута, в сравнение с онези 40 думи, които обикновеният човек може да напише за 60 секунди.

Всъщност общуването с технологични устройства чрез глас стана толкова популярно и естествено, че не е такава изненада защо се чудим, че най-богатите компании в света ни предоставят тази услуга чак сега.

Иначе най-ранният напредък в разпознаването на глас се фокусира главно върху създаването на гласни звуци, като основа на система, която може също да се научи да тълкува фонемите (градивните елементи на речта) от близките събеседници.

Изобретателите обаче бяха възпрепятствани от технологичния контекст, в който живееха, като на тяхно разположение бяха само основни средства за изобретяване на говореща машина. Въпреки това, те предоставиха важен фон на по-новите иновации.

Диктовалните машини, въведени от Томас Едисън в края на 19-ти век, са били способни да записват реч и са набрали сериозна популярност сред лекарите и секретарите заради многото бележки, които трябва да се правят ежедневно.

Въпреки това едва през 50-те години тази линия на проучване води до истинско разпознаване на гласа.

Одри, машина, създадена от Bell Labs, е можела да разбере цифрите от 0 до 9, с 90% степен на точност.

Интересното е, че това ниво на точност е регистрирано, само когато изобретателят на машината говори. Точността се движила между 70% и 80%, когато други хора разговаряли с Одри.

Това намеква за някои от постоянните предизвикателства при разпознаването. Всеки индивид има различен глас и говоримият език може да бъде много непоследователен.

За разлика от текста, който има много по-голямо ниво на стандартизация, говоримата дума варира значително в зависимост от регионалните диалекти, скоростта, ударението, дори социалната класа и пола. Следователно мащабирането на всяка система за разпознаване на реч винаги е било значителна пречка.

До 90-те години дори най-успешните системи се основаваха на съвпадение на шаблони, където звуковите вълни трябваше да бъдат преведени в набор от числа и съхранени.

След това те се задействаха, когато в машината се чуе идентичен звук. Разбира се, това означаваше, че човек трябва да говори много ясно, бавно и в среда без фонов шум, за да има добър шанс звуците да бъдат разпознати.

Машинното обучение, както в толкова много области на научните открития, осигури по-голямата част от пробивите в разпознаването на речта през този век. Google например комбинира най-новата технология със силата на облачно изчисляване за споделяне на данни и подобряване на точността на алгоритмите за машинно обучение.

Това завърши с пускането на приложението Google Voice Search за iPhone през 2008 г. Apple пък направи голям фурор със беше Siri – в резултат на десетилетия на изследвания, този дигитален асистент с изкуствен интелект (AI) внесе нотка на човещина в стерилния свят на разпознаването на глас.

След Siri, Microsoft стартира Cortana, Amazon пусна Alexa и колелата бяха пуснати в движение за текущата битка за надмощие сред съответните платформи за разпознаване на глас на технологичните гиганти.

Настояще

гласово разпознаване - как се промени статия за блога на webselo.com — статия за еволюцията на системата за разпознаване на глас

Първоначално смартфоните бяха единственото място за пребиваване на дигиталните асистенти като Siri и Cortana, но концепцията е децентрализирана през последните няколко години.

Понастоящем акцентът е насочен основно към гласово активираните домашни високоговорители. Заемайки гордо място в дома на потребителя, тези високоговорители са вратата към разпространението на интелигентни устройства, които могат да бъдат категоризирани под широкия чадър на „Интернет на нещата“ или IoT.

Google Home или Amazon Echo вече могат да се използват за контрол на широк набор от устройства с интернет, с много повече, които се присъединяват към списъка към 2020 г. Те включват интелигентни хладилници, слушалки, огледала, аларми за дим и много други.

Последните изследвания на Google установяват, че над 50% от потребителите държат своя гласово активиран високоговорител в хола си, като огромен брой също отчитат, че имат такъв в спалнята или кухнята си.

И точно това е смисълът, Google (и неговите конкуренти) искат да купим повече от едно от тези домашни устройства. Колкото по-популярни са те, толкова повече хора ще продължат да ги използват.

За амбицията им се подпомага много от факта, че технологията сега е наистина полезна при изпълнението на ежедневните задачи. Попитайте Alexa, Siri, Cortana или Google какво ще е времето утре и те ще ви кажат. Технологията все още е несъвършена, но разпознаването на глас достигна приемливо ниво на точност за повечето хора сега, като всички основни платформи съобщават за степен на грешка под 5%.

Бъдеще

Все още сме на известно разстояние от реализирането на истинския потенциал на технологията за разпознаване на глас. Това се отнася както до сложността на самата технология, така и до нейното интегриране в нашия живот.

Настоящите цифрови асистенти могат да интерпретират много добре речта, но те не са разговорните интерфейси, каквито доставчиците на технологии искат да предоставят. Освен това разпознаването на глас все още остава ограничено до малък брой продукти.

Скоростта на прогреса все пак, в сравнение с най-ранните набези за разпознаване на глас, е наистина феноменална. Ето защо лесно можем да погледнем в близкото бъдеще и да предвидим един много променен начин на взаимодействие със света около нас.

Пазарът на интелигентни говорители има още много възможности за растеж, като 75% от американските домове се очаква да имат поне по един до края на 2020 година.

Надявам се Voxpow да бъде част от това бъдеще, предлагайки въвеждането на гласовите взаимодействия още по-близо до потребителя, а именно във всеки сайт, който ежедневно посещават.

Заключение

Направихме кратък преглед на технологиите за Speech Recognition. Безспорно има много предизвикателства, но с развитието на машинното обучение и изчислителната мощ на компютрите, все повече се доближаваме до пълната интеграция в ежедневието ни. Може би ще дойде един ден в който – ще управляваме с глас почти всичко от заобикалящия ни свят, без дори да се замисляме. Бъдещето ще покаже.

Благодаря на любезните домакини и пожелавам успех във всички начинания.

========================================================

гост-статия от Симеон Емануилов за гласовото разпознаване — Симеон Емануилов статия за гласово разпознаване

Прочетете още статии: