Історія систем розпізнавання мови

У дев’яностих роках минулого століття дуже популярним був фільм «Назад в майбутнє», так ось у другій частині була сцена, в якій Мартін МакФлай входить в кімнату, включає телевізор і перемикає канали використовуючи тільки свій голос і нічого більше. Коли то такі маніпуляції здавалися людям чимось фантастичним і нездійсненним. Однак у наш час це досить буденні речі. Але розвиток цієї галузі було досить не простим. На це знадобилося десятки років і сотні тисяч доларів інвестицій. Дана стаття якраз і присвячена історії розвитку систем розпізнавання мови.

1952 рік можна офіційно вважати роком народження систем розпізнавання мови. Причина тому – американська компанія Bell Laboratories, великий дослідник в області комп’ютерних і електронних систем. В цьому році ця організація представила своє дітище, названу систему Audrey. Відверто кажучи, Audrey навіть не володіла словниковими запасами в звичному для нас розумінні, вона оперувала тільки цифрами. Але і це ще не все. Система мала низку обмежень, невиконання яких знижувало точність Audrey до 60-70 відсотків. Якщо все було зроблено за вимогами, точність становить близько 90%.

Основні обмеження на роботу Audrey:

  • Диктуючий чоловік повинен був бути чоловіком
  • Це людина повинен був вже раніше працювати з системою
  • Пауза між словами повинна була складати близько 350 мілісекунд

В сучасних реаліях це зовсім не показник. Проте був зроблений великий крок на шляху розуміння голосу людини машиною.

У 1962 році відбулася чергова знаменна дата в розвитку систем розпізнавання мови. Сталося це в Сіетлі на Всесвітній виставці. Фірмою IBM був представлений комп’ютер Shoebox. Ця машина могла розпізнати шістнадцять слів англійською мовою. Не важко помітити, що перехід від цифри до речі знадобилося цілих десять років.

Історія систем розпізнавання мови

Робота за комп’ютером IBM Shoebox

У другій половині шістдесятих років у лабораторіях США, Великобританії, Японії, СРСР ведуться досліди з розробки систем розпізнавання мови здатних розпізнавати окремо вимовлені звуки. Повільно, але впевнено технології поступово вдосконалювалися.

У 1971 році перспективна технологія звернула на себе увагу військових США. Міністерством оборони були виділені кошти на дослідження та розробку систем розпізнавання мови. Кінцевий продукт у підсумку повинен був розпізнавати не менше тисячі слів, і розуміти зв’язне мовлення, тобто мова без чітко визначених пауз між словами.

У 1972 році з’явилося перше програмне забезпечення систем розпізнавання мови поставлена на комерційну основу. Це була програма Vip-100, вона могла розпізнавати кілька сотень слів, правда не було підтримки зв’язного мовлення. Та й ті ж проблеми що і в попередніх подібних продуктах, попередня тренування системи», тобто надиктовка слів.

До 1976 році було розроблено шість систем, які в тій чи іншій мірі, відповідали необхідним критеріям. Найвдалішою, мабуть, була «гарпія», розроблена дослідницьким центром при Університеті Карнегі-Мелона. Чотири секунди пропозиції, опрацьовані, за п’ять хвилин, плюс все ту ж «тренування», не можна назвати хорошим результатом. Зате вона мала словниковим запасом 1011 слів, розуміла зв’язне мовлення і мала ефективним алгоритмом пошуку правильних конструкцій. Всі ці якості залишали далеко позаду усіх її попередників, і робили цю програму однією з кращих в свій час.

У 80-ті роки йде бурхливий розвиток систем розпізнавання мови. Флагманом виступають американські компанії Bell Laboratories і IBM. Впроваджуючи нові підходи і технології в розвиток даних систем, вдалося збільшити їх словниковий запас до декількох тисяч слів. Фірма IBM спрямувала свою діяльність на дослідження в напрямку N-грам (безперервних послідовностей з N елементів заданого тексту або мови), і спикерозависимых, іншими словами тренованих, систем. У той час як Bell Laboratories займалася розробкою систем здатних працювати з акустичною дисперсією, акцентами і не потребують попередніх тренувань.

Одну з головних ролей у розвитку цих систем у 80-их роках зіграв так званий статистичний метод. Суттю цього методу було розпізнавання невідомих параметрів, на підставі заданих. Простіше кажучи, системи розпізнавання мови вчили розпізнавати контекст на самому примітивному рівні і впізнавати слова на підставі неповних даних, викликаних перешкодами, акцентом тощо

У цей період величезним провалом закінчилася спроба використовувати штучні нейронні мережі для розпізнавання мови. Виходять комерційні пропозиції на подобу Kurzweil text-to-speech. Але всі вони були дуже незручними в роботі і підтримували тільки надиктовку.

В 1987 році у світ виходить перший комерційний продукт для широкої громадськості з функцією розпізнавання мови. Це була лялька з функцією розпізнавання дитячої мови на основі тренування. В додаток до цього вона могла реагувати на прості події, що відбуваються з нею, будь то потрапляння на світло або темряву, і навіть «читати» спеціальні книги з комплекту, користуючись сенсорами на пальчиках.

Історія систем розпізнавання мови

Перший комерційний продукт вміє розпізнавати мова – лялька Julie Talking Doll

У 1990 році виходить програма Dragon Dictate – перша у своєму роді комерційна програма для звичайних користувачів. За вельми скромні якості, все ще наявну надиктовку і не кращі зручності роботи, рядовий користувач повинен був викласти дев’ять тисяч доларів, прямо скажемо сума досить значна не тільки для того часу, але і для нашого теж.

У 1996 році з’явився VAL від BellSouth – перший голосовий портал. Ця система була покликана обробляти телефонні довідкові запити, інформаційні стенди у великих торгових центрах і т. п. Вона займалася пошуком інформації для покупців і абонентів за заданими запитами, послуг, торговим маркам.

У 1997 році вийшла нова, поліпшена версія програми Dragon – NaturallySpeaking. Ця програма вже була здатна розпізнавати нормальну мову. Приблизно сто слів на хвилину. Та й цінна, знизилася до 695 доларів, що не могло не радувати!

Історія систем розпізнавання мови

Логотип програми Dragon – NaturallySpeaking

У 2001 році Microsoft випускає свою систему розпізнавання мови. Працювала вона з Office XP, на той момент передовий версією пакета офісних програм. Незважаючи на свої недоліки (наявність «тренування», перенастроювання із змінною робочого приміщення або нечіткість вимови) дана програма стала справді масовою.

У 2002 році Google запускає, правда в тестовому режимі, Voice Search, призначеного для голосового пошуку в мережі інтернет. Але дану розробку довелося відразу згорнути. Справа в тому що, що б виконувати цей пошук, потрібно телефонувати на спеціальний номер, що було дуже незручно. Але Google не опустив рук, і продовжував розробки в цьому напрямку.

У 2005 році виходить перша операційна система з функцією розпізнавання мови. Першовідкривачем була Mac OS X Tiger. Однак слід згадати, що подібні напрацювання були і в Windows 95, але там була швидше тестова версія, ніж повноцінний продукт. VoiceOver була здатна не тільки на розпізнавання мовлення, в додаток до цього вона була її синтезатором. Ця програма могла прочитати вміст текстових документів, поштових і веб-сторінок. Великим плюсом було те, що вона була спикеронезависимой, і навіть працювала з декількома користувачами одночасно.

Історія систем розпізнавання мови

Інтерфейс програми VoiceOver

У 2006 році не бажаючи відставати від свого одвічного конкурента Apple, Microsoft випускає операційну систему з повноцінною підтримкою функції розпізнавання мовлення Windows Vista.

У 2009 році виходить додаток Voice Search від Google для iPhone. Робота цього додатка спирається на захмарні обчислення своїх суперкомп’ютерів. Ці обчислення дозволили провести масштабний аналіз даних пошуку збігів між величезним числом голосових запитів користувачів та їх словами. Ця процедура сприяла швидкому зростанню і вдосконаленню системи.

Voice Search поступово закріплює за собою славу самого популярного програми від Google для мобільних пристроїв. З’являється версія для Android.

Історія систем розпізнавання мови

Voice Search в смартфонах iPhone

У 2011 році Google врахував помилки минулих років, результатом чого з’явилася функція розпізнавання голосу в браузері Chrome. Були усунені непотрібні дзвінки та інші незручності. На сьогоднішній день в базі налічується близько 230 мільярдів слів на багатьох мовах світу.

Історія систем розпізнавання мови

Вперше Siri з’явилася на смартфонах iPhone 4S

І на кінець, без применшення поворотна і епохальна дата в історії розвитку систем розпізнавання мови. 14 жовтня 2011 року Apple починає масовий продаж своїх iPhone 4S з встановленою програмою Siri. Це програма не просто розпізнає мову, вона виступає в якості персонального віртуального помічника, здатного обробляти природну мова, відповідати на задані питання і надавати рекомендації. Примітно в ній те, що вона не використовує стандартні програми, а йде жваве спілкування між користувачем і апаратом. Вона навіть може відповідати жартами на курйозні або дурні питання. На сьогоднішній день дана програма підтримує англійська, французька та німецька мови.

Поділитися з друзями:
Відповіді на питання