Распознать перспективный рынок 24 июля 2012, 14:44 Руслан Владельцы мобильных устройств давно мечтают управлять смартфоном с помощью собственного голоса. Журналисты – мгновенно получать текст интервью в формате Word, да и обычные пользователи не откажутся от «примочки», которая автоматически переведет речь в текстовой формат. Качественно распознать русскую речь способен проект RealSpeaker, “поднявший” за полгода порядка 5 млн. руб от Фонда Сколково и НАИРИТ. Проект стал открытием Всероссийского конкурса по поддержке высокотехнологичных инновационных молодежных проектов НАИРИТ и получил заслуженно высокую оценку экспертов РАН. А сегодня им уже интересуются зарубежные инвесторы. В первой части мы расскажем о том как зарождался этот стартап. Три года назад, весной 2009 года, студент 3-го курса Марийского Государственного Университета (МарГУ), Виктор Осетров листал книги по лингвистике и фонетике, взятые в городской библиотеке. “Внезапно мне в голову пришло какое-то моментальное озарение, - вспоминает Виктор, - интегрировать аудио и видео распознавание речи в единую систему для лучшего изучения иностранных языков. Смысл был такой: я представил себе программу, которая позволяет 2 носителям разных языков естественно общаться между собой. При этом в роли переводчика спикеров является не человек, а специальная программа.” Рынок распознавания речи находится на стадии зарождения. На текущий момент можно выделить несколько сегментов. Первый сегмент - распознавание отдельных голосовых команд и синтез голосовых сообщений. Основные потребители - производители бытовой техники (телевизоры, видеомагнитофоны, микроволновые печи, стиральные машины и т.д.) Суммарное мировое производство телевизоров оценивается в 100 миллионов штук. При цене 5 долл. за функцию (модуль) управления голосом, годовой объем рынка в этом сегменте можно оценить в 500 миллионов долларов. Второй сегмент - речевые технологии, позволяющие распознавать команды в условиях шумов. Они позволят дополнить управление в автомобилях таким функциями как свет, радио, замки и т.д. По оценке экспертов, объем рынка в этом сегменте может достигнуть в 2020 г. 7.5 миллиардов долл. Наиболее значительное применение голосовых технологий - это электронная коммерция и call-центры. Рынок голосовой навигации в Web-сайтах, осуществляющих электронную торговлю услугами по продаже авиа- и железнодорожных билетов, продуктов, другими услугами и сервисами, как по телефону, так и через Интернет, по оценкам экспертов, может достигнуть 700 миллионов долл. Следующий значительный сегмент рынока аудиовизуального распознования - программы обучения, основанные на речевых технологиях - выделения, визуализации и распознавания фонем, позволяющих эффективно осваивать речь, (говорить и слышать). По оценке экспертов индийской фирмы Edaxis, только для Английского языка объем рынка может достигнуть 500 млн. долл. в год только в Индии. Оценив перспективы своей идеи, Виктор принялся за дело. На коленке оформив свою идею в бизнес-проект, Виктор решил представить ее друзьям и коллегам. Для этого, он подал заявку на участие в конкурсе проектов “БИТ-2009”, которые проходил этой же весной. “Первое, что двигало мной - это получить обратную связь, узнать - насколько интересна моя идея для других”, - вспоминает Виктор. БИТ всегда отличался демократичной атмосферой, и этот раз повезло: на конкурс пришли друзья и одногруппники Виктора, которые помогли поддержать проект, - Oral Translator (это первое название проекта) получил приз зрительских симпатий. Проекту повезло, ведь стоило амбициозному третьекурснику поискать в google.com/patents материалы по ключевым словам “audio-visual speech recognition”, как выпадет бесконечный список из более чем 900 патентов. Именно это и предложил сделать профессор из политеха Виктора, когда он пришел к нему со своим проектом: “Витя, пожалей себя, я был в Японии и знаю, что такое научно-исследовательский институт. Там в крупном небоскребе работают с утра до вечера масса людей-роботов”. И нравоучительно завершил свою мысль в том ключе, что если Россия движется вперед на “птице-тройке”, то весть остальной прогрессивный мир влетает в новое тысячелетие на сверхскоростном истребителе. На этом этапе важным было знакомство с человеком, который научил Виктора многому. Губочкин Иван кандидат технических наук в Нижнем Новгороде, распознаванием речи он занимается очень давно, еще со студенческой скамьи. Иван больше занимается наукой, а Виктор очень хотел найти практическое применение своей идее. Поэтому Виктор стал использовать «программки», созданные Иваном и, применяя свои приложения, стал понемногу разрабатывать систему распознавания речи. Через 2-3 месяца после БИТа, вторым конкурсом для Виктора стал У.М.Н.И.К. “Как раз такое мероприятие проходило в моей республике, в моем родном ВУЗе, на базе пансионата, что на озере Яльчик. Мне стало интересно, и я подготовил небольшую научную статью по моему проекту, а также сделал презентацию. Естественно, тогда у меня не было понятий как правильно делать презентацию, как выступать и так далее. Хотелось просто запомниться и увидеть других авторов идей. К счастью, проект оргкомитету показался интересным, и меня пригласили на очное выступление.” Проект не выиграл грант, но Виктор стал впервые ассоциировать как стартапер, окунулся в “нужную” среду, приобрел полезные знакомства и бесценный опыт. Следующий конкурс был Tech Tour, где RealSpeaker был представлен наряду со “звездными” стартапами. Проект оценивало профессионльное жюри, куда входили Сегрей Копытьв (UMISOFT), Сергей Белоусов (Parallels) с которыми можно было обсудить проект, выслушать дельный совет. В итоге поддержка и понимание друзей перевесила чашу сомнений. Проект не стал пылится в институтской библиотеке курсовых работ, а зажил своей самостоятельной жизнью. Но уже под другим именем и с новым бизнес-планом.