(слайд 1)Данные национального масштаба (слайд 2)В последние годы Большие Данные являются общепризнанным трендом экономического и технологического развития. Они относятся к числу наиболее популярных темрассчитанных на самую широкую аудиторию. В результате возникло впечатление, что Большие Данные – это нечто само собой разумеющееся, ясное, понятное.Однако, реальную картину использования технологий анализа Больших Данных видят только узкоквалифицированные специалисты – datascientist или исследователи данных. Разберем, что такое Большие Данные с точки зрения простого пользователя. На протяжении большей части своей истории человечество работало с относительно небольшими объемами данных, потому что инструменты их сбора, организации, хранения и анализа были несовершенны. Люди сводили информацию к минимуму, чтобы ее было проще исследовать. Гениальность современной статистикисостоит в том, что она позволила обществу разобраться в сложных реалиях даже при ограниченном объеме показателей. В прошлом люди отыскивали информацию методом выборки. Когда сбор данных был дорогостоящим, а их обработка трудоемкой, иного подхода быть и не могло. Современная выборка основана на том, что в пределах определенной погрешности можно сделать какие-то выводы об общем народонаселении на основе анализа небольшой группы его представителей, отобранных случайно. Нам по-прежнему нужна статистика, но нет необходимости опираться на небольшие выборки. Сегодня технологические условия повернулись на 179 градусов. Доступ к значительно большему объему означает, что мы можем позволить некоторую неточность (при условии, что собранные сведения не являются полностью неверными), чтобы получать выгоду от глубины проникновения в суть предмета, которую обеспечивает огромный массив данных.Что касается определения самого термина «Большие Данные», то Gartner рассматривает «Большие Данные» сразу в трех плоскостях – рост объемов, рост скорости обмена данными и увеличение информационного разнообразия (многообразия) источников и форматов данных. А консалтинговая компания Forrester дает более краткую и общую формулировку: «Большие Данные объединяют техники и технологии, которые извлекают смысл из данных на экстремальном пределе практичности». (слайд 3)Ведущие наднациональные мировые структуры и транснациональные корпорации, правительства многих стран мира, бизнес самых различных масштабов, системы управления производственной и социальной инфраструктурой и, конечно же, военно-разведывательный комплекс всех основных стран мира уже используют Большие Данные как важнейший стратегический ресурс. (слайд 4) На данном слайде представлены несколько практических примеров внедрения технологий Больших Данных ведущими мировыми компаниями в различных областях деятельности. HSBC использует технологии Больших Данных для противодействия мошеннических операций с пластиковыми картами. С помощью BigData компания увеличила эффективность службы безопасности в 3 раза, распознавание мошеннических инцидентов – в 10 раз. Экономический эффект от внедрения данных технологий превысил 10 млн долл. США. Антифрод* VISA позволяет в автоматическом режиме вычислить операции мошеннического характера, система на данный момент помогает предотвратить мошеннические платежи на сумму 2 млрд долл. США ежегодно. Суперкомпьютер Watson компании IBM анализирует в реальном времени поток данных по денежным транзакциям. По данным IBM, Watson на 15% увеличил количество выявленных мошеннических операций, на 50% сократил ложные срабатывания системы и на 60% увеличил сумму денежных средств, защищенных от транзакций такого характера. Procter&Gamble с помощью Больших Данных проектируют новые продукты и составляют глобальные маркетинговые кампании. P&G создал специализированные офисы BusinessSpheres, где можно просматривать информацию в реальном времени. Таким образом, у менеджмента компании появилась возможность мгновенно проверять гипотезы и проводить эксперименты. P&G считают, что Большие Данные помогают в прогнозировании деятельности компании. По мнению Caterpillar, ее дистрибьюторы ежегодно упускают от 9 до 18 млрд долл. США прибыли только из-за того, что не внедряют технологии обработки Больших Данных. BigData позволили бы клиентам более эффективно управлять парком машин, за счет анализа информации, поступающей с датчиков, установленных на машинах. На сегодняшний день уже есть возможность анализировать состояние ключевых узлов, их степени износа, управлять затратами на топливо и техническое обслуживание. Luxotticagroup является производителем спортивных очков, таким марок, как Ray-Ban, Persol и Oakley. Технологии Больших Данных компания применяет для анализа поведения потенциальных клиентов и «умного» смс-маркетинга. В результате BigDataLuxotticagroup выделила более 100 миллионов наиболее ценных клиентов и повысила эффективность маркетинговой кампании на 10%. (слайд 5)Подобные решения, основанные на анализе Больших Данных, необходимо разрабатывать и внедрять в Республике Казахстан в различных секторах экономики. Для этого имеются все необходимые условия: накоплены огромные массивы структурированной и неструктурированной информации, подготовлена соответствующая инфраструктура. Перечислим некоторые явные сценарии использования Больших Данных в нашей стране: 1) Энергетика – аналитические технологии Больших Данных способны на 99% повысить точность распределения имеющихся мощностей электроэнергии и проанализировать где выгоднее закупать недостающую их часть. 2) Банковский сектор – Большие Данные способны решать практически все ключевые задачи банков: привлечение клиентов, повышение качества услуг, оценка заемщиков, противодействие мошенничеству, причем мошенничества по платежным транзакциям могут быть распознаны с применением технологий анализа Больших Данных в реальном режиме времени. 3) Страхование – использование технологий анализа Больших Данных для того, чтобы предугадывать нужды клиентов и создавать персонализированные сообщения. 4) Сельское хозяйство – измеряя физические характеристики полей и размечая данные о характеристиках почв с точностью до полуметра,зная данные о типах почв и предсказанном уровне осадков в каждой конкретной точке будут выработаны рекомендации, которые позволят выращивать больший урожай при тех же размерах полей, также рекомендации позволят распределять плотность посадок и подбирать количество удобрений с точностью почти до отдельного растения. 5) Телеком – использование технологий Больших Данных необходимо для сегментации абонентской базы, персонализации клиентских сервисов и услуг. Например, при прибытии в аэропорт можно предложить подключение услуг роуминга или дать информацию о возможностях «личного кабинета» для самостоятельного включения услуги. В то же время есть и специализированные задачи такие как: мониторинг качества услуг или оптимизации работы колл-центра за счет угадывания причины обращения, а также индивидуального подбора и предложения сервисов и тарифов. Можно измерить качество сервиса на уровне каждого клиента, синхронизировавшись с геолокацией, – получить мониторинг качества сервиса по всем точкам пребывания клиента. Это даст понимание необходимости повышения качества связи в тех или иных точках сети. 6) Промышленный сектор – анализ Больших Данных от телеметрии большого числа технически сложных объектов. Данные анализа могут быть использованы на этапах эксплуатации технически сложных устройств. Чтобы повысить качество сервисного обслуживания, производители могут устанавливать датчики для отслеживания необходимости технического обслуживания и обнаружения недочетов на ранних этапах, экономя на затратах на ремонт или отзыв изделия. 7) Нефтедобывающий сектор – технологии Больших Данных могут быть использованы для анализа и обработки данных геологоразведки, тем самым бурение пробных скважин будет заменено компьютерным анализом геодезических данных. (слайд 6)Жилищно-коммунальное хозяйство – обработка результатов нескольких тысяч датчиков (светофоры, камеры слежения, GPS-трекеры, аудио и видеоинформация от активных граждан и т.д.) для практического и наиболее эффективного внедрения концепции «Умный город» в столице и во всех городах областного и республиканского значения. Анализ всей поступающей информации позволит существенно сократить автомобильные пробки, повысить безопасность дорожного движения, снизить уровень преступности и получать жителям данные о проводимых мероприятиях (концерты, выставки, кино и театральные представления, перекрытие улиц, наличие свободных парковочных мест и т.д.). (слайд 7)Использование технологий анализа Больших Данных в образовании могут принести существенные результатыв части повышения качества образовательных и медицинских услуг. Всеобъемлющий анализ данных в информационной системе «E-learning» сформирует результаты по каждомуиндивидуальному ребенку и позволит подстраивать программу обучения под его реальные способности и желания. Полученные рекомендации позволят дорабатывать учебные пособия и методики, строить необходимые отчеты, графики и диаграммы для улучшения процесса обучения, освобождая учителей и преподавателей от рутинных процессов, тем самым давая им больше времени для подготовки к проведению интересных и увлекательных уроков. Медицина является одной из отраслей, которая только становится потребителем технологий больших данных, ведь с переходом медицинских учреждений на электронную форму работы становится возможным отслеживать взаимосвязи между принимаемыми препаратами, их эффективность и другие факторы, которые столь важны для фармакологических компаний. Наиболее важным применением является использование больших данных для сокращения времени и средств при разработке новых препаратов и выводе их на рынок за счет многофакторного анализа их эффективности. В жизни обычного врача применение технологий больших данных может позволить не только полагаться на собственные знания, но и в реальном времени изучать данные, полученные от множества специалистов, занимающихся лечением пациентов со схожими заболеваниями, что позволит намного эффективнее анализировать эффективность применяемых методов лечения. Примерами использования технологий больших данных может явиться создание регистров пациентов с наследственными заболеваниями для упрощения диагностики и для поиска скрытых зависимостей. Аналитика поможет определить факторы, влияющие на прогноз заболеваний. Например, в одном регионе погода и социальные показатели влияют на заболеваемость одним образом, а в другом регионе могут работать другие механизмы. Соответственно, результаты анализа Больших Данных покажут общую картину для каждого населенного пункта и позволят выявить свои влияющие факторы. Анализ нескольких сотен снимков ианализ профиля экспрессии генов опухоли конкретного больного и их сравнение с реестром всех снимков и нормальной экспрессией генов дадут возможность выявить на молекулярном уровне причины, приведшие к появлению опухоли, и подобрать самый подходящий целевой химиопрепарат. Применение технологий Больших Данных в государственном секторе никак не затрагивает финансовые показатели напрямую. Государство не зарабатывает деньги, а выполняет конкретный набор функций: обеспечивает безопасность, занимается управлением, следит за экономической, культурной и социальной структурой и т.д. В идеале, роль государства – это повышение качества жизни своих граждан, их удовлетворенности от действий государственных органов. Исходя из того, насколько успешно государство справляется с этой ролью, можно сделать вывод об эффективности выбранной модели госуправления. Таким образом, оценка роли технологий в государственном секторе сводится именно к оценке эффективности работы государственных структур. А поскольку технологии неразрывно связаны с данными, и их объем и разнородность в ИТ-системах государственных ведомств в полной мере соответствуют определению Больших данных, то целесообразно говорить именно о роли Больших данных в разрезе эффективности госуправления. Чтобы управлять, нужно знать как можно больше о том, кем управляешь. И поэтому государства в последние несколько веков начали превращаться в настоящие статистические машины, огромные хранилища данных — столь же запутанных, непонятных, трудных в использовании, как и государственная бюрократия в целом. В этом смысле данные могут произвести в государстве настоящую революцию. Накопленные за десятилетия и столетия массивы информации о людях и экономике содержат гораздо больше смысла и пользы, чем кажется сейчас. До этих глубоко залегающих информационных руд можно добраться, если вместе с компьютерами и новыми подходами к анализу данных государство примет на вооружение и новые управленческие процессы, отбросит осуждавшуюся еще коммунистами ведомственность и стереотип, что данные ценнее всего, когда их держишь в секрете от всех. Наоборот: государственные информационные массивы будут приносить обществу и экономике тем больше пользы, чем более открытыми и доступными их сделают. Анализ информационных баз в госуправлении — это во многом поиск неэффективности и ошибок, которые в отдельности проходят незамеченными или кажутся незначительными, но в совокупности приводят к большим потерям. Американское правительство пару лет назад создало портал DoNotPayPortal — базу людей, которые неправомерно получили выплаты из бюджета. На сайте все ведомства могут проверить, не мошенничали ли с государственными деньгами граждане, которые запрашивают у них пособие или компенсации. Суммы серьезные: в 2012 году, например, обнаружилось, что по государственной медицинской страховке было неправомерно выплачено $452 млн. Аналогично можно отслеживать организации, склонные к нарушению санитарных, экологических и других норм. Британский экспертный центр PolicyExchange подсчитал, что в результате подобного анализа, который помогает повысить собираемость налогов и бороться с мошенничеством, власти страны могут экономить до 33 млрд фунтов в год. По другим оценкам, за счет грамотного использования данных бюджетные расходы можно сократить на 10%. Не обязательно, впрочем, речь идет о мошенничестве: зачастую проблема в неэффективности решений госорганов. Руководство службы занятости Германии изучило, какие меры помощи безработным оказываются полезны, а какие — нет. На уровне программы в целом сделать это не получалось. А вот проанализировав большую базу данных по получателям помощи, удалось понять, какие деньги тратятся впустую (в итоге экономия составила 10 млрд. евро в год), какие меры действительно помогают быстрее найти работу, какие категории безработных больше нуждаются в помощи. В этом смысле большие перспективы открывает анализ практически любой информации, которой владеет и оперирует государство, от медицинских данных и отчетов о преступности до статистики по дорожному движению, пробкам и авариям. Сингапурские власти собирают множество потоков данных со светофоров, датчиков на дорогах и GPS-устройств, установленных на десяти тысячах такси. Результаты анализа сообщаются водителям через электронные табло на дорогах и онлайн-сервисы, затем же используются при регулировании трафика, обустройстве новых дорожных развязок и т.д. А, например, нью-йоркская пожарная служба проанализировала 60 факторов, повышающих вероятность пожаров, и оценила риски возгорания в 330 тысячах зданий города. (слайд 8)Сегодня анализ данных позволяет делать обоснованные выводы на базе полученной информации. Вместо того, чтобы полагаться на интуицию, специалисты в области государственного управления анализируют данные и выбирают лучшие стратегии принятия решений. Вот для чего может применяться анализ данных в различных сферах деятельности органов государственного управления. Еще одна из проблем государственных сервисов заключается в том, что они слишком стандартизированные. Государство, конечно, старается разделить получателей своих услуг на разные категории, но всякой классификации есть предел. Если по каждому случаю принимать решение индивидуально, нынешние госструктуры просто рухнут. Большие Данные открывают решение этой проблемы: зная больше о получателях государственных услуг и о том, как работают на практике их механизмы, где они спотыкаются, государство может подстраиваться под каждого гражданина, точнее учитывая его индивидуальную ситуацию. Конечно, традиционные категории и нормы, которыми пользуется государство (пенсионеры, инвалиды, многодетные семьи и т.д.), никуда не исчезнут, но их теперь надо проектировать несколько иначе: заранее продумывать возможные градации и шаги в сторону. С целью изучения и практического применения технологий Больших Данных на базе Акционерного общества«Национальные информационные технологии» создана Лаборатория Больших Данных. В настоящее время в стенах данной Лаборатории ведутся исследовательские работы по разработке и внедрению прототипа сценария "Анализ профиля пользователя портала электронного правительства – получателя государственных услуг и его лояльности". Основными источниками данных для реализации озвученного сценария являются: портал электронного правительства, электронные обращения граждан через почтовые сервисы, СМС сообщения и звонки в Единый контакт-центр, социальные сети. Конечный результат анализа должен представлять собой конкретизированный набор данных по предоставляемым государственным услугам (их рейтинг, востребованность, качество и т.д.). На основе полученных данных будут выработаны рекомендации для улучшения качества и состава государственных услуг. Анализ всей информации по поступающим налогам, по затраченным средствам на поднятие и укрепление экономического уровня в Республике Казахстан, по всем статистическим данным, по государственным услугам, по проведенным конкурсам государственных закупок и различным мероприятиям станет мощнейшим инструментом государственного управления. (слайд 9)Большие Данные неизбежно изменят наш образ жизни, труда и мышления. Мировоззрение, опирающееся на анализ причинно-следственной связи, оспаривается преимуществами корреляции. Обладание знаниями, когда-то означавшее понимание прошлого, теперь помогает предвидеть будущее. Не так легко ответить на вызов, брошенный Большими Данными. Скорее всего, они – просто очередной шаг в бесконечных дебатах о том, как познавать мир. И все же Большие Данные станут неотъемлемой частью решения многих насущных проблем. В конечном итоге Большие Данные знаменуют собой момент, когда информационное общество наконец-то начинает соответствовать своему многообещающему названию. Информация выходит на авансцену. Собранные цифровые биты находят новое применение и порождают новые виды стоимости. Но это требует нового мышления, бросает вызов сложившимся институтам и укладу общественной жизни. Какая же роль отводится людям, их интуиции, способности идти против фактов в мире, где все больше и больше решений принимается на базе анализа данных? Если все апеллируют к Большим Данным и пользуются их инструментарием, наверное, главным отличием человека становится его непредсказуемость. Он способен проявлять инстинкты, идти на риск, справляться с непредвиденными обстоятельствами и ошибками. Если это так, то придется предусмотреть поле деятельности для человека: зарезервировать место для интуиции, здравого смысла и способности к случайным открытиям. Важно позаботиться о том, чтобы эти ценные человеческие качества не были вытеснены компьютерными алгоритмами. Такое понятие как общественный прогресс оказывается под влиянием описанных изменений. Большие Данные позволяют быстрее экспериментировать и исследовать широкий круг проблем. Эти преимущества должны порождать больше инноваций. В мире Больших Данных необходимо развивать и продвигать присущие человеку качества – творческое мышление, интуицию и интеллектуальное честолюбие, изобретательность. Они двигают прогресс. Два сдвига в нашем подходе (от использования отдельных данных к их совокупности, а также от упорядоченных данных к беспорядочным сведениям) обусловили третье изменение. От причинно-следственной (каузальной) связи мы переходим к непричинным видам детерминации (корреляции). Это переход от постоянных попыток понять глубинные причины мироздания к познанию непричинной связи состояний и явлений и ее применению. Большие Данные – это ресурс и инструмент, призванный скорее информировать, чем объяснять. Они ведут к пониманию разных явлений, но иногда провоцируют ошибочные выводы – все зависит от того, как их использовать. Так давайте их использовать совместно!