Обложка статьи

Немного о большом: специалист по инновациям рассказывает о Big Data

Найти человека по фотографии, сделанной в метро, можно за секунды. Это стало возможно благодаря стремительному развитию области Big Data, о которой «Мегабайту» рассказал Леонид Левкович-Маслюк, директор по науке и инновациям центра исследований EMC в Сколково.

О первом знакомстве

Впервые я услышал о Data Science лет десять назад. В  начале двухтысячных годов мне посчастливилось познакомиться с одним из основателей области Григорием Пятецким-Шапиро, который по разным опросам являлся одним из самых влиятельных людей в области Data Mining и Knowledge Discovery, то есть в том из чего развилась Data Science. На самом деле это иллюзия, что область зародилась недавно: почти весь математический аппарат, который сейчас используется в ней, появился в 1960-80-х годах. Самые эффектные вещи, появившееся в последние годы, —  следствие колоссального прорыва в использовании глубокого обучения нейросетей: распознавание речи, образов, и развитие технологий машинного обучения. Такой прорыв стал возможен из-за накопления огромных размеченных массивов информации, на которых можно обучить такие системы, а также в результате прогресса компьютерных технологий.

О больших данных и сферах применения

Разговор о больших данных нужно вести с практических позиций. Впервые термин прозвучал в отчете компании McKinsey в 2011 году, в котором говорилось, что существуют гигантские объемы данных и появились новые методы нахождения паттернов данных, дающие ответы на вопросы, которые раньше даже нельзя было поставить, и выявляющие не очевидные закономерности. Методики, лежащие в основе этих инструментов, были названы Data Science. Известно,  что ряд крупнейших проектов, работающих с большими данными, был создан до появления самого термина. Например, поисковики и их контекстная реклама, которая на основании действий пользователя в сети, выдает релевантные предложения. Но это было только начало, сейчас все транслируется в реальность: когда вы снимаете деньги в банкомате, банк может отправить вам SMS-сообщение, что в магазине неподалеку проводится некоторая акция и так далее.

Для нас, инженеров,  интересна также предиктивная аналитика для крупных промышленных объектов. Эта методика основана на анализе поведения сложных систем, которое можно описать физически только для некоторых компонентов, в целом же точно рассчитать их поведение во всех деталях – на практике невозможно. На основе методов машинного обучения, получая колоссальные объемы данных с датчиков отдельных компонентов и выявляя в них некоторые паттерны, система определяет, где должна возникнуть поломка и когда или насколько изношен некоторый элемент установки, что позволяет не только экономить на обслуживании, но и спасать жизни. Удивительно, что один и тот же концептуальный подход на основе машинного обучения позволяет решать совершенно различные задачи – прогнозировать отказы сложных технических систем и, например, рекомендовать покупателям книги или фильмы в соответствии с их вкусами и интересами. Количество областей применения больших данных постоянно увеличивается.

Среди   самых перспективных таких областей  – биология и медицина. В первую очередь это касается  диагностики. Уже сейчас на основании изучения имеющихся у пациента генетических особенностей, анализа всей существующей в мире и постоянно обновляющейся информации об клинических следствиях этих особенностей, часто удается спрогнозировать, подействует ли на пациента определенный вид лечения. Это активно применяется при лечении онкологических заболеваний. Также развиваются персонализированная медицина и новые подходы к анализу  генома, вместе с накоплением различных данных о пациенте. Скоро эти подходы превратятся в медицину данных, и лечение пациента может стать похожим на предиктивную аналитику двигателя самолета.

Data Scientist. Кто это?

Для Data Science в определенной индустрии нужны знания о самой области, хотя бы на таком уровне, чтобы делать некоторые практические выводы. С другой стороны, есть математическая технология, которая и называется Data Science – набор методик, позволяющих кластеризовать данные, очищать от шума, находить в них практически значимые закономерности. Все большую роль в Data Science играют технологии машинного обучения,  нейросетевые методы. Data Scientist – человек, понимающий математику, на которой основаны современные методы анализа данных, знающий программные средства, с помощью которых они реализуются, и имеющий представление об индустрии, в которой будет работать. Сейчас в интернете доступны прекрасные ресурсы для изучения Data Science, в том числе открытые курсы лекций ведущих специалистов. 

 

26 мая 2016

Еще почитать по теме

Обложка статьи
Открыта регистрация на хакатон ScienceMedia 2022
Всероссийский студенческий хакатон по дата-журналистике пройдет в два этапа: с 17 по 30 октября онлайн и со 17 по 20 ноября в Петербурге
Обложка статьи
Открыта регистрация на хакатон ScienceMedia 2022
Всероссийский студенческий хакатон по дата-журналистике пройдет в два этапа: с 17 по 30 октября онлайн и со 17 по 20 ноября в Петербурге