Data Science: кто это и как им стать?
Содержание
Data Scientist называют одной из самых перспективных и высокооплачиваемых IT-профессий. Таких специалистов ищет все больше компаний. Среди них банки, сотовые операторы и продуктовые сети, однако количество вакансий все еще можно пересчитать по пальцам.
Если посмотреть на вакансии Data Scientist от различных компаний, можно увидеть достаточно большое разнообразие задач и требований. Иногда под Data Scientist позициями понимают даже обычных Data Analyst. Однако определенная срединная линия всё же прослеживается.
Data Science — это область исследования, изучающая проблемы анализа, обработки представления данных в цифровой форме. Объединяет методы по обработке данных в условиях больших объёмов и высокого уровня параллелизма, статистические методы, методы интеллектуального анализа данных и приложения искусственного интеллекта для работы с данными, а также методы проектирования и разработки баз данных. С начала 2010-х годов считается одной из самых привлекательных, высокооплачиваемых и перспективных профессий.
Специализированный сайт DOU (Developers.Org.Ua) сравнил зарплаты украинских айтишников и обнаружил, что Data Scientist — самая популярная IT-специальность у студентов. Также Data Scientist имеют самую высокую зарплату «на входе», то есть без опыта работы. Среди самых популярных запросов в Google со словами «Data Scientist» — «зарплата в Украине», «курсы в Киеве» и «дата сайнс в бизнесе». Заинтересованность на лицо.
Сегодня человечество генерирует гигантское количество электронных данных: посты в соцсетях и блогах, новости, фотографии, видео, данные геолокации телефонов, акселерометров умных часов и многое другое. Компании и организации используют базы, где складывается вся информация об их бизнесе и операционной деятельности, множественные документы. Этих данных уже давно слишком много, чтобы люди могли вручную их обрабатывать.
Уже в 2019-м журнал Harvard Business Review Гарвардской школы бизнеса подсчитал, что мировые компании тратят миллиарды на людей, которые извлекают полезные знания из большого объема данных и умеют делать прогнозы на их основании. По данным журнала Forbes, в Facebook более 1200 человек работают на позиции Data Scientist, в IBM — более 2500.
Именно с помощью науки о больших данных Facebook, Youtube, Netflix анализируют наши интересы и предлагают наиболее интересный контент, Siri понимает речь и поддерживают разговор, Amazon советует товары и удешевляет стоимость доставки товаров по всему миру, а банки рассчитывают риски при выдаче кредитов.
Data Scientist – профессия на грани IT, искусственного интеллекта и аналитики, и у работодателей зачастую разное представление о том, какую работу должен выполнять специалист. Компании могут подразумевать под Data Scientist аналитиков данных, которые есть на рынке уже пару десятилетий; программистов, применяющих машинное обучение; ученых и исследователей, которые создают и улучшают алгоритмы, применяемые потом другими специалистами.Data Scientist ищут «Водафон» и Приват, но зарплату не раскрывают
Судя по описаниям вакансий Data Scientist, украинские работодатели хотят, чтобы специалисты анализировали поведение клиентов и прогнозировали его. Data Scientist, помимо IT-компаний, этой осенью искали Vodafone, ПриватБанк, Альфа-Банк, ДТЕК, Аптека Низких Цен и Червоний маркет. Однако ни один работодатель не указал на сайтах по поиску работы, сколько готов платить редким специалистам.
В Vodafone Data Scientist называют аналитиками больших данных, очевидно, приравнивая к ним еще и Big Data Analyst. Должность появилась 2018 году, рассказали «КП» в Украине» в пресс-службе сотового оператора. Сейчас в компании 12 человек работают на позиции Data Scientist. Среди их задач — определение абонентов, склонных к оттоку, и их удержание, улучшение эффективности допродаж, оценка риска и борьба с мошенничеством.
Vodafone также предоставляет услугу по анализу больших данных другим компаниям. Бизнесу обещают описать портрет целевой аудитории, организовать таргетированную рекламу, принять решение, где лучше открыть новый магазин, найти потенциальных покупателей и удержать клиентов, а также оценить риск невозврата кредита.
DS-специалисты могут рассчитывать на рыночный уровень компенсации, — уклончиво ответил на вопрос о зарплате Сергей Курсон, эксперт по внешним отношениям компании.
В Украине зарплаты дата сайентистов пока не выбиваются по сравнению с другими айтишниками, чей заработок и так выше среднего в стране, говорит Александр Кондуфоров. Младшие IT-специалисты зарабатывают от 500 до 1000 долларов, опытные – от 2000. На западе Data Scientist может получать на 10% больше других айтишников из-за дефицита специалистов и выйти на заработок в 180 тысяч долларов в год. Это почти 4,5 миллионов гривен в год и более 370 тысяч в месяц.
В «ПриватБанке» более двадцати Data Scientists, рассказали «КП» в Украине». Специалисты могут рассчитывать на рыночную оплату труда – от 1500 долларов.
Это, безусловно, хороший показатель. Если провести сравнение среди IT-специалистов банка, то Data Science-специалисты зарабатывают на уровне Java DEV (создает корпоративные системы для обработки данных, — авт.), database DEV (разработчик баз данных), DevOps (занимается продвижением ПО), — говорит руководитель направления трудовых ресурсов (HR) ПриватБанка Ольга Хлынина.
В банке уверяют, что сейчас у них работают более 20 «специалистов Data Science». Среди их задач – анализ оттока клиентов и прогноз рисков при выдаче кредитов.
Банк долгое время занимался построением скор-карт (набор характеристик потенциального заемщика, — Авт.) вручную, далее был период построения скоринговых моделей с помощью SAS (программное обеспечение, — Авт.). Сейчас банк разрабатывает модели с использованием Python, R (языки программирования, — Авт.), — рассказала Ольга Хлынина.
Примеры Vodafone и Привата — скорее исключения, и подавляющее большинство украинских дата-сайентистов работают на западных клиентов — США, страны Западной Европы, Японию, Австралию. У AltexSoft в Соединенных Штатах два отдела продаж, а разработчики живут в Харькове, Кременчуге и Львове. Среди Data Science-кейсов украинской компании — работа с клиентом из области медицины и сайтом по продаже авиабилетов.
Мы сделали мобильное приложение с алгоритмом определения различных расстройств сна и вычисления цикла сна на основании звука, записываемого телефоном. Для другого клиента, вебсайт которого занимается поиском и продажей авиабилетов онлайн, мы делали предсказание цен на авиабилеты и персональную рекомендацию наиболее релевантных рейсов покупателям, основываясь на их предпочтениях. Еще для одного клиента из автостраховой индустрии мы обучили предсказательный алгоритм, оценивающий стоимость страховки без участия человека с достаточно высокой точностью, — рассказывает Александр Кондуфоров.
Он поясняет пользу Data Science на примере приложения для сна. Следить за нарушениями можно и в лаборатории, но это неудобно и дорого. С помощью новых технологий телефон может записывать нарушения сна, например, храп, а приложение — анализировать, когда именно и как часто они происходят.
Мы начали решение задачи с анализа данных и их разметки. Под разметкой в данном случае понимается прослушивание реальных звуковых записей, определение нужных звуков “на слух” и фиксацию временных отметок, в которые данные звуки происходят. Дальше мы сделали предобработку данных и начали экспериментировать с архитектурой нейросети для детекции звуков. После довольно большого количества экспериментов мы подобрали сеть, которая давала наилучшую точность. Следующим шагом стало внедрение кода алгоритма и сети в мобильное приложение. Параллельно команда мобильных разработчиков создала само приложение под две основных платформы — iOS и Android, дизайнеры спроектировали его интерфейс, а инженеры по качеству его протестировали. В результате получилось мобильное приложение, которым сейчас пользуется несколько сотен тысяч человек по всему миру.
Стоит ли идти на курсы?
Увы, но на курсах расскажут то, что вы можете изучить в интернете самостоятельно. Желающим стать Data Scientist наш эксперт советует идти в сильный технический вуз на специальность, связанную с прикладной математикой или искусственным интеллектом. Желающим переквалифицироваться техническим специалистам и айтишникам стоит пройти онлайн-курсы зарубежных университетов — Стэнфорда, MIT или других мировых топ-вузов. А вот с различными курсами в Украине нужно быть осторожным – спрос на IT-образование большой, а действительно хороших преподавателей мало.
На рынке очень много школ, где, в лучшем случае, перескажут без понимания всё то, что вы можете изучить в интернете самостоятельно. Учиться стоит идти лишь к тем преподавателям, которые сами занимаются Data Science на практике уже много лет, а не просто преподают его в вузе, — говорит Александр Кондуфоров.
Сам он учился в Харьковском национальном университете радиоэлектроники, работал программистом, а Data Science начал изучать в начале 2010-х, когда во всем мире начался бурный рост интереса к искусственному интеллекту и появились онлайн-курсы. Последние шесть лет AltexSoft проводит самую крупную DataScience конференцию в Украине — AI Ukraine, куда приезжают слушатели и докладчики из стран Европы, США и Канады.
Позиция вакансии Data Scientist
Стандартные задачи:
- Выделять, агрегировать и синтезировать данные из различных структурированных и неструктурированных источников
- Исследовать, разрабатывать и применять интеллектуальное обучение на данных, полученных из реального мира, обеспечивать важные выводы и успешные действия, основываясь на них
- Анализировать и предоставлять данные, собранные в организации
- Проектировать и строить новые процессы для моделирования, интеллектуального анализа данных и внедрения
- Разрабатывать прототипы, алгоритмы, прогнозирующие модели, прототипы
- Выполнять запросы на анализ данных и доносить их выводы и решения
Кроме того, есть и более специфические задачи, зависящие от домена, в котором работает работодатель или выполняется проект.
Для выполнения требуются знания и навыки:
- Дискретная математика, статистика и статистический анализ
- Machine Learning алгоритмы
- Умение работать с хранилища данных (реляционными и нереляционными), владение SQL и другими языками запросов
- Инструменты для анализа данных и моделирования:
- R
- Python (NumPy/SciPy)
- Matlab
- SPSS/SAS
- В случае обработки больших объемов данных (Big Data) часто добавляются:
- Hadoop и весь спектр сопутствующих технологий и инструментов: Pig, Hive и т.д.
- Java
- Визуализация данных
- Понимание предметной области (крайне важно!)
- Высокий уровень коммуникации
На тему экспертизы, требуемой Data Scientist для работы, есть хорошая картинка:
Самое интересное, что Data Scientist не обязан уметь хорошо программировать, а может ограничиться инструментами вроде Matlab, SPSS, SAS и др. Возможно, поэтому на эту позицию часто претендуют не столько разработчики, сколько бизнес аналитики (Business Analyst), аналитики данных (Data Analyst) и другие специалисты по анализу.
Из-за небольшого присутствия в специальности программистов чисто технические навыки, такие как умение программировать, работать с Big Data и базами данных, очень ценятся. По оценке Payscale.com знание Python, Java и Hadoop могут добавить к средней зарплате от 5% до 14%.
Таким образом, позиция Data Scientist может быть интересна не только программистам, но и специалистам в прикладной математике и статистике, Machine Learning, Business Intelligence, а также аналитикам данных.
Преимущества и перспективы
А теперь я постараюсь объяснить, кому именно и почему это может быть нужно.
Во-первых, создание приложений, которые выходят за рамки обычного прикладного программирования, безумно интересно. Это работа, которая напрягает ваши извилины до предела, заставляя делать десятки, а иногда и сотни экспериментов, читать научные статьи, искать решение, чтобы добиться поставленной цели. И надо сказать, не всегда результат оказывается удовлетворительным, а задача — решаемой на данном этапе развития алгоритмов.
Сергей Шельпук, руководитель направления Data Science в V.I.Tech:
«Обычно наша, программистов, работа заключается в написании бизнес-логики „if — then — else“. Она позволяет программам работать намного быстрее, чем могли бы мы сами — компьютер не в пример продуктивнее человека в вычислениях. Но таким способом мы не можем создать программу, которая была бы умнее, чем тот, кто ее написал.Но в Data Science мы создаем системы, которые умнее нас. Мы учим их учиться и, анализируя данные, принимать решения самостоятельно. Это как шашки Артура Сэмьюэла — его программа научилась играть лучше, чем он сам. Создание систем, которые умнее своего создателя, — этот элемент „магии“ привлекает меня в Data Science больше всего :)»
Виталий Юрьев, Data Scientist в Eleks:
«Data Science я почав займатися близько 2 років тому. Перше моє знайомство почалося з Computer Vision, коли прийшло завдання від клієнта розробити систему по знаходженню і розпізнаванню пляшок різних брендів. Для виконання цього завдання мені знадобилися знання з університету по матаналізу, статистіці, теорії ймовірності і лінійної алгебри. Після розробки прототипу я зрозумів, що Machine Learning — це те, чим я хочу займатися. За ці два роки я успішно пройшов декілька онлайн-курсів на Coursera, Udacity та інших MOOC.Data Science для мене — це не buzzword, а надзвийчайно складний і наукоємний процес, результатом якого є створення грандіозних рішень, які роблять наше життя простішим.»
Во-вторых, Machine Learning позволяет компаниям и стартапам строить интеллектуальные продукты и сервисы, которые дают пользователям возможности совершенно нового уровня и решают проблемы, которые не могут быть решены обычным программированием.
Даже обычный, не-айтишный бизнес обратил пристальное внимание на Data Science и Big Data в последние годы. Крупные компании и окружающая их среда генерируют огромное количество данных, используя которые, можно получить серьезные преимущества перед конкурентами. Всё это привело к тому, что спрос на аналитиков и различных специалистов по обработке данных и машинному обучению в развитых странах вырос в разы и намного превышает предложение на рынке труда.