Термины «Data Science» и «Machine Learning» часто используются как взаимозаменяемые, однако это не совсем верно. Несмотря на то, что эти направления прочно связаны между собой, а требуемые для их освоения навыки во многом пересекаются, у них разные цели и разные подходы к работе с данными.
Что такое Data Science
Любая организация ежедневно имеет дело с огромным объёмом данных, и в нашу цифровую эпоху значительную их часть можно фиксировать и использовать. Однако в сыром виде вся эта информация бесполезна. Прежде чем из неё можно будет извлечь какую-то пользу, её нужно систематизировать, очистить от нерелевантных компонентов, провести исследовательский анализ, после чего построить модели, которые способны находить в этом хаотичном нагромождении закономерности, на основании которых можно будет принимать осмысленные решения. Всем этим и занимается Data Science.
Что такое машинное обучение
Информация, которая могла бы быть полезна для принятия решений, была в обороте всегда. Возможность её фиксации и учёта — тоже не новшество. Однако человек (и даже большая группа людей) физически не в состоянии осмыслить и проанализировать огромные массивы данных, с которыми приходится иметь дело. Особенно актуальна такая задача для бизнеса, где часто требуется сделать в ограниченное время выводы, исходя из предоставляемых массивов данных.
Машинное обучение — это подраздел DS, отвечающий за создание и обучений моделей, которые могут выявлять в информации закономерности без участия человека, позволяя системе постепенно улучшать свою производительность и адаптироваться к новым условиям.
Возьмём самый простой пример — рекомендации в интернет-магазине. Когда вы совершаете покупку или просто просматриваете товары, вам начинают выпадать рекомендации того, что вам ещё могло бы понравиться. Без машинного обучения это было бы невозможно, потому что для этого пришлось бы в ручном режиме обрабатывать миллионы запросов, чтобы понять, какие покупатели склонны делать те или иные сопутствующие покупки. Однако без предварительного сбора и подготовки информации сам движок рекомендаций построить было бы невозможно.
Где пролегает граница
Таким образом, у этих двух направлений разные цели и задачи. Data Science извлекает из хаотичных данных полезные сведения и формирует на их основе инсайты для принятия решений. Она использует методы статистического анализа, исследует последовательности и визуализирует полученные результаты. Это более общая и абстрактная дисциплина или, скорее, даже междисциплинарная область знаний. Машинное обучение более конкретно и отвечает за конкретный набор задач и методов, создавая алгоритмы, способные делать предсказания на основании входящей информации.
Что это значит для людей, планирующих свою карьеру? Для роста в области машинного обучения требуется лучшее знание математики и понимание работы алгоритмов. Data Science очерчена менее резко — в ней лучше ориентироваться на требования к конкретной позиции в той или иной компании.