При появлении больших данных появилось множество терминов.
- Data science - наука о данных
- Big data - большие данные
- Data mining - "добывание" данных
- Data engineering - конструирование данных
- и термин, описывающий один из алгоритмов работы с данными Machine learning машинное обучение.
- мне самым точным определением больших данных кажется определение Кирилла Еременко в книге "Работа с данными в любой сфере":
Если Вы не в состоянии работать с данными стандартными методами, можно называть их большими данными
Как любая новая технология, ей приписываются большие возможности и перспективы. Но все используемые алгоритмы давно известны математикам, программистам, статистикам. Просто раньше люди не генерировали такого большого числа данных и отсутствовали технические возможности их применения.
Несмотря на все достоинства и возможности применения больших данных, хочется отметить их ограничения и риски использования.
Ограничения больших данных
Необходимы большие выборки данных. Прежде чем воспользоваться различными алгоритмами, необходимо накопить массив подобных ситуаций. Для интернет-магазина, например, нужно множество похожих покупок.
Непрозрачность решения. Алгоритм не выдает формулу, по которой происходит вычисление. А значит, ручная "доводка" и анализ невозможны
Решения базируются на прошлом. Резкое изменение внешних для системы условий невозможно предугадать. А система будет нуждаться в "переобучении" иногда только после накопления нового массива данных.
Риски использования больших данных
Кибербезопасность. Данные, в том числе содержащие персональную информацию, могут быть похищены.
Этичность. Теряется понятие частной жизни, ведь с широким распространением камер, смартфонов и безналичной оплаты в систему попадают практически все действия.
Закрытость порождает широкие возможности манипулирования. Так как решение непрозрачно, не исключена возможность взлома с последующей корректировкой алгоритма, который будет выдавать якобы основанное на данных решение. И этот взлом может быть никогда не вскрыт.
Ну и самое главное. Самое сложное при работе с данными это создание адекватной модели, иначе сработает простой жизненный принцип
Мусор на входе = мусор на выходе