При появлении больших данных появилось множество терминов. 

  • Data science - наука о данных
  • Big data - большие данные
  • Data mining - "добывание" данных
  • Data engineering - конструирование данных
  • и термин, описывающий один из алгоритмов работы с данными  Machine learning машинное обучение.
  • мне самым точным определением больших данных кажется определение Кирилла Еременко в книге "Работа с данными в любой сфере":

Если Вы не в состоянии работать с данными стандартными методами, можно называть их большими данными

Как любая новая технология, ей приписываются большие возможности и перспективы. Но все используемые алгоритмы давно известны математикам, программистам, статистикам. Просто раньше люди не генерировали такого большого числа данных и отсутствовали технические возможности их применения.

Несмотря на все достоинства и возможности применения больших данных, хочется отметить их ограничения и риски использования.

Ограничения больших данных

Необходимы большие выборки данных. Прежде чем воспользоваться различными алгоритмами, необходимо накопить массив подобных ситуаций. Для интернет-магазина, например, нужно множество похожих покупок.

Непрозрачность решения. Алгоритм не выдает формулу, по которой происходит вычисление. А значит, ручная "доводка" и анализ невозможны

Решения базируются на прошлом. Резкое изменение внешних для системы условий невозможно предугадать. А система будет нуждаться в "переобучении" иногда только после накопления нового массива данных.

Риски использования больших данных

Кибербезопасность. Данные, в том числе содержащие персональную информацию, могут быть похищены. 

Этичность. Теряется понятие частной жизни, ведь с широким распространением камер, смартфонов и безналичной оплаты в систему попадают практически все действия.

Закрытость порождает широкие возможности манипулирования. Так как решение непрозрачно, не исключена возможность взлома с последующей корректировкой алгоритма, который будет выдавать якобы основанное на данных решение. И этот взлом может быть никогда не вскрыт.

Ну и самое главное. Самое сложное при работе с данными это создание адекватной модели, иначе сработает простой жизненный принцип 

Мусор на входе = мусор на выходе