Большие данные — это область, в которой рассматриваются способы анализа, систематического извлечения информации или иной обработки наборов данных, которые слишком велики или сложны для обработки с помощью традиционного прикладного программного обеспечения для обработки данных. Данные с большим количеством полей (столбцов) обладают большей статистической силой, тогда как данные с более высокой сложностью (большее количество атрибутов или столбцов) могут привести к более высокому уровню ложных обнаружений. Проблемы анализа больших данных включают в себя сбор данных, хранение данных, анализ данных, поиск, совместное использование, передачу, визуализацию, запросы, обновление, конфиденциальность информации и источник данных. Первоначально большие данные ассоциировались с тремя ключевыми понятиями: объем, разнообразие и скорость. Анализ больших данных создает проблемы с выборкой, и поэтому ранее допускал только наблюдения и выборку. Таким образом, большие данные часто включают в себя данные, размеры которых превышают возможности традиционного программного обеспечения для обработки в течение приемлемого времени и стоимости.