четверг, 26 января 2017 г.

Проблемы Big Data, порожденные проблемами Data Mining

Проблемы Big Data (больших данных), порожденные проблемами Data Mining (интеллектуального анализа данных).

Процедуры интеллектуального анализа данных порождают ряд статистических задач, сопровождающихся, в свою очередь, рядом проблем, связанных с получением корректных результатов решения этих задач:
  1. Размер данных зачастую превышает машинные возможности.
  2. Данными трудно управлять, так как они могут быть записаны в отношениях реляционных баз данных и могут храниться распределенно, не обязательно находится в оперативном доступе (что характерно для архивных данных, выгруженных на отдельные носители).
  3. Зачастую при построении шаблонов, особенно на очень больших выборках, действительно находят шаблоны, характеризующиеся достаточными или высокими показателями достоверности, хотя на самом деле таковые шаблоны являются лишь случайными флуктуациями. Чтобы убедиться в подобных явлениях, достаточно сгенерировать большую выборку случайных чисел и запустить соответствующих алгоритм.
  4. В учебниках по статистике, как правило, в качестве примеров применяются малые выборки для демонстрации методов проверки гипотез. На малых выборках показатель p-value справляется с отбраковкой незначимых факторов и гипотез. Но на больших или гигантских выборках показатель p-value реагирует даже на тончайшие эффекты, которые друг становятся значительными. Такая значимость не позволяет отклонить нулевую гипотезу в методах, основанных на отношениях правдоподобия проверки гипотез и тем самым, полезность подобных методов становится сомнительной. Выход из этой ситуации - использование байесовских методов, которые являются более консервативными в отклонении нулевой гипотезы.
  5. В Data Mining зачастую выборки строятся на соображения "удобства", а не вероятностных соображениях, требующих вероятного представления исходов и генерализованных выборок. В силу соображений "удобства", проистекающего их характера сбора и представления данных, выборки уже содержат в себе предубеждения исследователя и могут служить источником фальсифицированных выводов, отражающих пристрастия исследователя в оценке параметров выборок (популяций).
  6. В силу природы статистических выводов, результаты вывода могут быть строго ассоциативные, но не причинные. Например, высокая корреляция не свидетельствует о причинной связи, но этот факт может игнорироваться при представлении результатов.
  7. Высокая размерность (по осям куба с учетом атрибутов признаков) куба данных вызывает ряд проблем моделирования, в частности:
    1. Проблемы, связанные с "проклятием размерности" NP-полных задач.
    2. Число переменных х превышает число реализаций N. Этот случай противоположен тому, что наблюдается в статистике, где обычно N значительно больше размерности вектора факторов х. Для решения таких задач можно применять методы сингулярного разложения матриц.
    3. Большое число факторов требует выявления совместно зависимых переменных. При этом, возможно не только парная, но и групповая зависимости, а также не только линейная, но и нелинейная зависимость.
    4. Трудно оценить многомерные распределения, размерность которых может достигать сотен переменных.
    5. Трудно манипулировать корреляционными матрицами большого числа измерений, еще труднее понять, что выражают эти матрицы, которыми приходится манипулировать в статистических моделях.
  8. Трудность анализа многомерных таблиц. В виду многомерности таблиц исследователю в некоторых случаях приходится анализировать эти таблицы в ручную и выполнять следующие функции:
    1. Сворачивать некоторые размерности, чтобы получить таблицу меньшей размерности, с тем чтобы понять суть проблемы или являения.
    2. Руководствоваться некоторыми априорными соображениями, предшествующие анализу, с тем чтобы провести анализ матрицы сопряженности, или с тем, чтобы восполнить недостающие данные для получения хотя бы каких то выводов.
    3. Полагаться на некоторые предубеждения и агрегировать некоторые измерения для получения поддающих анализу и управлению матриц.

Комментариев нет:

Отправить комментарий