Проблемы Big Data (больших данных), порожденные проблемами Data Mining (интеллектуального анализа данных).
Процедуры интеллектуального анализа данных порождают ряд статистических задач, сопровождающихся, в свою очередь, рядом проблем, связанных с получением корректных результатов решения этих задач:
Процедуры интеллектуального анализа данных порождают ряд статистических задач, сопровождающихся, в свою очередь, рядом проблем, связанных с получением корректных результатов решения этих задач:
- Размер данных зачастую превышает машинные возможности.
- Данными трудно управлять, так как они могут быть записаны в отношениях реляционных баз данных и могут храниться распределенно, не обязательно находится в оперативном доступе (что характерно для архивных данных, выгруженных на отдельные носители).
- Зачастую при построении шаблонов, особенно на очень больших выборках, действительно находят шаблоны, характеризующиеся достаточными или высокими показателями достоверности, хотя на самом деле таковые шаблоны являются лишь случайными флуктуациями. Чтобы убедиться в подобных явлениях, достаточно сгенерировать большую выборку случайных чисел и запустить соответствующих алгоритм.
- В учебниках по статистике, как правило, в качестве примеров применяются малые выборки для демонстрации методов проверки гипотез. На малых выборках показатель p-value справляется с отбраковкой незначимых факторов и гипотез. Но на больших или гигантских выборках показатель p-value реагирует даже на тончайшие эффекты, которые друг становятся значительными. Такая значимость не позволяет отклонить нулевую гипотезу в методах, основанных на отношениях правдоподобия проверки гипотез и тем самым, полезность подобных методов становится сомнительной. Выход из этой ситуации - использование байесовских методов, которые являются более консервативными в отклонении нулевой гипотезы.
- В Data Mining зачастую выборки строятся на соображения "удобства", а не вероятностных соображениях, требующих вероятного представления исходов и генерализованных выборок. В силу соображений "удобства", проистекающего их характера сбора и представления данных, выборки уже содержат в себе предубеждения исследователя и могут служить источником фальсифицированных выводов, отражающих пристрастия исследователя в оценке параметров выборок (популяций).
- В силу природы статистических выводов, результаты вывода могут быть строго ассоциативные, но не причинные. Например, высокая корреляция не свидетельствует о причинной связи, но этот факт может игнорироваться при представлении результатов.
- Высокая размерность (по осям куба с учетом атрибутов признаков) куба данных вызывает ряд проблем моделирования, в частности:
- Проблемы, связанные с "проклятием размерности" NP-полных задач.
- Число переменных х превышает число реализаций N. Этот случай противоположен тому, что наблюдается в статистике, где обычно N значительно больше размерности вектора факторов х. Для решения таких задач можно применять методы сингулярного разложения матриц.
- Большое число факторов требует выявления совместно зависимых переменных. При этом, возможно не только парная, но и групповая зависимости, а также не только линейная, но и нелинейная зависимость.
- Трудно оценить многомерные распределения, размерность которых может достигать сотен переменных.
- Трудно манипулировать корреляционными матрицами большого числа измерений, еще труднее понять, что выражают эти матрицы, которыми приходится манипулировать в статистических моделях.
- Трудность анализа многомерных таблиц. В виду многомерности таблиц исследователю в некоторых случаях приходится анализировать эти таблицы в ручную и выполнять следующие функции:
- Сворачивать некоторые размерности, чтобы получить таблицу меньшей размерности, с тем чтобы понять суть проблемы или являения.
- Руководствоваться некоторыми априорными соображениями, предшествующие анализу, с тем чтобы провести анализ матрицы сопряженности, или с тем, чтобы восполнить недостающие данные для получения хотя бы каких то выводов.
- Полагаться на некоторые предубеждения и агрегировать некоторые измерения для получения поддающих анализу и управлению матриц.
Комментариев нет:
Отправить комментарий