11:04 26 мая 2009 года
На сайте компании «Аналитические технологии» (BaseGroup Labs) опубликована статья Алексея Сенина «Методы отбора переменных в регрессионные модели»:
«При всем существующем разнообразии методов Data Mining, практически все они сталкиваются с общей трудностью – вопросом отбора значимых для модели входных признаков (в зарубежной литературе такая проблема известна как feature selection).Сокращение числа независимых переменных призвано уменьшить размерность модели не только с тем, чтобы удалить из нее все незначащие признаки, не несущие в себе какой-то полезной для анализа информации, и тем самым упростить модель, но и чтобы устранить избыточные признаки. Дублирование информации в составе избыточного признака не просто не улучшает качество модели, но и порой, наоборот, ухудшает его (как, например, в случае с мультиколлинеарностью).
Очевидно, что одним из возможных выходов из сложившейся проблемы могло бы стать построение модели на всех возможных комбинациях наборов входных признаков с последующим отбором того варианта, который обладал бы наилучшей описательной способностью результирующего признака и при этом содержал бы минимум независимых переменных. Однако такое решение возможно лишь при наличии незначительного количества факторов-претендентов на включение в модель. В случае же достаточно большого списка потенциальных признаков подобная методика оказывается достаточно затруднительной, так как количество моделей, которые необходимо будет построить, оказывается крайне велико и в общем случае равно 2n – 1 штук (так называемое «проклятие» размерности). Ввиду этого необходимо иметь на вооружение какие-то иные алгоритмы отбора наиболее важных факторов, которые потребовали бы значительно меньших затрат усилий, а соответственно и времени.
Существует различные методики решения данной проблемы. В случае с регрессионной моделью достаточно хорошо себя зарекомендовали себя такие методы, как:
Рассмотрим работу данных методов на примере множественной регрессии». (…)
полный текст статьи можно прочитать по ссылке