На главную Написать письмо Карта сайта

Новости

Олимпийские инвестиции ушли в безнадежный минус

23 ноября 2011 года

Частные инвесторы Олимпиады 2014 года в Сочи никогда не смогут окупить построенные ими объекты.

Мыслителей современности питают деньги

30 ноября 2010 года

Американское издание Foreign Policy опубликовало им же составленный рейтинг «мировых мыслителей». Первое место поделили Уоррен Баффет и Билл Гейтс.
На втором оказались так же две знаменитости - глава МВФ Доминик Стросс-Кан и руководитель Всемирного банка Роберт Зеллик.

Клубы Москвы 2010: открытия года

29 октября 2010 года

Сотрудники «ГдеЭтотДом.РУ» собрали даные о наиболее значительных клубных премьерах столицы России, прошедших в 2010 году. Для 10-миллионного мегаполиса список не велик, однако в него включены только те дебюты, которые показались экспертам рынка безусловно заслуживающими внимания.

Как открыть клуб – информация риэлторов

29 октября 2010 года

Игроки рынка сходятся во мнении, что одним из ключевых моментов в открытии нового ночного клуба является поиск подходящего места и помещения, которое должно отвечать определенным техническим требованиям.

Электроснабжение в Петербурге обещают восстановить к девяти вечера

20 августа 2010 года

По предварительной информации компании "Магистральные Электрические Сети Северо-Запада" (МЭС Северо-Запад) электрическое снабжение города будет восстановлено к девяти часам вечера 20 августа. Так же появляется информация об эвакуации пассажиров метро, чьи поезда застряли на перегоне между станциями "Лесная" и "Площадь Мужества".


Главная

Отбор факторов для анализа данных

11:04 | 26 мая 2009 года

 Версия для печати

На сайте компании «Аналитические технологии» (BaseGroup Labs) опубликована статья Алексея Сенина «Методы отбора переменных в регрессионные модели»:

 

«При всем существующем разнообразии методов Data Mining, практически все они сталкиваются с общей трудностью – вопросом отбора значимых для модели входных признаков (в зарубежной литературе такая проблема известна как feature selection).Сокращение числа независимых переменных призвано уменьшить размерность модели не только с тем, чтобы удалить из нее все незначащие признаки, не несущие в себе какой-то полезной для анализа информации, и тем самым упростить модель, но и чтобы устранить избыточные признаки. Дублирование информации в составе избыточного признака не просто не улучшает качество модели, но и порой, наоборот, ухудшает его (как, например, в случае с мультиколлинеарностью).

 

Очевидно, что одним из возможных выходов из сложившейся проблемы могло бы стать построение модели на всех возможных комбинациях наборов входных признаков с последующим отбором того варианта, который обладал бы наилучшей описательной способностью результирующего признака и при этом содержал бы минимум независимых переменных. Однако такое решение возможно лишь при наличии незначительного количества факторов-претендентов на включение в модель. В случае же достаточно большого списка потенциальных признаков подобная методика оказывается достаточно затруднительной, так как количество моделей, которые необходимо будет построить, оказывается крайне велико и в общем случае равно 2n – 1 штук (так называемое «проклятие» размерности). Ввиду этого необходимо иметь на вооружение какие-то иные алгоритмы отбора наиболее важных факторов, которые потребовали бы значительно меньших затрат усилий, а соответственно и времени.

 

Существует различные методики решения данной проблемы. В случае с регрессионной моделью достаточно хорошо себя зарекомендовали себя такие методы, как:

 

  • процедура Forward Selection (прямой отбор),
  • процедура Backward Elimination (обратное исключение),
  • процедура Stepwise,
  • процедура Best Subsets (лучшие подмножества).

 

Рассмотрим работу данных методов на примере множественной регрессии». (…)

 

полный текст статьи можно прочитать по ссылке

Оставьте комментарий

* Обязательно для заполнения

Вход для подписчиков

Регистрация

Голосование

как часто вы заказываете маркетинговые исследования специализированным компаниям?
Никогда
46%
Примерно раз в полгода
30%
В среднем раз в год
32%
Реже одного раза в год
2%
Чаще чем раз в полгода
2%
© 2008-2010 ООО "Деловая информация". Все права защищены.
Разработка сайта: WebComfort
Rambler's Top100