Главная / Образцы дипломных работ
Множественная линейная регрессия и метод наименьших квадратов

Внимание: Акция! Курсовая работа, Реферат или Отчет по практике за 10 рублей!
Только в текущем месяце у Вас есть шанс получить курсовую работу, реферат или отчет по практике за 10 рублей по вашим требованиям и методичке!
Все, что необходимо - это закрепить заявку (внести аванс) за консультацию по написанию предстоящей дипломной работе, ВКР или магистерской диссертации.
Нет ничего страшного, если дипломная работа, магистерская диссертация или диплом ВКР будет защищаться не в этом году.
Вы можете оформить заявку в рамках акции уже сегодня и как только получите задание на дипломную работу, сообщить нам об этом. Оплаченная сумма будет заморожена на необходимый вам период.
В бланке заказа в поле "Дополнительная информация" следует указать "Курсовая, реферат или отчет за 10 рублей"
Не упустите шанс сэкономить несколько тысяч рублей!
Подробности у специалистов нашей компании.
Код работы:	W003151
Тема:	Множественная линейная регрессия и метод наименьших квадратов
Содержание
    


СОДЕРЖАНИЕ
                                                                                                                                     Стр.
Введение	5
1 ОБЩАЯ ХАРАКТЕРИСТИКА ПРЕДПРИЯТИЯ ОАО ММК	8
1.1 Показатели деятельности	9
1.2 Основная цель и стратегии развития ОАО ММК	10
1.3 Характеристика центра математического моделирования и системно-аналитических исследований	13
2 МАТЕМАТИЧЕСКИЙ ИНСТРУМЕНТАРИЙ ДЛЯ АНАЛИЗА	16
2.1 Основы корреляционного анализа	16
2.2 Множественная линейная регрессия и метод наименьших квадратов	19
2.3 Проверка значимости уравнения регрессии и коэффициентов уравнения регрессии	22
2.4 Множественный нелинейный регрессионный анализ	25
2.5 Нейронные сети	30
3 ПРИМЕНЕНИЕ ЭКОНОМИКО-СТАТИСТИЧЕСКОГО МОДЕЛИРОВАНИЯ ДЛЯ ОЦЕНКИ СТОИМОСТИ КВАРТИР НА ВТОРИЧНОМ РЫНКЕ ЖИЛЬЯ	41
3.1 Получение и обработка исходных данных	41
3.2 Построение регрессионной модели оценки стоимости жилья	42
3.3 Построение нейросетевой модели оценки стоимости жилья	52
3.4 Тестирование моделей	55
3.6 Сравнение моделей	59
3.7 Пример использования построенных моделей	60
ЗАКЛЮЧЕНИЕ	62
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ	64
ПРИЛОЖЕНИЕ А	66
    
    ВВЕДЕНИЕ
   
     В современном обществе в связи с развитием экономических систем и отношений становятся востребованными исследования, которые позволяют изучать данные системы, выявлять и описывать основные течения, происходящие в них и тенденции их развития.
     Одной из экономических систем, которая на сегодняшний день занимает важное место в жизни человека, является рынок жилой недвижимости. В России за последние несколько лет данный рынок получил бурное развитие, что связано, во-первых, с развитием ипотечного кредитования в стране, а во-вторых - стремительным ростом ликвидности на рынках ввиду значительного притока «нефтедолларов» в страну и поиска объектов инвестирования. В рамках последней тенденции рост цен на жилую недвижимость сделал ее очень привлекательным объектом инвестирования с целью получения коммерческой выгоды при перепродаже: квартиры стали приобретаться не для проживания, а для вложения денежных средств и получения дохода. Перечисленные факторы повысили спрос со стороны субъектов экономики на жилье и, как следствие, вызвали стремительный рост активности на данном рынке.
     В настоящее время все чаще возникает необходимость определения стоимости объектов недвижимости при купле и продаже имущества, получении кредита под залог имущества, определении базы налогообложения, страховании имущества, выделении доли участков предприятий, реорганизации, ликвидации, а также использовании прав наследования и судебного приговора. Сегодня рынок недвижимости начинает обретать цивилизованные формы, начинает формироваться его необходимая инфраструктура. Поэтому, все большее значение приобретает правильное определение цены конкретного объекта недвижимости.
     Оценка недвижимости - операция по определению стоимости объекта - является одной из важнейших функций маркетинга и системы управления недвижимостью в целом. Чем ближе фактическое значение стоимости объекта к истинному, тем меньше вероятность ошибки при принятии решения в области управления недвижимостью.
     Таким образом, возникла необходимость в изучении и исследовании данного рынка. Существующие методы исследования являются либо упрощенными и недостаточно точными (аналитические), либо трудоемкими и сложными (экспертные в рамках индивидуальной оценки недвижимости). Также применение данных методов зачастую сопряжено с экспертным мнением специалиста, что может привести к высокой доле субъективизма в полученных результатах.
     Таким образом, актуальным и востребованным становится проведение исследований рынка жилья на основе большого количества фактических данных с помощью экономико-статистического моделирования. В основе данного метода лежат факторные регрессионные и нейросетевые модели, позволяющие оценить влияние на исследуемый объект различных ценообразующих факторов. 
     Полученные результаты можно использовать в прикладном направлении - для оценки жилой недвижимости.               
     Учитывая прикладной характер, востребованность моделирования особенно подчеркивается возможным изменением порядка начисления налогообложения на имущество. В частности, на текущий момент, при расчете налога на имущество в отношении жилой недвижимости, в качестве налогооблагаемой базы используется, как правило, инвентаризационная стоимость, которая обычно значительно ниже текущей рыночной стоимости (в несколько раз). Планируемый в ближайшие годы переход на расчет налогооблагаемой базы исходя из рыночной стоимости объекта вызовет необходимость массовой переоценки стоимости жилья по всей стране, и очевидно, что традиционные методы оценки являются затратными и не способны справиться такими объемами работы.
     В том случае, если бы нас интересовала динамика цен на недвижимость, было необходимо включить в рассмотрение состояние экономики, финансового рынка, ожидания. Однако нас интересуют относительные цены в один момент времени, что позволяет использовать гедонистический подход. Концепция гедонистических цен предполагает, что цена квартиры зависит от ее характеристик, таких как размер и расположение.
     Цель данной работы является подбор наилучшей адекватной модели для моделирования стоимости квартир на вторичном рынке жилья города Магнитогорска. Для достижения поставленной цели были сформулированы и решены следующие задачи:
     cбор исходных данных и формирование баз для построения моделей;
     построение регрессионной модели;
     построение нейросетевой модели;
     тестирование моделей и отбор наилучшей.
     Для решения этих задач были использованы экономико-статистические методы, реализованные с помощью программ Deductor Studio Academic 5.3, STATISTICA 10.0, Microsoft Excel.
    

    
    
1 ОБЩАЯ ХАРАКТЕРИСТИКА ПРЕДПРИЯТИЯ ОАО ММК
    
     Открытое акционерное общество «Магнитогорский металлургический комбинат» является крупнейшим предприятием чёрной металлургии России, его доля в объёме металлопродукции, реализуемой на внутреннем рынке страны, составляет около 20 %. Предприятие представляет собой крупный металлургический комплекс с полным производственным циклом, начиная с подготовки железорудного сырья и заканчивая глубокой переработкой черных металлов. ММК производит самый широкий на сегодняшний день сортамент металлопродукции среди предприятий Российской Федерации и стран СНГ. Около 40 % продукции ОАО «ММК» экспортируется в различные страны мира. 
     Магнитогорский меткомбинат - крупный металлургический комплекс с полным производственным циклом, начиная с подготовки железорудного сырья и заканчивая глубокой переработкой черных металлов. ММК имеет максимальную среди российских компаний долю производства продукции с высокой добавленной стоимостью. Полностью обеспеченный собственной электроэнергией, комбинат - единственное в России крупное предприятие черной металлургии, не имеющее собственной сырьевой базы.
     Компания практически полностью отказалась от продаж слябов, и постоянно наращивает объемы производства продукции высоких переделов (оцинкованная сталь, сталь с полимерным покрытием, жесть). Также ММК - крупнейший российский производитель листового проката. ММК производит самый широкий сортамент металлопродукции среди предприятий РФ и стран СНГ. Около половины продукции ОАО «ММК» экспортируется в различные страны мира. Более четверти продукции до последнего времени экспортировалось в страны Азии и Ближнего востока, где в последнее время активно наращивают присутствие китайские производители. Сейчас ММК уходит со своего традиционного Азиатского рынка сбыта на рынки Турции, Индии, Марокко, Ирана, и Греции. Комбинат представляет собой металлургический комплекс с полным производственным циклом, начиная с подготовки железорудного сырья и заканчивая глубокой переработкой черных металлов. Общая площадь комбината составляет 11834,9 га.
     Сырьевая база обеспечивается рудником в городе Бакале, а также (в перспективе) разработкой Приоскольского железорудного месторождения. По сравнению с основными российскими конкурентами («Евраз», «Северсталь», НЛМК, «Мечел»), ММК слабо обеспечен основным сырьём собственного производства: железорудное сырьё покупается в основном в Казахстане (ССГПО), коксующиеся угли — в том числе у группы «Мечел». С целью развития собственной сырьевой базы, в 2006 году за 630 млн рублей была приобретена лицензия на разработку Приоскольского месторождения (Белгородская область). Планы по строительству горно-обогатительного комбината и освоению месторождения (проект общей стоимостью более 3 млрд долларов) были перенесены на неопределенное время в конце 2008 года из-за нехватки финансовых ресурсов в результате падения спроса и цен на сталь.

     1.1 Показатели деятельности
    
     Как следует из годовой отчетности компании за 2015 год, численность сотрудников ОАО «ММК» на тот момент составляла 18,6 тыс. человек.
     Выручка компании за 2016 год по МСФО составила $5,630 млрд ($5,839 млрд в 2015 году), EBITDA — $1,956 млрд, чистая прибыль — $1,111 млрд.
     Производство стали за 2016 год составило 12,544 млн т (за 2015 год — 12,236 млн т), товарной металлопродукции — 11,325 млн т.
     По итогам 12 мес. 2016 г. отгрузки в экспортном направлении выросли на 19,4% к аналогичному периоду прошлого года, а доля таких продаж в общем объеме реализации составила 27,3%.
     Общая отгрузка товарной продукции в Группе ММК (за вычетом внутренних оборотов) за 12 мес. 2016 г. составила 11 570 тыс. тонн (+3,4% к уровню 12 мес. 2015 г.).

     1.2 Основная цель и стратегия развития ОАО ММК
    
     Основная стратегическая цель ОАО «ММК»: Сохранение долговременной конкурентоспособности на мировом рынке металлопроката. Основная стратегическая цель выполняется за счет достижения следующих стратегических целей: 
 Улучшение качества металлопродукции и освоение новых видов продукции для удовлетворения текущих и будущих запросов и ожиданий потребителей; 
 Сохранение и расширение рынков сбыта и снабжения; 
 Стимулирование всех работников на достижение целей на основе профессионального развития, вовлечения в процесс управления качеством, удовлетворенности результатами труда и социальных гарантий. 
 Обеспечение гарантий эффективности, надежности и ликвидности для инвесторов; 
 Завоевание лидирующих позиций в области разработки и внедрения новых технологий; 
 Повышение эффективности производства; 
 Сокращение вредных воздействий на окружающую среду.
     Миссия ОАО «ММК»: «Производство и сбыт высококачественной металлопродукции, удовлетворяющей потребностям наших клиентов, для получения прибыли в объеме достаточном для развития предприятия до уровня лидирующей мировой компании и проведения разумной социальной политики». Следование миссии ОАО «ММК» возможно только при наличии долгосрочной возможности производить и продавать металлопродукцию. Поэтому основной целью ОАО ММК является сохранение долговременной конкурентоспособности на мировом рынке металлопроката. 
Основная стратегическая цель выполняется за счет: 
 Завоевание лидирующих позиций в области разработки и внедрения новых технологий; 
 Улучшение качества металлопродукции и освоение новых видов продукции для удовлетворения текущих и будущих запросов и ожиданий потребителей; 
 Сохранение и расширение рынков сбыта и снабжения; 
 Повышение эффективности производства; 
 Сокращение вредных воздействий на окружающую среду; 
 Вовлечение всех работников в процесс управления качеством; 
 Стимулирование всех работников на достижение целей; 
 Обеспечение социальной защищенности работников ОАО «ММК». 
     Разработанная ОАО «ММК» стратегия для достижения поставленных целей реализуется в следующих направлениях деятельности: 
 Постоянное всестороннее развитие компании, предусматривающее замену устаревших технологий и оборудования, использование с максимальной загрузкой существующих и вновь вводимых современных высокотехнологичных, безопасных для окружающей среды производственных мощностей; 
 Достижение более высокой эффективности при производстве чугуна, стали, проката, продукции высоких переделов; 
 Усиление положения на рынке благодаря повышению качества продукции, проведению маркетинговых исследований и выработке рыночной стратегии; 
 Сохранение в долгосрочной перспективе универсальности сортамента (лист и сорт), с преимущественной ориентацией компании на производство листового проката с высокой добавленной стоимостью; 
 Создание всесторонних гарантий для надежного функционирования ОАО «ММК»; 
 Увеличение производства высококачественного холоднокатаного листа, листа с покрытиями, продукции высоких (IV и V) переделов; 
 Внедрение энергосберегающих технологий и расширение собственной энергетической базы; 
 Внедрение системы экологического менеджмента в соответствии с международным стандартом ISO 14001-96; 
 Улучшение социального климата благодаря увеличению уровня заработной платы и наличия эффективного пакета социальных программ и гарантий; 
 Создание интегрированной финансово-промышленной структуры с участием ОАО «ММК»; 
 Приобретение предприятий, перерабатывающих в значительных объемах продукцию ОАО «ММК» или поставляющих на ОАО «ММК» сырье и материалы; 
 Повышение управляемости предприятием и информационной открытости для инвесторов и акционеров. 
     Инвестиционная программа Магнитогорского металлургического комбината рассчитана на семь лет начиная с 2007 года и предусматривает инвестиции в объеме более $5 млрд. Среди основных направлений развития: 
 строительство прокатного стана-5000 (завершение ожидается к 2009 году, стоимость проекта — около $1,5 млрд); 
 строительство новых агрегатов горячего оцинкования и полимерных покрытий; 
 строительство конвектора мощностью 2 млн т, новой коксовой батареи; 
 строительство нового универсального стана холодной прокатки для производства высококачественного автолиста (мощностью около 2 млн т листа в год) и подката для проката с покрытиями (ввод в эксплуатацию ориентировочно к 2010 году, стоимость проекта — около $1 млрд);
 строительство в Петербурге (в Колпино) завода по производству штампованных деталей мощностью около 300 000 т штампованных деталей в год (ориентировочная стоимость — около $100 млн) 
     Центральным звеном стратегии является реконструкция производственных мощностей. В соответствии с инвестиционной программой, разработанной до 2013 года, объем вложений в модернизацию производства составляет более 1 млрд. долларов США. 
    
     1.3 Характеристика центра математического моделирования и системно-аналитических исследований
    
     Центр математического моделирования и системно-аналитических исследований (ЦСАИ) создан 01.07.2015 г. 
     Цель создания ЦСАИ – определение перспективных направлений и областей повышения эффективности деятельности ОАО «ММК», формирование и развитие современных средств и методов прогнозирования, анализа и оптимизационного моделирования технологических процессов и производств. 
    Задачи ЦСАИ:
 Поисковые системно-аналитические исследования, разработка и внедрение методического, информационного и программного обеспечения оптимизационных информационно-управляющих систем, направленных на повышение эффективности технологических процессов и производств ОАО «ММК».
 Анализ качества и достоверности исходных данных о режимных параметрах технологических процессов, количественных и качественных характеристиках сырья, готовой продукции и формирование на этой основе рекомендаций по внедрению новых либо модернизации существующих контрольно-измерительных приборов и средств автоматизации. 
 Проведение экспертизы технических предложений и результатов выполнения работ по моделированию, анализу, технологическому аудиту и оптимизации технологических процессов и производств, осуществляемых сторонними организациями, как в группе ОАО «ММК», так и на других металлургических предприятиях.
     Мониторинг передовых интеллектуальных разработок в области математического моделирования, информационно-управляющих оптимизационных систем и технологий Big Dаtа в промышленности. 
     В отделе работают 6 ведущих специалистов, которые ежедневно решают вышеприведенные задачи. 
    
    Рисунок 1 – Состав отдела ЦСАИ
     Основной целью отдела на сегодняшней момент является повышение эффективности производства чугуна в доменном цехе ОАО «ММК» на основе комплексной многоуровневой оптимизации аглококсодоменного производства в координатах «закуп угольного и железорудного сырья – себестоимость чугуна/стали», включая показатели качества кокса, состава и качества ЖРС, параметров горячего дутья, с учетом динамических характеристик доменного процесса.
     2 МАТЕМАТИЧЕСКИЙ ИНСТРУМЕНТАРИЙ ДЛЯ АНАЛИЗА
    
     В оценочной деятельности, которую можно отнести к прикладной экономике, математическое моделирование применяют как для формализованного описания методологических подходов и методов оценки, так и для расчетов отдельных конкретных показателей, участвующих в определении стоимости объекта. К таким показателям относят арендные ставки, ставки капитализации и дисконтирования, различного рода мультипликаторы, весовые и корректирующие коэффициенты, износы и другое. Каждый методологический подход в оценке имущества можно представить в виде описательной и математической моделей.
     В данной работе используется непосредственно математические метода анализа и прогноза для прогноза рыночной стоимости квартиры, который в дальнейшем будет более подробно расписан. 
     
     Рисунок 2 – Математический инструментарий для анализа стоимости 
     
     2.1 Основы корреляционного анализа
     
     Корреляционный анализ является одним из методов статистического анализа взаимозависимости нескольких признаков - компонент случайного вектора X. Он применятся тогда, когда данные наблюдений можно считать случайными и выбранными из генеральной совокупности, распределенной по многомерному нормальному закону. Основная задача корреляционного анализа состоит в оценке корреляционной матрицы генеральной совокупности по выборке и определении на ее основе оценок частных и множественных коэффициентов корреляции и детерминации. [1]
     Парный (частный) коэффициент корреляции характеризует тесноту линейной зависимости между двумя переменными соответственно на фоне действия (при исключении влияния) всех остальных показателей, входящих в модель. Они изменяются в пределах от -1 до +1, причем, чем ближе коэффициент корреляции к+1, тем сильнее зависимость между переменными. Если коэффициент корреляции больше 0, то связь положительная, а если меньше нуля - отрицательная.
     Множественный коэффициент корреляции характеризует тесноту линейной связи между одной переменной (результативной) и остальными, входящими в модель; изменяется в пределах от 0 до 1. Квадрат множественного коэффициент корреляции называется множественным коэффициентом детерминации. Он характеризует долю дисперсии одной переменной (результативной), обусловленной влиянием всех остальных (аргументов), входящих в модель.
     

     Исходной для анализа является матрица:
     
     Размерность (n x k), i-я строка которой характеризует i-е наблюдение (объект) по всем k-м показателям (j=1,2,..., k).
     В корреляционном анализе матрицу X рассматривают как выборку объема п из k-мерной генеральной совокупности, подчиняющейся k-мерному нормальному закону распределения.
     По выборке определяют оценки параметров генеральной совокупности, а именно: вектор средних (), вектор среднеквадратических отклонений s и корреляционная матрица (R) порядка k.
                    
     Матрица R является симметричной  и положительно определенной, где:
       
     
     где хij - значение i-го наблюдения j-го фактора;
            rie - выборочный парный коэффициент корреляции, характеризует тесноту линейной связи между показателями xj и xe.
     При этом rie является оценкой генерального парного коэффициента корреляции.
     Кроме того, находятся точечные оценки частных и множественных коэффициент корреляции любого порядка. Например, частный коэффициент корреляции (k-2)-го порядка между факторами X1 и Х2 равен:
     
     где Rjl - алгебраическое дополнение элемента rie корреляционной матрицы R.
     Множественный коэффициент корреляции (k-1)-го порядка фактора X1 определяется по формуле:
     
     где  - определитель матрицы R. 
     
     2.2 Множественная линейная регрессия и метод наименьших квадратов
     	
     Уравнение регрессии – это аналитическая запись приближенного уравнения для описания изучаемого процесса:
     ,
     где  – регрессионное значение результирующей функции.
     Если  является линейной комбинацией факторов, то регрессия называется линейной и может быть записана в виде:
     ,
     где b0, bj – параметры регрессии, .
     Для определения параметров чаще всего используются метод наименьших квадратов.
     Основная идея метода: найти такие значения параметров регрессии, при которых функционал  принимает минимальное значение.
     Для линейной регрессии получим выражение:
     .
     Получим функцию многих переменных. Для определения минимума функционала надо вычислить все частные производные по всем входящим параметрам. Полученные выражения приравнять к нулю. И в результате получим систему линейных уравнений:
       
     или в матричном виде 
     ,
     где В – вектор столбец искомых коэффициентов аппроксимирующей функции:
     ;
     X – матрица всех значений рассматриваемых факторов, полученных при проведении измерений или наблюдений:
     ;
     xi0 – вектор столбец, определяющий свободный член уравнения регрессии (в матрице исходных данных этот столбец состоит из единиц);    Y – вектор столбец опытных значений изучаемой величины; ХT – матрица транспонированная к матрице Х.
      
     
     Для решения системы нормальных уравнений в матричной форме следует умножить ее слева на матрицу, обратную матрице системы нормальных уравнений, если таковая существует:
     ,
     ,
     ,
     где Е – единичная матрица.
     Таким образом, решение системы нормальных уравнений в матричной форме запишется в виде:
     .
     Каждый элемент уравнения регрессии можно найти по формуле:
     ,
     где сij – элементы обратной матрицы .
     В результате получаем полином первой степени с известными коэффициентами. Этот полином является аппроксимацией экспериментальной функции, вид которой неизвестен. Теоретически точность такого полинома можно повысить путем повышения степени аппроксимирующей функции. Практически это сделать не всегда бывает просто.
     
     2.3 Проверка значимости уравнения регрессии и коэффициентов уравнения регрессии
     
     Проверка значимости (качества предсказания) множественного уравнения регрессии в принципе мало отличается от соответствующей проверки парной зависимости. Вычисляют остаточную дисперсию по формуле 
     
     Ее затем сравнивают с дисперсией среднего с помощью критерия Фишера
     
     У данного критерия число  степеней свободы в числителе ?1=n-1 и в знаменателе ?2=n-p-1. Считают, что уравнение предсказывает результаты опытов лучше среднего, если достигает или превышает границу значимости при выбранном уровне значимости.
     Значимость коэффициентов регрессии b0, bj проверяют по критерию Стьюдента:
     
     погрешность коэффициентов регрессии:
     
     где сjj – диагональный элемент матрицы, обратной к матрице нормальных уравнений. Вычисленное значение сравнивают с табличным при числе степеней свободы ?=n-p-1.
     Доверительные интервал для коэффициентов регрессии
     ,
     где – истинное значение коэффициента регрессии генеральной совокупности.
     При проверке модели на значимость так же используется основных предпосылок МНК. В частности рассчитывается средняя относительная ошибка аппроксимации, проверяется нормальность распределения и автокорреляция в остатках.
     Поскольку фактические значения результативного признака отличаются от теоретических, рассчитанных по уравнению регрессии. Чем меньше эти отличия, тем ближе теоретические значения к эмпирическим данным, тем лучше качество модели. Величина отклонений фактических и расчетных значений результативного признака каждому наблюдению представляет собой ошибку аппроксимации. В отдельных случаях ошибка аппроксимации может оказаться равной нулю. Для сравнения используются величины отклонений, выраженные в процентах к фактическим значениям.
     Средняя относительная ошибка аппроксимации рассчитывается по формуле:
     MAPE=1/n ?_(i=1)^n?|y-y_t |/y?100% 
     Ошибка аппроксимации в пределах 5-7% свидетельствует о хорошем подборе модели к исходным данным. 
     Автокорреляция в остатках обычно встречается при регрессионном анализе временных рядов, и почти не встречается при анализе пространственных выборок. Чаще встречается положительная автокорреляция. Она в большинстве случаев вызывается направленным постоянным воздействием некоторых неучтенных в модели факторов. При положительной автокорреляции остатки изменяются монотонно с течением времени наблюдения, а при отрицательной – следует частое изменение знака остатка.
     Среди основных причин автокорреляции можно выделить следующие:
 ошибки спецификации – неучет в модели какой-то важной объясняющей переменной или неверный выбор вида функции, что ведет к систематическим отклонениям точек наблюдения от линии регрессии,
 инерция – запаздывание реакции экономической системы на изменение факторов,
 сглаживание данных.
     Последствия автокорреляции в остатках это потеря эффективности, смещение дисперсий оценок параметров, занижение стандартных ошибок и завышение t–статистик параметров, что может повлечь признание незначимых факторов значимыми. Вследствие перечисленных обстоятельств, прогнозные качества модели ухудшаются. Это проверяется с помощью статистики Дарбина-Уотсона. Рассчитывается выборочное значение по следующей формуле:
     DW=(?_(t=2)^n??(?_t-?_(t-1))?^2 )/(?_(t=1)^n??(?_t)?^2 )
     Оно сравнивается с критическими верхними и нижними границами (dU и dL), которые находятся по таблицам статистики  DW. Если DW > dU, то автокорреляция в остатках отсутствует. В иных случаях у нас присутствует положительная или отрицательная автокорреляция. Если же значение статистики DW попадает в промежуточный интервал между верхней и нежней границей, то сделать вывод о наличии или отсутствии автокорреляции невозможно.
     Анализируя качество модели, необходимо так же проверить ряд статистических гипотез, использующих критерий Стьюдента, которым можно воспользоваться в случае, когда остатки распределены по нормальному закону. Кривая плотности нормального распределения задается функцией: f(x)=1/(??(2??))?e^(-?(x-a)?^2/(2??^2 )),  где a – математическое ожидание; ? – среднее квадратическое отклонение.
     Что бы проверить подчинению остатков нормальному распределению были рассчитаны коэффициент асимметрии и эксцесс (критические и выборочные значения) по следующим формулам: 
     
     Множественный нелинейный регрессионный анализ
    
     Все методы построения множественных нелинейных регрессий можно свести к трем разновидностям:
     метод всех регрессий;
     метод исключения переменных;
     метод включения переменных.
     Рассмотрим каждый из них по порядку, первым из которых будет метод всех регрессий.
     Как правило, на первом этапе нелинейного множественного регрессионного анализа выполняют построение квадратичной формы. Для этого определяют коэффициенты полинома вида:
    
     Начиная с коэффициента b11, который определяет повышение степени, вводят обозначения: ,  и т.д., а также соответственно, ,  и т.д., после чего получаем уравнение линейной регрессии, коэффициенты которой можно получить обычным методом наименьших квадратов.
     Кроме параболических, регрессии строят так называемые «внутренние линейные» формы, т.е. формы которые легко линеаризуются логарифмированием или другими преобразованиями. К таким моделям относятся:
     1) мультипликативная модель: , которая после логарифмирования по натуральному основанию, переходит в линейную форму: . Далее обычно производят замену: ,  и . И определяются параметры линейной формы: 
     .
      При использовании метода наименьших квадратов получаем  и следует найти .
     2) экспоненциальная модель наиболее распространена в трех видах:
     a) 
     
     или
     
      после выполнения расчетов обратных преобразований не требуется.
     б)  
     
     или
     ,
      обратные преобразования аналогично пункту 1).
     в) 
     
     или
     .
     
     3) Обратная модель
     
     или
     .
     Во всех приведенных моделях, за исключением мультипликативной, можно производить повышение степени и, следовательно, метод построения всех регрессий в принципе бесконечен.
     Мерой тесноты связи для нелинейный зависимостей служит корреляционное отношение: 
     
     Чем больше значение корреляционного отношения, тем зависимость ближе к линейному виду.
     Из всех рассмотренных уравнений при решении конкретной задачи желательно выбрать оптимальное уравнение. Для оценки оптимальности уравнения используют следующие оценки: остаточная сумма квадратов, значение критерия Фишера, значения коэффициентов корреляции и значения критерия Стьюдента. Очень редко все оценки дают одинаковые значения. Однако чаще всего выбор регрессии определяют оценки всей регрессии и интуитивные факторы по изучаемому процессу.
     Далее следует метод исключения переменных. Алгоритм метода. Расширяем систему исходных данных до размерности полинома, используя необходимые преобразования. 
     Например, для построения полной квадратичной формы необходимо добавить в исходный набор данных квадраты случайных величин (,  и т.д.) и по парные произведения (,  и т.д.), при этом для системы из двух факторов получим систему из пяти, т.е. происходит резкое увеличение размерности матрицы наблюдений и корреляции. 
     Для полученной матрицы наблюдений строится полная форма и рассчитываются все оценки и критерии Стьюдента для всех коэффициентов регрессии. 
     Выполняют сортировку признаков по убыванию t-статистики. Исключение  начинают  с  фактора   имеющего   наименьшее   значение      t-статистики соответствующего коэффициента. Особую сложность имеет вопрос о том, на каком этапе следует прекратить исключение факторов. Наиболее распространены два подхода:
     прекратить исключение факторов, в том случае, когда остаточная дисперсия начнет возрастать, относительно предыдущего шага;
     назначить уровень значимости для последнего оставляемого коэффициента регрессии.
     Для второго подхода целесообразно построить диаграмму ранжирования критерия Стьюдента для всех факторов и эффектов системы. Практика показывает, что возможно получение диаграмм трех видов (рисунок 2).
     
     	   а)	                б)	                                в)
     Рисунок 3 - Форма диаграмм при ранжировании признаков по уровню 
значимости параметров множественной регрессии
     
     Если получается диаграмма вида а), то прежде всего отсеиваются факторы располагающиеся после «скачка» по t-статистики. По диаграмме типа б) прежде всего отсеиваются факторы, для которых изменение t-статистики не значительно. Диаграмма типа в) не дает никаких указаний на выбор отсеиваемых факторов. В этом случае, как правило, назначается уровень значимости, обычно 5%.
     Замечания по использованию метода исключения:
     количество факторов и эффектов, входящих в уравнение регрессии не должно превышать n-1, иначе число степеней свободы будет принимать отрицательное значение, и установить значимость коэффициентов регрессии будет не возможно;
     не всегда исключение факторов приводит к повышению значимости остальных.
     Последний рассматриваемый метод это метод включения факторов. Рассмотрим алгоритм реализации:
     выполнить построение полной линейной формы по всем факторам (при рассмотрении других форм также следует рассмотреть первоначально полную форму);
     определить оценки построенной регрессии F, R и S2ост;
     выполнить построение матрицы корреляции и расчет частных коэффициентов корреляции;
     выполнить сортировку факторов по убыванию частных коэффициентов корреляции;
     построить линейную модель с фактором, имеющим наибольший частный коэффициент корреляции;
     найти оценки модели;
     построить уравнение регрессии, включив в него фактор со следующим по значению коэффициентом и определить все оценки построенного уравнения.
     процесс включения факторов следует продолжать до тех пор, пока оценки новой регрессии не начнут «ухудшаться» либо будут иметь незначительные изменения по сравнению с предыдущим шагом.
    
    2.5 Нейронные сети
    
     Еще один подход анализа данных основанный на машинном обучении - искусственные нейронные сети (artificial neural network), или просто нейронные сети. В основе их функционирования лежит принцип обработки информации мозгом человека, и они привлекательны тем, что могут моделировать практически любые, в том числе нелинейные, зависимости. Оговоримся сразу, что речь дальше пойдет только о таких нейронных сетях, в которых применяются алгоритмы обучения с учителем. Сети Хопфилда и подобные им модификации не рассматриваются.
     Мозг обрабатывает информацию образами, которые ассоциируются в сознании с определенными действиями, выводами, символами и т. д. Человеческий мозг может распознавать весьма сложные образы за несколько миллисекунд. Высокая эффективность обработки информации человеческим мозгом всегда привлекала внимание специалистов. Создание вычислительных систем, действующих по аналогичному принципу, открывает путь к созданию систем искусственного интеллекта и обработки сложной информации в реальном времени. Очевидно, что обычные цифровые вычислительные машины для этого непригодны, поскольку они оперируют не образами, а элементарными единицами данных — битами. Только для того, чтобы создать образ с помощью обычного компьютера, требуется ряд сложных операций, занимающих много времени.
     Вывод напрашивается сам собой: необходимо разработать вычислительную систему, в основе которой лежал бы тот же принцип обработки данных, что и в человеческом мозге. Интуитивно понятно, что такая система должна выполнять параллельную обработку данных. Образ должен восприниматься одновременно и полностью.
     Любой образ формально описывается набором признаков, таких как размеры, цвет, форма и т. д. Поэтому для формирования образа нужно ввести в систему набор (вектор) значений соответствующих признаков. В теории нейронных сетей входной вектор часто так и называют — образ внешней среды. На выходе система должна сформировать значение, указывающее на класс объекта.
     Остается ответить на вопрос: какими должны быть структура и принцип работы системы, чтобы наиболее эффективно решать задачу распознавания образов? Естественным было бы построить систему, моделирующую процесс обработки данных человеческим мозгом. Так возникла теория нейронных сетей.
     Искусственная нейрон.......................
Для получения полной версии работы нажмите на кнопку "Узнать цену"
Узнать цену
Каталог работ
Похожие работы: