Главная / Образцы дипломных работ
Сравнительный анализ средств и методов хранения информации

Внимание: Акция! Курсовая работа, Реферат или Отчет по практике за 10 рублей!
Только в текущем месяце у Вас есть шанс получить курсовую работу, реферат или отчет по практике за 10 рублей по вашим требованиям и методичке!
Все, что необходимо - это закрепить заявку (внести аванс) за консультацию по написанию предстоящей дипломной работе, ВКР или магистерской диссертации.
Нет ничего страшного, если дипломная работа, магистерская диссертация или диплом ВКР будет защищаться не в этом году.
Вы можете оформить заявку в рамках акции уже сегодня и как только получите задание на дипломную работу, сообщить нам об этом. Оплаченная сумма будет заморожена на необходимый вам период.
В бланке заказа в поле "Дополнительная информация" следует указать "Курсовая, реферат или отчет за 10 рублей"
Не упустите шанс сэкономить несколько тысяч рублей!
Подробности у специалистов нашей компании.
Код работы:	W001051
Тема:	Сравнительный анализ средств и методов хранения информации
Содержание
    Основные данные о работе
Версия шаблона
3.1
Вид работы
Электронная письменная предзащита 
Название дисциплины
Защита выпускной квалификационной работы по направлению подготовки (230100 - "Информатика и ВТ" 1 неделя)
Тема
Сравнительный анализ средств и методов хранения информации
Фамилия выпускника
Домашевский
Имя выпускника
Вячеслав
Отчество выпускника
Дмитриевич
№ контракта
07900016406555001
 
     
    Основная часть
     
     Тема работы «Сравнительный анализ средств и методов хранения информации». Целью данной работы является исследование системы хранения данных, а также оценка их производительности. 
     Объектом в работе выступают системы хранения данных, предметом – исследование их производительности и практическое применение.
     При решении поставленных в работе задач использованы теории массового облуживания и методы имитационного моделирования.
     Основными результатами являются: 
     - проведенный анализ систем хранения данных, их режимов работы, а также факторов, влияющих на их производительность;
     - исследована надежность и эффективная емкость систем хранения данных;
     - оценка производительности RAID-систем;
     - оценка влияния параметров дисков на производительность систем.
     Области применения: полученные оценки производительности систем хранения данных дают возможность гораздо эффективнее применять существующие RAID-системы хранения данных по результатам выбора правильной конфигурации и режимов работы.
     В результате анализа систем хранения данных в работе проведен анализ производительности дисковых массивов в зависимости от их параметров и нагрузки.
     

Введение
     
     На сегодняшний день самыми популярными устройствами длительного хранения данных в компьютерных системах являются накопители на жестких магнитных дисках. Несмотря на существование разнообразных технологий длительного хранения данных, только магнитные диски располагают одновременно такими характеристиками, как высокая скорость передачи данных, быстрый свободный доступ к данным, сравнительно низкая стоимость хранения информации и, наконец, большая емкость. 
     Впрочем, темпы роста оперативной памяти, производительности процессоров и остальных полупроводниковых элементов существенно превосходят рост производительности жестких дисков, которая зависит в значительной мере от безупречности их механической системы. Год от года растет отставание производительности жестких дисков от полупроводниковых составляющих. Объем данных, которые сохраняются и обрабатываются вычислительными системами, неизменно растёт. Классический метод разработки запоминающих устройств большого объема заключается в подсоединении к вычислительной системе жестких дисков в большом количестве, любой из которых как отдельное устройство будет доступен системе. В этом случае важными недостатками считаются слабая надежность комплекта дисков, неравномерное распределение нагрузки между дисками и довольно низкое быстродействие некоторых дисков.
     В 1987 году коллективом исследователей под руководством Д. Паттерсона была представлена система дисковых массивов под названием RAID - Redundant Array of Independent Disks (Массив Независимых Дисков с Избыточностью), разработанная с целью увеличения надежности и производительности систем хранения данных на жестких накопительных дисках. Основные признаки RAID-массивов, в отличие от простого комплекта дисков:
     - для обеспечения равномерной нагрузки на все диски массива данные разделены по дискам;
     - RAID-массив по мнению пользователя отображается как целостный виртуальный диск большого объема;
     - кроме данных в массиве сохраняется дополнительная (избыточная) информация, которая дает возможность восстанавливать данные в случае отказа одного либо нескольких дисков.
     Ценность дисковых массивов значительно возросла с возникновением и усовершенствованием сетей хранения данных (SAN - Storage Area Networks), представляющих собой современный, более эффективный способ организации хранения и доступа в больших вычислительных системах к данным большого объема. Сеть хранения данных – высокоскоростная сеть, которая устанавливает прямое соединение устройств хранения данных с системами обработки данных (серверами). Частично, сети хранения данных лучше рассматривать, как развитие высокоскоростных шин ввода-вывода, поднявшихся на новую ступень развития, где применение подобных устройств как коммутаторы, шлюзы, маршрутизаторы и концентраторы дает возможность создавать сетевую инфраструктуру, подобную локальной вычислительной сети (ЛВС).
     Использование сетей хранения данных дает возможность централизовать сохранность данных, гарантировать к ним быстрый надежный доступ и их одновременное применение разнообразными вычислительными платформами. Объединение и рост объемов сохраняемой информации требуют повышенных требований к производительности и надежности систем хранения данных. Собственно по этой причине все разработчики систем хранения данных для применения в сетях хранения данных советуют варианты, основанные на базе дисковых массивов RAID.
     Производительность дисковых массивов находится в зависимости от значительного количества факторов. Этими факторами считаются параметры именно дискового массива и порядка его работы (свойства нагрузки). Как показывает практика, режим обращения к данным, которые хранятся в RAID массиве, находится в сильной зависимости от определенных приложений, работающих в системе. На различных задачах один и тот же дисковый массив может иметь различную производительность.
     С повышением актуальности систем хранения данных с применением базы RAID большую значимость приобретает необходимость в средствах моделирования и оценки их производительности. Именно эти средства повысят эффективность использования потенциала имеющихся RAID систем и поспособствуют разработать новые решения.
     Объектом в работе выступают системы хранения данных, предметом – исследование их производительности и практическое применение.
     Целью данной работы является исследование системы хранения данных, а также оценка их производительности. 
     Для достижения заданной цели в работе необходимо рассмотреть ряд задач:
     - рассмотреть историю и концепцию RAID, уделить внимание основным понятиям и составу RAID массивов и уровней;
     - провести классификацию имеющихся RAID-систем;
     - провести обзор существующих стандартов применения и применения дисковых массивов и уровней RAID;
     - рассмотреть практическое применение RAID-систем на программном и аппаратном уровнях и использование в системах хранения данных;
     - провести исследование надежности и эффективной емкости RAID систем;
     - провести оценку производительности существующих стандартов RAID систем.
     

1. Обзор современных системы хранения данных

1.1 Тенденции развития систем хранения данных
     
     На текущий момент широко распространенными устройствами для длительного хранения данных в компьютере считаются жесткие диски. Невзирая на большое количество всевозможных технологий длительного хранения данных, таких как магнитные ленты, магнитные и магнитооптические диски, диски DVD-ROM и CD-ROM, исключительно магнитные диски одновременно располагают такими качествами, как быстрый произвольный доступ к данным, передачи данных на высоких  скоростях, большая емкость и, в конце концов, сравнительно низкая цена хранения информации. За последние 20 лет емкость жестких дисков повышалась со скоростью 25% в год и сегодня составляет 180Тбайт  [2]. Тем не менее, собственно диски чаще всего являются помехой на пути увеличения надежности и производительности вычислительных систем по причине своего сравнительно невысокого быстродействия и надежности по отношению к остальным элементам системы. 
     Проблемой также считается управление повышающимися объемами хранимых данных [19]. В период применения мэйнфреймов и крупных ЭВМ хранение данных было централизованным, и все устройства хранения данных подключались к центральной ЭВМ и находились под постоянным управлением и контролем технических служб. 
     При переходе к распределенным и клиент-серверным  вычислениям возник целый ряд проблем. Информация, которая раньше была централизованной, сейчас распределяется по вычислительной сети и нередко неудовлетворительно обслуживается и управляется. Устройства хранения данных являются разрозненными и подсоединены к разным компьютерам; контроль за применением и планирование приумножения устройств хранения данных следует осуществлять для каждого компьютера  отдельно; накопители, закупленные для одной вычислительной платформы часто не могут применяться другой. 
     Последним эффективным способом организации хранения и доступа к значительным объемам данных в больших гетерогенных вычислительных комплексах считаются сети хранения данных (Storage Area Network — SAN) [20]. . Сеть хранения данных – высокоскоростная сеть, которая устанавливает прямое соединение устройств хранения данных с системами обработки данных (серверами). Частично, сети хранения данных лучше анализировать, как развитие высокоскоростных шин ввода-вывода, поднявшихся на новую ступень развития, где применение подобных устройств как коммутаторы, шлюзы, маршрутизаторы и концентраторы дает возможность создавать сетевую инфраструктуру, подобную локальной вычислительной сети (ЛВС).
     Увеличение объемов и централизация хранимых данных предъявляет повышенные требования к надежности и производительности систем хранения данных. Первые перспективы для создания дисковых массивов возникли несколько десятилетий назад. 
     Неизменное усовершенствование методов производства полупроводниковых компонентов позволяет создавать более быстрые микропроцессоры и оперативную память больших объемов, что вызывает необходимость наиболее производительных и объемных систем внешней памяти. На системы внешней памяти оказывает количественное и качественное влияние развитие микропроцессоров.
     По количественному аспекту, закон Амдала (Amdahl)  [13] прогнозирует, что существенное повышение производительности микропроцессоров приводить лишь к незначительному росту производительности вычислительной системы в общем, если он не сопутствуется должным развитием быстродействия устройств внешней памяти. В общем случае, в соответствии с данным законом, при увеличении скорости реализации-какой-либо части задачи общее повышение скорости реализации полной задачи будет составлять: 
     				(1)
где:  - общее повышение скорости реализации задачи;  - часть работы, скорость реализации которой возросла;  — повышение скорости реализации части работы . 
     Рассмотрим этот закон на примере. Если система затрачивает 10% времени на выполнение операции ввода/вывода, то при ускорении процессора в 10 раз общее повышение производительности системы согласно закону Амдала увеличиться лишь 5 раз. Когда скорость процессора увеличится в 100 раз, то общая производительность повысится только в 10 раз, лишаясь 90% потенциального увеличения быстродействия
     К сожалению, одновременно с ростом производительности RISC-процессоров в среднем на 40 - 60% в год [11], только на 5Уо в год улучшается время доступа накопителей на жестких магнитных дисках (НЖМД), которое зависит только от совершенности механической системы, [1].При этом скорость чтения данных с поверхности диска, которая зависит как от плотности записи на магнитном носителе, так и от механических компонентов, повышалась на 20% в год. В таблице 1 приводится сравнительный анализ производительности разных компонентов вычислительных систем во времена с 1977 по 2000 год [10]. Производительность процессоров (CPU) указана в FLOPS - общеустановленной единице измерения производительности процессоров. 

Таблица 1 - Повышение производительности разных элементов вычислительных систем
Год
Производительность CPU (пиковая)
Время доступа дисков
Скорость чтения диска
1977
25 MFLOPS
24 мс
3 МБ/с
2000
1 TFLOPS
8,65 мс
100 МБ/с
     
     Предполагая, что направление формирования полупроводников и дисковой памяти останется прежним, можно сделать вывод, что разрыв в производительности между центральным процессором и дисковой памятью станет только усиливаться. 
     Кроме количественного, есть и немаловажное качественное влияние, которое побуждает к формированию емкой высокопроизводительной внешней памяти. Увеличение производительности микропроцессоров раскрывает новые сферы использования вычислительных систем и значительно расширяет потенциалы имеющихся приложений. К примеру, все большую популяризацию обретают мультимедийные приложения, в их числе и обработка видеоизображений в настоящем времени. В таких сферах, как системы научных расчетов и системы автоматизированного проектирования (САПР) высокопроизводительные микропроцессоры дают возможность обрабатывать все повышающиеся объемы данных. Такая направленность в прикладных системах, совместно с усовершенствованием систем внешней памяти, обладающих большими объемами, высокой производительностью и направленных на совместное применение через сеть большим количеством вычислительных систем, вынуждают во многом поменять методы создания и эксплуатации систем внешней памяти. 
     Классический метод разработки запоминающих устройств большой емкости заключается в подсоединении большого количества жестких дисков к вычислительной системе, любой из которых как отдельное устройство будет доступен системе. Такой метод памяти длительного хранения нередко обозначают JBOD - Just Bunch Of Disks (Просто Набор Дисков). Но этот подход обладает значительными недостатками. 
     Для разнообразных систем хранения данных, и для дисков в том числе, свойственно присутствие "горячих пятен" [24]. Поток клиентских запросов весьма неравномерно разделен по всем дискам системы. Возникают так именуемые "горячие пятна" - зоны, к которым совершается большое количество обращений, а остальная часть дисковой памяти, в это же время, имеет весьма малую нагрузку. В данной ситуации можно применить общеизвестное «правило 80/20»; преимущественно 80% обращений реализовывается к ограниченной области, которая  составляет всего лишь 20% емкости памяти. Если такое «горячее пятно» расположено на одном диске, то у подсистемы внешней памяти производительность будет крайне небольшой. Один из методов, предлагавшихся для уменьшения негативного эффекта «правила 80/20», заключается в применении более дорогостоящего устройства с значительно улучшенными параметрами для хранения «горячих файлов», то есть файлов, обращения к которым совершаются наиболее часто. Тем не менее, сложно установить наиболее возможный набор этих файлов, при том, что в зависимости от цели задач, дня недели, времени суток, и прочих факторов картина обязательно будет изменяться. 
     Еще одним немаловажным недостатком применения жестких дисков считается их сравнительно низкая надежность. Предполагая, что возможность отказа диска во времени неизменна, что отвечает экспоненциальному распределению времени работы диска до отказа («время наработки на отказ»). Из этих гипотез исходят производители дисков во время расчета среднего времени наработки на отказ [3] - надежность набора дисков понижается, с увеличением количества дисков М и среднее время наработки на отказ будет составлять: 
     				(2)
     Отчеты компании Strategic Research Corporation [5] доказывают, что в современных серверах причиной 55% простоев становятся отказы, которые связанны с системами хранения данных. 
     Дисковые массивы, которые представляют группу независимых дисков как целостный, высокопроизводительный логический диск, становятся результативным решением вопросов недостаточного быстродействия и ненадежности систем хранения данных на магнитных дисках.
     
1.2 Сети хранения данных, их интерфейсы
     
     В 1990 году компания MTI Technology выпустила первый серийный продукт, который реализует концепцию RAID. Эта система хранения данных получила название Gladiator ESS 3200 [8]. Системы RAID в настоящее время обрели широкое применение и выпускают их большое количество производителей.
     В наличии имеются три принципиальных метода разработки систем хранения данных на базе RAID для открытых систем;
     - аппаратная реализация - внешний контроллер:
     - аппаратная реализация - внутренний контроллер;
     - программная реализация RAID.
     Программная реализация RAID - вся работа по организации RAID ( восстановление данных при отказах дисков, вычисление избыточной информации, разбиение на полосы чередования, адресация) выполняется специальным программным обеспечение (SVM - Software Volume Manager). Существуют  программные реализации RAID для большей части новейших серверных вычислительных платформ. В частности, в Microsoft Windows NT 4.0 Server интегрирована поддержка трех уровней RAID: RAID-0, RAID-1и RAID-5 [10]. В  Windows NT Workstation поддерживается исключительно чередование данных RAID-0. Два программных пакета, которые реализуют RAID: Veritas Volume Manager [12] и Sun Enterprise Volume Manager [11] доступны для ОС Sun Solaris. Эти  пакеты гарантируют поддержку RAID-5, RAID-1, и RAID-0. 
     Программная реализация RAID - недорогое, но имеющее ряд значительных недостатков решение. Эти решения и в особенности программная реализация массивов RAID-5, чрезвычайно загружают вычислительную мощность компьютера. На реализацию программ обслуживания дисков затрачивается какое-либо время, что естественно влияет на быстродействии вычислительной системы. 
     К тому же, при программном осуществлении неизменно имеется возможность утраты данных при аварийном отказе операционной системы, непроизвольной аппаратной перезагрузки или отключении электропитания в компьютере [13]. Программная реализация RAID, несомненно, имеет важное место в современных решениях, но должна использоваться только на высоконадежных компьютерах и при условии экономии материальных средств.
     Аппаратная реализация — внутренний контроллер. Вся логика управления дисковым массивом осуществлена в особом устройстве - внутреннем RAID-контроллере. Контроллер подключается непосредственно к внутренней системной шине. Большинство производимых в настоящее время внутренних RAID-контроллеров рассчитано на шину PCI [18]. К контроллеру, в свою очередь, подключаются диски, используя один из стандартных дисковых интерфейсов: SCSI в разнообразных его модификациях (SCSI, SCSI-2, FAST WIDE SCSI-2, Ultra160 SCSI,  Ultra Wide SCSI, Ultra2 SCSI,), FC-AL, SSA.
     Аппаратная реализация - внешний контроллер. При данной архитектуре системы RAID-контроллер подсоединяется к вычислительной системе посредством стандартного дискового интерфейса (SCSI, FC-AL, SSA).Следовательно, система представляет весь дисковый массив как один большой диск, который подключен к ее внутреннему дисковому контроллеру.
     Приведем примеры осуществления массивов RAID в промышленных вычислительных системах.
     Применение внутренних RAID-контроллеров чаще всего присуще для производительных рабочих станций и серверов среднего и начального уровня на платформе Intel. Как правило, эти контроллеры располагают от одного до четырех каналов SCSI, к любому из которых может подключаться до 15 дисков. Большая часть внутренних RAID- контроллеров создается на основе RISC процессора Intel i960 или процессоров серии 68000/68020/68030 фирмы Motorola. На сегодняшний день все контроллеры обладают энергонезависимой памятью (NVRAM), которая исключает нарушение и потерю целостности данных в случае аварийного отключения электропитания.
     Система SmartRAID VI компании DPT считается характерным примером современного внутреннего контроллера. Имея 64-битную 33 МГц PCI шину и четыре канала Ultral60 SCSI, он позволяет подключать до 60 дисков общим объемом 2.1 ТБ (2100 ГБ).
     RAID-системы на основе внешнего контроллера применяются в сетях хранения данных, больших центрах обработки данных и крупных (High-End) системах. Внешние системы, в отличие от внутренних контроллеров имеют возможность подключаться к вычислительным платформам различных производителей, располагающими разнообразными внутренними шинами и которые работают под управлением разных операционных систем. Одно устройство хранения данных могут одновременно использовать некоторое количество разных вычислительных систем.
     В качестве примера RAID-системы с внешним контроллером приведем систему хранения данных CLARiiON FC4700, которая выпускается корпорацией ЕМС Corporation [16], [20]. Данная система дает возможность организовывать дисковые массивы RAID-5, RAID-3, RAID-1 и RAID-0. Имеется возможность в пределах одной системы организовать несколько массивов разных размеров и типов. Два специализированных процессора осуществляют управление работой дисковых массивов. Для подключения к вычислительным системам в качестве внешних интерфейсов CLARiiON FC4700 располагает 4 портами Fibre Channel, каждый с производительностью 100 Мбит/с. Жесткие диски емкостью 73 или 18, 36 Гбайт с интерфейсом FC-AL используются в качестве носителей информации. В системе есть возможность установить до 100 дисков с суммарной емкостью 7.3 Тбайт, которые подключаются к двум двойным кольцам FC-AL с общей пропускной способностью 400 Мбайт/с. Диски в системе позволяют «горячую» замену (не выключая питания) и без остановки работы может наращиваться размер массивов. Система располагает резервными источниками питания для обеспечения высокой надежности работы. В случае отказа любого из процессоров, его функции начинает выполнять другой. Система CLARiiON FC4700 имеет возможность подключаться к вычислительным системам, которые работают под управлением HP-UX, Novell Netware, IBM AIX, SGI IRIX и Red Hat Linux,Windows NT/2000, Sun Solaris.
     Как еще один пример рассмотрим систему хранения данных Enterprise Storage Server (ESS) F20 от компании IBM Corporation [19]. В предельно допустимой конфигурации сервер имеет до 288 жестких дисков, каждый емкостью до 72 Гб.
     Сервер предназначен для применения в сетях хранения данных крупных организаций и гарантирует высокую надежность сохранения существенных объемов данных. Восемь процессоров, которые разделены на два независимых дублирующих друг друга модуля, осуществляют управление работой системы. Подключаются диски в системе к восьми контроллерам с интерфейсом SSA, который разбит на четыре пары основной-резервный. К каждой паре контроллеров подключается по два общих кольца интерфейса SSA. Чтобы выполнить соединение с сетью хранения данных или иными устройствами в системе могут устанавливаться до 16 хост-адаптеров с интерфейсами таких видов:
     - Fibre Channel для использования в сетях хранения данных,
     - ESCON и FICON для подключения к мэйнфреймам (S/390),
     - SCSI- 3 (для прямого подключения потребителей данных).
     Группируются жесткие диски в системе в блоки по 8 дисков одного размера. Каждый блок представляется в виде независимого массива RAID-5, состоящего из всех восьми дисков, или из семи дисков плюс один диск находящийся в «горячем» резерве. Суммарный объем хранимой информации в до конца скомплектованной дисками системе может составить 22 Тбайта.
     Сеть хранения данных – высокоскоростная сеть, которая устанавливает прямое соединение устройств хранения данных с системами обработки данных (серверами). Они представляют собой новое решение для сохранения и обеспечения доступа к информации в крупных гетерогенных вычислительных системах. Сети хранения данных обеспечивают пользователям возможность высокоскоростного непрерывного доступа к данным независимо от вычислительной платформы, совместного применения устройств хранения данных, свободного наращивания их объемов.
     Идея SAN не произошла самопроизвольно. Как и подавляющее большинство современных компьютерных технологий, эта концепция произошла из мэйнфреймов, где использовалась в центрах обработки данных для подсоединения мэйнфреймов к системам хранения и распределенным сетям посредством интерфейса ESCON [6].
     Сети хранения неотъемлемо вливаются в концепцию трехуровневой модели вычислений. Согласно такому подходу, вычислительная среда разделяется на 3 уровня:
     - верхний уровень используют для представления данных, и как правило представляет собой терминал или персональный компьютер;
     - средний уровень содержит серверы приложений, которые обрабатывают данные;
     - нижний уровень содержит устройства хранения данных.
     На рисунке 1 показана общая схема сети хранения данных, соединяющая несколько серверов и несколько устройств хранения данных.
     Использование сетей хранения данных располагает следующими преимуществами:
     - повышение доступности данных: данные отделены от приложений и могут быть доступными через многовариантные пути;
     - рост производительности приложений: передача данных реализовывается по отдельной сети;
     - консолидация и централизация данных: упрощенное обслуживание, рост гибкости и масштабируемости;
     - передача данных в удаленные устройства: хранение на большом расстоянии резервной копии от основных данных.
     
     
Рисунок 1 - Сеть хранения данных
     
     Сети хранения данных осуществляют новые способы соединения серверов с системами хранения данных, которые дают возможность достижения высокой скорости и надежности доступа к данным. В настоящее время классические сети хранения данных применяются для соединения разделяемых накопителей с данными к разному количеству серверов, а также для доступа к данным в серверных кластерах.
     Сеть хранения данных представляется как сеть, которая отделена от классической локальной вычислительной сети (ЛВС) и имеет отличие от нее в том, что она создана на базе интерфейсов для связи с устройствами хранения данных. Сеть убирает большую часть нагрузки и устраняет многие слабые места, которые присущи для систем на основе ЛВС. Сеть хранения данных гарантирует три самых важных типа передачи данных между системами хранения данных и серверами:
     - - сервер - сервер: высокоскоростная передача внушительных объемов данных между серверами;
     - - сервер - система хранения данных: классическая модель взаимодействия, одинаковые данные могут быть поочередно или одновременно доступны нескольким серверам;
     - система хранения данных - система хранения данных: передача данных без применения серверов, вычислительная мощность серверов освобождается для реализации других задач, используется, к примеру, для резервного копирования данных.
     Классическая сеть хранения данных [9] содержит в себе большое количество базовых компонентов, таких как интерфейсы (Fibre Channel, SCSI), сетевые устройства (маршрутизаторы, коммутаторы, концентраторы), протоколы (SCSI, IР), устройства хранения данных (дисковые массивы, оптические накопители, накопители на магнитной ленте), управляющее программное обеспечение.
     Высокая скорость доступа к данным и бесперебойный доступ к ним считаются одними из главнейших запросов к сетям хранения данных. Собственно поэтому в качестве устройств хранения данных с оперативным доступом многие передовые поставщики систем хранения данных рекомендуют и предлагают применять дисковые массивы RAID как наилучшее решение, которое обеспечит надежность и высокую производительность хранения данных [9].
     На данный момент действительным эталоном на интерфейс передачи данных в сетях хранения считается Fibre Channel. Именно ему сети хранения данных во многом обязаны своим развитием. Промышленным стандартом на интерфейс последовательной передачи данных считается именно стандарт Fibre Channel. Он был разработан и развивается комитетом X3TII Американского национального института стандартов (ANSI). В начале стандарт был предназначен для передачи данных по оптическому каналу, собственно что и отображено в его названии (Fibre), впрочем, позже была добавлена и передача по медному кабелю. Так же как и другие сетевые стандарты. Fibre Channel по структуре поделен на 5 независимых уровней (FC-0 - FC-4), и захватывает четыре нижних уровня базовой семиуровневой модели OSI: FC-0 и FC-1 - физический уровень, FC-2 - канальный уровень, FC-3 - сетевой уровень, FC-4 - транспортный уровень.
     Транспортный уровень дает описание инкапсуляции в Fibre Channel протокола SCSI [9]. Этот стандарт обеспечивает передачу данных на скорости 100 Мбайт/с, но в стадии разработки стандарт, обеспечивающий скорость передачи в четыре раза больше. При использовании многомодового волокна (Multi-Mode Fiber) наибольшее расстояние между узлами составляет 2 км, а при использовании одномодового оптического кабеля (Single-Mode Fiber) достигает до 10 км.
     Сети, использующие Fibre Channel, много общего имеют с классическими сетями (FDDI, Token Ring, Ethernet). Значительным отличием стандарта Fibre Channel считается возможность поддержки трех различных сетевых топологий: соединение звезда (коммутируемая), кольцо с арбитражем (Fibre Channel Arbitrated Loop - FC-AL), точка-точка.
     • Точка-точка - топология точка-точка представляет собой прямое соединение между двумя узлами. Вся полоса пропускания канала предоставлена данным двум узлам. 
     • Кольцо (FC-AL) - в кольцевой топологии полоса пропускания распределяется всеми узлами, соединенными в кольцо. Как следствие, для доступа к сети устройства выполняют процедуру арбитража. По кольцу в любое мгновение времени может быть выполнена всего одна передача. В кольцо возможно объединить до 127 устройств. 
     • Коммутируемая звезда строится на базе коммутаторов, представляющих собой интеллектуальные устройства, которые устанавливают соединения между собой и присоединенными компонентами сети. Этими компонентами могут быть как узлы сети, так и остальные коммутаторы или кольца Fibre Channel. В коммутируемой топологии множество устройств могут параллельно функционировать на предельной скорости интерфейса Fibre Channel. До 224 устройств может объединяться в коммутируемой сети. 
     Кроме этого, в сравнении с классическими сетевыми технологиями Fibre Channel обладает высокой эффективностью использования 40 полос пропускания (скорость передачи данных на практике достигает 97 Мбайт/с), гарантированной доставкой информации, поддержкой протоколов TCP/IP, SCSI передачей видео.
     
1.3 Виды систем хранения данных
     Все существующие архитектуры RAID-систем классифицируются по двум главным признакам:
     - способу вычисления и расположения по дискам блоков избыточной информации:
     - размеру блока чередования данных.
     Чередование данных в массиве осуществляется по двум принципиально различным типам: «мелкого» и «крупного». «Мелкое» чередование данных в массиве осуществляется блоками чрезвычайно малого размера (например, байт или бит), и обращение ко всем дискам массива выполняется при любом запросе на запись или чтение данных. При этом размера запроса значения не имеет. В таком случае при обращениях к дисковому массиву достигается высокая скорость передачи данных, но в данный момент времени может выполняться только один запрос. Данные в массиве при «крупном» чередовании делятся на большие блоки. Запросы на запись или чтение блоков данных малого размера обрабатывают только один или несколько дисков массива, а для выполнения запросов большого размера требуется обращение ко всем дискам массива. Таким образом становиться возможным, одновременно выполнять несколько запросов записи или чтения небольшого размера.
     Проблема осуществления избыточности в дисковом массиве имеет два подхода. Один из них - выбор метода для вычисления избыточной (защитной) информации. Основная масса имеющихся сегодня дисковых массивов применяют четность, впрочем, существуют реализации, которые используют коды Рида-Соломона [3] или Хэмминга [2]. При применении четности с целью защиты данных блок избыточной информации Р представляется суммой всех блоков данных Di защищаемой полосы чередования по модулю 2:  P = D1  D2 ...  Dn.
     Данная защитная информация  дает возможность восстановить данные в случае отказа только одного диска, то есть при утере всего лишь одного блока чередования. В таком случае содержимое восстанавливается как сумма по модулю 2 оставшихся блоков чередования и блока четности. Если при утере первого блока данных D1 его значение определяется как: D1 = P  D2  ...  Dn.
     Следующая проблема – выбор способа размещения избыточной информации на дисках массива. Все имеющиеся методы группируются  в два немаловажных класса:
     - акцентированное размещение избыточной информации только на нескольких дисках массива;
     - равномерное разделение избыточной информации по всем дискам.
     Равномерное распределение избыточной информации считается более предпочтительным, потому, что оно дает возможность распределять рабочую нагрузку более равномерно по всем дискам системы.
     Концепция распределения (чередования) данных по нескольким дискам впервые была предложена в 1986 году Салемом [5] и Кимом [1]. А в 1987 году коллективом исследователей под руководством Д. Паттерсона была представлена спецификация 5 разнообразных архитектур дисковых массивов [12], которые получили наименование RAID - Redundant Array of Inexpensive Disks (Массив Недорогих Дисков с Избыточностью). Дальнейшее сокращение RAID обрело вторую расшифровку, известную в настоящий период: Redundant Array of Independent Disks (Массив Независимых Дисков с Избыточностью).
     Выделяли три главных симптома RAID-массивов, которые отличали  их от обычного набора дисков (рисунок 2):
     - с точки зрения пользователя RAID-массив является целостным виртуальным диском большой емкости;
     - данные равномерно распределяются по дискам и обеспечивают одинаковую нагрузку на все диски массива;
     - кроме данных в массиве сохраняется дополнительная (избыточная) информация, которая дает возможность восстановления данных, когда откажет один либо несколько дисков.
     

Рисунок 2 - Концепция RAID
     
     Под распределением (либо, по-другому, чередованием) данных подразумевается размещение на разные диски массива блоков данных, имеющих последовательные адреса на виртуальном диске, каковым массив представляется вычислительной системе. Общая концепция RAID проиллюстрирована на рисунке 1. Когда осуществляется запись данных на дисковый массив, блок данных на логическом диске с адресом 1 размещается на 1 диск массива, с адресом 2 – соответственно на 2 диск массива и дальше, до достижения последнего диска, следующий блок данных заново размещается на 1 диск и т.д.
     Имеется несколько видов (именуемых также уровнями или архитектурами) RAID, которые отличаются между собой методом распределения данных и применения избыточной емкости.
     Дисковые массивы RAID обладают следующими важнейшими преимуществами в сравнении с простыми наборами дисков:
     1. Данные в дисковом массиве распределяются (“чередуются”) равномерно по многим дискам, на которых доступ к данным может быть осуществлен одновременно. Одновременная работа дисков дает возможность достичь высокоскоростной передачи данных при последовательном обращении к значительным объемам информации, потому, что в таком случае данные считаются синхронно с нескольких дисков. При обращении к незначительным блокам данных высокая скорость обработки за.......................
Для получения полной версии работы нажмите на кнопку "Узнать цену"
Узнать цену
Каталог работ
Похожие работы: