Что такое система хранения данных и какие проблемы она решает
Носителями информации в СХД являются жесткие диски — обычные HDD и/или твердотельные SSD-накопители. В статье мы объясним принцип работы систем хранения данных и расскажем, на что обращать внимание при их выборе.
Классическая система хранения данных включает в себя следующие компоненты: дисковый массив из HDD/SSD-накопителей, встроенный контроллер (куда входят процессор, кэш-память, интерфейсы для коммутации с дисками и внешними портами), несколько блоков питания и защитный корпус. Чаще всего СХД монтируют в стандартный 19-дюймовый шкаф.
Основным отличием такой системы от просто жестких дисков считается ее высокая производительность. Она имеет более сложную архитектуру, но благодаря специальному ПО работает намного быстрее.
СХД могут быть трех типов: файловыми, блочными и объектными. Такая классификация основана на уровнях хранения информации. Каждая из разновидностей также определяет, в каком виде хранятся данные и как к ним осуществляется доступ. В результате это помогает оценить, насколько просто управлять системой и насколько быстро она откликается на запрос.
В хранилищах этого типа данные имеют вид файлов, которые собраны в каталоги/папки. Все они организуются с помощью подробных метаданных, указывающих, где расположен определенный файл. Извлекается информация благодаря им же. Как правило, файловая СХД используется для хранения «холодных» данных, т. е. информации, не требующей операционных вычислений. Файлы зависят друг от друга, поскольку составляют иерархическую структуру. По этой причине при росте объема хранимой информации скорость работы системы заметно снижается: иерархия усложняется, путь к определенному файлу занимает все больше времени и ресурсов, отклик становится медленнее.
В такой системе информация делится на отдельные самостоятельные блоки, каждый из которых обладает собственным идентификатором. Он позволяет СХД размещать данные в любой части дискового пространства и быстро находить их при необходимости. Блочное хранилище применяется как жесткий диск: его можно форматировать, устанавливать на него операционную систему, создавать виртуальные диски.
Использовать блочную систему сложнее в плане настройки и обслуживания, но она отлично подходит для выполнения высокопроизводительных вычислений, хранения больших баз данных, развертывания сред разработки/тестирования.
Хранилища объектного типа по структуре схожи с БД: файлы разделяются на «объекты», которые хранятся в едином пространстве в сгруппированном виде и классифицируются по уникальным идентификаторам и метаданным. Подобные СХД предназначены для работы с огромными массивами неструктурированных данных. Они применяются в машинном обучении, big data, аналитике, облачных технологиях, позволяют хранить объемные мультимедийные файлы, создавать бэкапы и организовывать хостинг. Функционирует такая система немного медленнее блочной.
Существующие на рынке решения для систем хранения данных отражают цепочку связей между приложениями, которые используют информацию, и устройствами-носителями этой информации. В современных СХД эта цепь состоит из трех звеньев: создания RAID-массивов, обработки метаданных (позволяет интерпретировать биты в файлы и записи) и предоставления данных приложению. Места и способы реализации этих звеньев в СХД меняются в зависимости от используемых аппаратных средств, ПО и протоколов. Всего выделяют три варианта топологий систем хранения. О каждом расскажем подробнее.
Network Attached Storage (NAS) — это, условно, хранилище, подключенное к сети. Оно представляет собой отдельно стоящую дисковую систему, которая интегрирована в локальную сеть. Как правило, это высокопроизводительный сервер с собственной ОС, поэтому все вышеперечисленные процессы-звенья происходят внутри него. Он обрабатывает данные на уровне файлов и работает с протоколами NFS/CIFS. NAS дает одновременный доступ к хранимой информации всем пользователям, а кроме того, его можно безболезненно расширять и изменять, подключая виртуальные машины, дисковые станции и другие серверы. Подходит для работы с файлами, к которым требуется коллективный доступ.
Direct Attached Storage (DAS) переводится как хранилище с прямым подключением. Такая СХД подключается к серверу по тому же принципу, что условная флэш-карта к персональному компьютеру. В этом случае она выполняет только одно из звеньев, а именно предоставляет данные. Остальные процессы происходят на стороне сервера. Пользователи подключаются к хранилищу через него. В итоге клиенты имеют файловый доступ, а сам сервер — блочный.
Особенности архитектуры DAS-системы обеспечивают простоту ее развертывания и управления, но требуют выделенного хоста и ограничивают возможности расширения, поскольку количество возможных подключений зависит от количество имеющихся портов.
Storage Area Networks (SAN) — это сети хранения данных. Такое хранилище можно назвать промежуточным вариантом между двумя предыдущими. Здесь СХД отвечает за обеспечение RAID и предоставление данных, но метаданными по-прежнему занимается сервер. SAN предназначена для использования хранилищ разных типов (от обычных дисков до ленточных библиотек), которые ОС воспринимает как один сетевой логический диск. Это целая инфраструктура, объединенная оптическими каналами связи. В системе применяются FC и iSCSI протоколы, для нее характерен блочный тип хранения.
Прежде чем выбирать определенный тип хранилища, стоит определить, для чего предназначена система хранения данных конкретно в вашем случае. Какие задачи она будет решать, какая информация будет на ней храниться и насколько она важна? Эти и другие критерии необходимо учесть заранее. Мы рекомендуем в первую очередь обратить внимание на следующие параметры.
Во-первых, нужно ориентироваться на тип данных. Большие медиафайлы, рабочая документация, неструктурированный массив для обработки нейросетью или любые другие данные будут требовать от СХД соответствующих технологий обработки, компрессии, скорости доступа и т. п. Система для хранения корпоративной информации в компании будет отличаться от системы, работающей в области машинного обучения.
Во-вторых, важную роль играет объем информации, которую вы собираетесь хранить и обрабатывать. Он влияет на выбор дисковых накопителей (будет ли вам достаточно потребительских SSD на 300 ГБ или понадобятся устройства с бОльшей емкостью?), а также — на выбор архитектурного решения, поскольку возможности масштабирования в них отличаются.
Также необходимо оценить важность самих данных, установить цену их потери за определенный промежуток времени. Чем выше эта стоимость, тем более надежную СХД нужно выбирать. Кроме того, этот шаг позволит рассчитать показатели точки и времени восстановления (RPO и RTO) данных, т. е. узнать допустимые для бизнеса пределы по объему и продолжительности сбоев
Если у вас есть готовый проект, под который нужно подобрать СХД, определить необходимый уровень производительности несложно. Если же система закупается под новый проект, оценить его нагрузку будет труднее. В этом случае рекомендуется провести предварительный тест СХД или хотя бы поговорить с коллегами/поставщиками, которые уже решали схожие задачи.
Подобрать качественного поставщика — не менее важная задача. Главное — найти вариант, который будет удовлетворять ваши потребности по функционалу, надежности, удобству и цене. Иногда даже для сложных и высоконагруженных проектов подходят бюджетные решения. Но у лидирующих производителей, разумеется, и качество и будет выше.
Системой хранения данных называют программно-аппаратный комплекс, назначение которого заключается в хранении и оперативной обработке цифровых данных. Они различаются по архитектуре и функциональным возможностям. Теперь вы знаете, для чего они предназначены и как выбрать подходящую. Надеемся, наша статья была для вас полезной.
Автор: ЕвробайтПоделиться
Как и любое программное обеспечение, сайты подвержены угрозе взлома, утечки данных или других неправомерных действий со стороны злоумышленников.
Брандмауэр — это программа или программно-аппаратное решение, которые фильтруют входящий и исходящий сетевой трафик.
Технология виртуализации (virtualization technology, VT) является важным критерием выбора VPS/VDS. От нее зависят функциональность серверов, запущенных внутри хоста, и возможности управления ими.
On our site you can pay
for services with cryptocurrency
Надёжные VPS серверы с посуточной оплатой в России и Европе.
От 10 ₽ в день!
Арендовать виртуальный сервер