Дедупликация данных и твердотельные накопители: два отличных вкуса, которые прекрасно сочетаются друг с другом

Дедупликация данных и твердотельные накопители: два отличных вкуса, которые прекрасно сочетаются друг с другом
Дедупликация данных и твердотельные накопители: два отличных вкуса, которые прекрасно сочетаются друг с другом

Даже для самого случайного наблюдателя неудивительно, что дедупликация данных и твердотельные накопители были самыми важными технологиями хранения в последние несколько лет. Однако до недавнего времени они применялись к очень разным задачам. История твердотельных хранилищ была связана с производительностью, но дедупликация данных, хотя и начала проникать в первичное хранилище, была связана с эффективностью и в основном относилась к вторичным системам хранения.

Даже для самого случайного наблюдателя неудивительно, что дедупликация данных и твердотельные диски были - наряду, разумеется, со всем облачным - наиболее важными технологиями хранения данных в течение последних нескольких лет. Однако до недавнего времени они применялись к очень разным задачам. История твердотельных хранилищ была связана с производительностью, но дедупликация данных, хотя и начала проникать в первичное хранилище, была связана с эффективностью и в основном относилась к вторичным системам хранения.

Оказывается, что, как шоколад и арахисовое масло, дедупликация данных и твердотельные накопители объединяются для создания целого, большего, чем сумма его частей. Большинство стальных специалистов по хранению данных неохотно внедряют дедупликацию данных - или сжатие, если на то пошло - в своих основных системах хранения, опасаясь, что эти методы сокращения данных лишат их необходимой производительности. Твердотельные диски дороги из расчета доллар за гигабайт, но дешевы из расчета доллар за IOPS. И если сокращение объема данных может сжать больше данных на одних и тех же твердотельных накопителях, но при этом лишь умеренно снизить производительность, возможно, стоит пойти на компромисс.

Дело в том, что встроенная дедупликация добавляет некоторую небольшую задержку к записи на диск, поскольку система разбивает, хеширует и проверяет, являются ли данные, с которыми она имеет дело, дубликатами или нет. Как может сказать вам любой, кто когда-либо восстанавливал данные из хранилища дедуплицированных данных, это также может повлиять на производительность чтения, поскольку данные, которые логически записываются в систему последовательно, повторно собираются или, как это иногда ошибочно называют, «регидратируются» из записанных фрагментов. через хранилище данных.

Если мы будем хранить дедуплицированные данные в массиве твердотельных дисков, а не на вращающихся дисках, проблема с производительностью чтения исчезнет. Это связано с тем, что твердотельные накопители могут отвечать на запросы ввода-вывода произвольного чтения так же быстро, как и на последовательные операции ввода-вывода. Правда, дедупликация и / или сжатие данных может привести к задержке записи от 500 мс до 1 мс, но, поскольку типичный твердотельный накопитель коммерческого или корпоративного уровня имеет задержку записи менее 3 мс, это все еще меньше 5 мс или около того, типичных для 15 000 об / мин. водить машину.

Твердотельные накопители среднего уровня на базе многоуровневых ячеек (MLC), такие как Micron P400e или Intel 510, могут обеспечить 8 000 операций ввода-вывода в секунду с разрешением 4K. Таким образом, массив из 20 таких дисков с использованием RAID 10 обеспечит около 80 000 операций ввода-вывода в секунду. Если бы наш механизм дедупликации замедлил их хотя бы на 15%, массив все равно обеспечил бы 68 000 операций ввода-вывода в секунду, или эквивалент 340 вращающихся дисков со скоростью 15 000 об / мин.

Тогда есть вопрос о выносливости письма. Основное беспокойство большинства администраторов по поводу флэш-накопителей MLC заключается в том, что каждую страницу флэш-памяти можно стереть и перезаписать не более 3 000-5 000 раз. Дедупликация данных сокращает объем данных, которые необходимо записать на флэш-память, что продлевает срок ее службы. В сочетании с выравниванием износа в масштабе всего массива и структурами данных на основе журналов, которые ограничивают запись полными страницами, дедупликация может сократить количество циклов стирания-перезаписи, тем самым продлив срок службы SSD.

Производители, включая Nimbus Data, Pure Storage и Solidfire, включили дедупликацию во все свои твердотельные массивы. Некоторые из этих поставщиков рекламируют стоимость своей системы в долларах за гигабайт, предполагая некоторый уровень дедупликации, в то время как другие настаивают на том, что практика вводит в заблуждение. В любом случае для меня имеет смысл комбинировать дедупликацию с твердотельным хранилищем.