Объявление EMC о FASTcache и sub-LUN FAST, функции, ранее известной как FAST 2.0, заставило меня еще раз задуматься о том, как получить максимальную отдачу за большие деньги, которые вам будут стоить флэш-память. Вся идея автоматического многоуровневого хранения предполагает перемещение горячих данных во флэш-память, оставляя менее часто используемые холодные данные на вращающихся дисках. Мой вопрос: как определить, какие данные самые популярные?
Объявление EMC о FASTcache и sub-LUN FAST, функции, ранее известной как FAST 2.0, заставило меня еще раз задуматься о том, как получить максимальную отдачу за большие деньги, которые вам будут стоить флэш-память. Вся идея автоматического многоуровневого хранения предполагает перемещение горячих данных во флэш-память, оставляя менее часто используемые холодные данные на вращающихся дисках. Мой вопрос: как определить, какие данные самые популярные?
Ясно автоматизированное многоуровневое хранение требует, чтобы система хранения собирала некоторую статистику по частоте доступа. Самый простой способ - сохранить подсчеты IOP / день за несколько дней или скользящее среднее IOP / час для каждого блока данных. Затем администратор может создать политику, которая для выбранных томов перемещает блоки с более высокими счетчиками доступа на уровень флэш-памяти, а более холодные - на уровень мусора для дисков SAS большой емкости.
Средние температуры - это нормально, но любой, кто был в лагере в горах, знает, что средняя температура не говорит достаточно о погоде, чтобы знать, как одеваться. Даже если средняя температура для данного дня составляет 70 градусов, она может быть 70 градусов в течение всего дня или 50 градусов в 7 утра и 90 градусов в 16 часов. Точно так же некоторые рабочие нагрузки могут быть настолько скачкообразными, что они время от времени генерируют много операций ввода-вывода в минуту, но их недостаточно в течение всего дня, чтобы быть в горячих 5-10 процентах, которые мы можем позволить себе использовать во флэш-памяти. Перемещение блоков под углом 90 градусов во флэш-память может иметь большее влияние на производительность и стоимость приложения, чем перемещение данных, что является метафорическим эквивалентом дня в Гонолулу, где круглый день 74-85 градусов. Тогда есть периодические нагрузки. Такие вещи, как еженедельное построение куба хранилища данных, обработка на конец месяца, регистрация класса и тому подобное, можно предсказать. Когда процесс многоуровневого выполнения выполняется в пятницу вечером или в последний день месяца, я могу указать ему использовать метаданные доступа с прошлой субботы, когда загружалось хранилище данных, или в конце прошлого месяца.
Наконец, мы должны учитывать размеры блоков. Хранение метаданных доступа для каждого адресуемого блока в системе быстро истощит ЦП массива и потребует достаточно места, чтобы пользователи заметили, что они получают на 5-15 процентов меньше, чем раньше. Большие блоки упрощают многоуровневое хранение, но они также перетаскивают более холодные данные вместе с горячими данными, снижая их эффективность. Поставщики еще не много говорили о размере блока при многоуровневом распределении, но я полагаю, что большинство из них используют блоки размером 64-4 МБ, которые совпадают с полосами RAID.
Кэширование все время кажется проще, не так ли?