От молекул к Млечному Пути: как справиться с потоком данных

От молекул к Млечному Пути: как справиться с потоком данных
От молекул к Млечному Пути: как справиться с потоком данных

У большинства людей на ПК хранится несколько гигабайт файлов. Ожидается, что в следующем десятилетии астрономы будут обрабатывать 10 миллионов гигабайт данных каждый час с телескопа Square Kilometer Array.

А с удешевлением секвенирования ДНК ученые будут собирать данные, возможно, из сотен тысяч личных баз данных генома человека, каждая из которых имеет размер 50 гигабайт.

CSIRO имеет новую исследовательскую программу, направленную на то, чтобы помочь науке и бизнесу справиться с массой данных из таких областей, как астрономия, секвенирование генов, наблюдение, анализ изображений и моделирование климата.

Исследовательская программа, которая началась в этом году, называется «Terabyte Science» и названа в честь наборов данных, размер которых начинается с терабайтов (тысяч гигабайт), которые сейчас являются обычным явлением.

«CSIRO признает, что для того, чтобы его наука была конкурентоспособной на международном уровне, организация должна иметь возможность анализировать большие объемы сложных, даже периодически доступных данных из широкого круга научных областей», - говорит руководитель программы, доктор Джон Тейлор из CSIRO Mathematical and Information Sciences.

Одним из аспектов проблемы является то, что методы, работающие с небольшими наборами данных, не обязательно работают с большими.

Целью программы является разработка совершенно новых математических подходов и процессов для ученых в различных дисциплинах для продолжения их исследований и повышения позиции Австралии как мирового научного лидера.

«Большие и сложные данные появляются почти повсеместно в науке и промышленности, и они будут сдерживать австралийские исследования и бизнес, если с ними не справиться своевременно», - говорит доктор Тейлор.

Такие страны, как США, также осознают проблемы, в чем доктор Тейлор убедился воочию за десять лет работы в лабораториях. «Для этого потребуются серьезные разработки в компьютерной инфраструктуре и вычислительных инструментах. В нем участвуют ИТ-специалисты, математики и статистики, технологи изображений и другие специалисты со всего CSIRO, которые будут работать вместе очень целенаправленно», - говорит он..

После сентябрьского семинара были определены конкретные области исследований, и проекты развиваются в области передового производства, высокопроизводительного анализа изображений, моделирования биогеохимических циклов океана, анализа ситуации и моделирования окружающей среды.