Объединяя данные из различных нетрадиционных источников, исследовательская группа во главе с компьютерными эпидемиологами из Бостонской детской больницы разработала прогностические модели гриппоподобной активности, которые обеспечивают надежные оценки в реальном времени (так называемые «текущие прогнозы»). ) активности гриппа и точные прогнозы уровней гриппоподобных заболеваний на срок до трех недель в будущем. Выводы группы, опубликованные в журнале PLoS Computational Biology, показывают, что их подход, называемый ансамблевым моделированием, приводит к более надежным прогнозам, чем прогнозы, полученные только из какого-либо одного источника данных, и которые в режиме реального времени конкурируют с точностью ретроспективных данных CDC. сообщения о гриппе.
«В течение многих лет мы сосредоточились на использовании отдельных источников данных для отслеживания ряда заболеваний», - сказал старший автор исследования Джон Браунштейн, доктор философии, директор по инновациям Boston Children и соучредитель сайта отслеживания заболеваний He althMap.. «Это представляет собой следующий логический шаг - объединение данных новым способом, когда целое более ценно, чем сумма его частей.
«Прогнозирование погоды является устоявшейся дисциплиной и прочно укоренилось в обществе», - добавил он. «Мы думаем, что пришло время сделать то же самое с прогнозированием заболеваний».
В то время как CDC внимательно следит за активностью сезонных гриппоподобных заболеваний в США. S., отчеты о данных, которые он генерирует и распространяет среди клиницистов и органов общественного здравоохранения, исторически устаревают на одну-две недели. Поскольку точные прогнозы могут помочь больницам и системам здравоохранения в распределении ресурсов для лечения гриппа, многие группы пытались создать модели, которые могли бы предоставлять точные снимки текущей активности гриппа в режиме реального времени и прогнозы надвигающейся активности гриппа. Вероятно, самой известной из этих попыток является Google Flu Trends (GFT), запущенный в 2008 году, но свернутый в 2015 году.
«Существует множество источников данных и моделей, которые можно использовать для прогнозирования гриппоподобных симптомов у населения», - сказал ведущий автор исследования Маурисио Сантильяна, доктор философии, из Бостонской программы вычислительной информатики для детей и Гарвардского университета имени Джона А. Школа инженерии и прикладных наук Полсона. «Но наш вопрос заключался в том, что если у нас есть много моделей, каждая из которых предсказывает активность гриппа, получим ли мы что-нибудь, объединив их?»
Команда Сантильяны и Браунштейна начала с четырех отдельных современных моделей активности гриппоподобных заболеваний, каждая из которых получала агрегированные анонимные данные национального уровня из одного из четырех источников: а) данные поиска из Google; б) данные Твиттера; c) практически в реальном времени клинические данные от менеджера электронной медицинской карты (EHR) athenahe alth; и d) краудсорсинговые данные о гриппе от Flu Near You, системы совместного эпиднадзора, разработанной He althMap. В подходе, аналогичном тому, который используется синоптиками для прогнозирования траекторий ураганов, команда затем использовала методы машинного обучения для создания набора «ансамблевых» моделей, которые включали результаты, полученные другими четырьмя моделями с одним источником.
Чтобы определить точность и надежность своих ансамблевых моделей, команда Сантильяны и Бранштейна сравнила свои результаты с результатами каждой из четырех моделей источников в реальном времени, а также с историческими отчетами о гриппоподобных заболеваниях CDC и на основе GFT. текущие данные сезонов гриппа 2013-14 и 2014-15 годов. Ансамблевые модели не только превзошли свои четыре модели источников в реальном времени, но и по сравнению с историческими отчетами CDC о гриппоподобных заболеваниях давали более точные прогнозы как времени, так и величины активности гриппоподобных заболеваний на каждом измеренном временном горизонте («эта неделя", "на следующей неделе", "через две недели"), чем модели, основанные только на исторической информации.
Ансамблевые прогнозы также точно отслеживали отчеты CDC о фактической активности гриппа с почти идеальной корреляцией (корреляция Пирсона 0,99) для оценок в реальном времени и немного меньшей корреляцией (корреляция Пирсона 0,90) на двухнедельном временном горизонте.
Таким образом, указывает Сантильяна, ответ на его вопрос положительный. «Если мы объединим несколько источников данных, мы получим более надежный, надежный и точный прогноз активности гриппа».
Одним из ключей к успеху модели, добавил он, является включение данных социальных сетей и электронных медицинских карт. «Люди иногда задаются вопросом, действительно ли ценна информация, которую мы получаем из социальных сетей или электронных медицинских карт, и можем ли мы построить модели на основе исторических данных. Но мы обнаружили, что источники данных, к которым у нас был доступ, предоставили нам информацию, которая была лучше, чем просто смотреть на исторические закономерности."
Исследовательская группа надеется увеличить географическое разрешение моделей - сейчас они только предсказывают активность гриппа в национальном масштабе - а также расширить возможности моделей для отслеживания других заболеваний, когда доступно несколько источников данных (например,, денге) и активность болезни в других странах. Они также надеются создать общедоступный инструмент прогнозирования гриппа на основе своих моделей.
О чем годами мечтали специалисты в области информатики, медицины и общественного здравоохранения? Способность использовать все возможности. С таким подходом мы думаем, что сделали большой шаг в этом направлении. Наша задача сейчас - увидеть если мы сможем усовершенствовать и расширить его и применить таким образом, чтобы принести пользу как можно большему количеству людей».