Восстановление данных: модель нейронной сети находит мелкие объекты на плотных изображениях

Восстановление данных: модель нейронной сети находит мелкие объекты на плотных изображениях
Восстановление данных: модель нейронной сети находит мелкие объекты на плотных изображениях

Стремясь автоматически фиксировать важные данные из научных статей, ученые-компьютерщики из Национального института стандартов и технологий (NIST) разработали метод, который может точно обнаруживать небольшие геометрические объекты, такие как треугольники, в плотных некачественных изображениях. графики, содержащиеся в данных изображения. Используя подход нейронной сети, предназначенный для обнаружения закономерностей, модель NIST имеет множество возможных применений в современной жизни.

Модель нейронной сети NIST зафиксировала 97% объектов в определенном наборе тестовых изображений, определяя центры объектов с точностью до нескольких пикселей от выбранных вручную местоположений.

«Цель проекта состояла в том, чтобы восстановить потерянные данные в журнальных статьях», - объяснила специалист по информатике NIST Адель Пескин. «Но исследование обнаружения небольших плотных объектов имеет множество других применений. Обнаружение объектов используется в широком спектре анализов изображений, беспилотных автомобилей, осмотров машин и т. д., для которых особенно трудно найти маленькие плотные объекты. найти и отделить."

Исследователи взяли данные из журнальных статей начала 1900-х годов из базы данных свойств металлов в Исследовательском центре термодинамики NIST (TRC). Часто результаты представлялись только в графическом формате, иногда нарисованном от руки и искаженном путем сканирования или фотокопирования. Исследователи хотели извлечь расположение точек данных, чтобы восстановить исходные необработанные данные для дополнительного анализа. До сих пор такие данные извлекались вручную.

Изображения представляют точки данных с различными маркерами, в основном кругами, треугольниками и квадратами, как заполненными, так и открытыми, разного размера и четкости. Такие геометрические маркеры часто используются для маркировки данных на научном графике. Текст, числа и другие символы, которые могут ложно показаться точками данных, были вручную удалены из подмножества рисунков с помощью графического редактора перед обучением нейронных сетей.

Точное обнаружение и локализация маркеров данных было сложной задачей по нескольким причинам. Маркеры непостоянны по четкости и точной форме; они могут быть открытыми или заполненными, а иногда нечеткими или искаженными. Например, некоторые круги кажутся очень круглыми, в то время как другим не хватает пикселей, чтобы полностью определить их форму. Кроме того, многие изображения содержат очень плотные участки перекрывающихся кругов, квадратов и треугольников.

Исследователи стремились создать сетевую модель, которая идентифицировала точки сюжета не менее точно, чем ручное обнаружение - в пределах 5 пикселей от фактического местоположения на участке размером в несколько тысяч пикселей на каждую сторону.

Как описано в новой журнальной статье, исследователи NIST приняли сетевую архитектуру, первоначально разработанную немецкими исследователями для анализа биомедицинских изображений, которая называется U-Net. Сначала размеры изображения сокращаются для уменьшения пространственной информации, а затем добавляются слои информации о функциях и контексте для получения точных результатов с высоким разрешением.

Чтобы научить сеть классифицировать формы маркеров и находить их центры, исследователи экспериментировали с четырьмя способами маркировки обучающих данных с помощью масок, используя разметку центра и контуры разного размера для каждого геометрического объекта.

Исследователи обнаружили, что добавление к маскам дополнительной информации, например, более толстых контуров, повысило точность классификации форм объектов, но снизило точность определения их местоположения на графиках. В конце концов, исследователи объединили лучшие аспекты нескольких моделей, чтобы получить наилучшую классификацию и наименьшие ошибки определения местоположения. Изменение масок оказалось лучшим способом улучшить производительность сети, более эффективным, чем другие подходы, такие как небольшие изменения в конце сети.

Наилучшая производительность сети - точность 97% в расположении центров объектов - была возможна только для подмножества изображений, в которых точки графика изначально были представлены очень четкими кругами, треугольниками и квадратами. Производительность достаточна для TRC, чтобы использовать нейронную сеть для восстановления данных из графиков в новых журнальных статьях.

Хотя у исследователей NIST в настоящее время нет планов дальнейших исследований, модель нейронной сети «абсолютно» может быть применена к другим задачам анализа изображений, сказал Пескин.