Как выглядит хорошее психологическое исследование?
«P-Hacking», «сбор вишен»: только те, кто распознает такой обман, могут правильно оценить ценность эмпирического исследования. Как неспециалисты могут отличить хорошие практики от плохих - руководство.
Около десяти лет назад психология попала в заголовки газет: были разоблачены подделки голландского социального психолога Дидерика Стапеля, а предполагаемые доказательства «предвидения» Дэрила Бема, своего рода сверхъестественного предчувствия, во многих случаях не могли быть подтверждены. В результате многочисленные другие попытки повторить классические исследования, «воспроизвести» их результаты потерпели неудачу. Так называемый кризис репликации коснулся и других субъектов. Одна из основных причин: плохая исследовательская практика. И они были широко распространены еще до двух скандалов, как ясно показали несколько влиятельных работ.
Это продвинуло вещи в психологии. С тех пор все больше и больше исследователей обходятся без сомнительных методов, таких как «p-hacking» или «сбор вишен», полагаясь вместо этого на «зарегистрированные отчеты» и «открытые данные». В следующем руководстве объясняется, что стоит за этими терминами. Он описывает хорошую науку в четырех действиях - от планирования до разработки и оценки до публикации.
1. Акт: Предварительная работа
Хорошая научная работа начинается с формулировки исследовательского вопроса. Ожидается первое решение: «подтверждающие» или «поисковые» исследования? Любой, кто действует подтверждающим образом, имеет гипотезу и хотел бы ее проверить, в лучшем случае: подтвердить (от латинского: confirmare=подтвердить). Исследовательская работа, с другой стороны, исследует неизвестные воды (explorare=исследовать) и впоследствии разрабатывает гипотезы на основе открытий, которые затем необходимо проверить в дальнейших исследованиях.
Решительный в разработке подтверждающих гипотез: сначала читайте литературу, затем выводите из нее гипотезы. Порядок имеет значение, потому что хорошо звучащая гипотеза быстро придумывается, и для ее обоснования тщательно отбирается соответствующая литература. При этом есть риск отодвинуть в сторону противоположные выводы. Хорошая гипотеза не обязательно должна соответствовать всей доступной литературе, но она должна полностью ее учитывать.
Все более популярным вариантом подтверждающей работы является воспроизведение чужих исследований. По какой причине? Каждый вывод изначально действителен только для места, времени и обстановки рассматриваемого исследования. Но чем чаще исследование повторяется с одним и тем же результатом, тем больше вероятность того, что оно действительно правильное и может быть перенесено в другие контексты.
И, наконец, вы можете обратить внимание на состав команды при планировании обучения: Если вам нужно программировать, вы приводите программиста. Если вам нужна более высокая статистика, ищите специалиста по статистике. В любом случае в моде междисциплинарная работа, масштабные проекты с глобальными опросами и создание совместных баз данных. Это может быть сложнее, чем онлайн-опросник со 100 участниками из семьи и друзей, но результаты более надежны.
2. Act: The Study Design
Если поставлен вопрос исследования, из него часто можно вывести приблизительную основу для дизайна исследования. Тем не менее, есть некоторые моменты, которые исследователи могут учитывать. Один из них: не собирать слишком много переменных без необходимости.
Вы можете, например, быстро добавить личностный опросник, тест IQ или, или, или. Но чем больше переменных, чем больше анализируются возможные эффекты и отношения, тем больше вероятность того, что один из них станет значимым по чистой случайности. Таким образом, исследователи увеличивают свои шансы на публикацию своей работы в научном журнале. Такой подход все же неверен, потому что предполагаемой связи на самом деле не существует. Суть в том, что такая случайная находка вредна для исследования, потому что она не обнаруживается снова в повторных исследованиях. Что мешает проблеме: собрать только те переменные, которые действительно необходимы для проверки гипотезы, или заранее указать, на какие переменные следует ориентироваться. В ретроспективе анализ многих переменных может быть статистически скорректирован, если это необходимо.
Анализ мощности показывает, сколько испытуемых необходимо, чтобы с наибольшей вероятностью проявился желаемый эффект - если он действительно существует
После того как переменные известны, следующий вопрос заключается в том, насколько большим должен быть эффект или взаимосвязь, чтобы они имели смысл на практике. Если предположить, что вопрос касается эффективности тренировки IQ: на сколько баллов должен подняться IQ? Как только минимальный эффект определен, так называемый анализ мощности указывает, сколько испытуемых требуется, чтобы желаемый эффект с наибольшей вероятностью проявился в данных - если он действительно существует.
Установка размера выборки таким образом также позволяет избежать искушения применить еще два плохих метода исследования, когда исследование уже началось. Первая ошибка: продолжайте проверять промежуточный статус и прекращайте исследование, как только данные покажут желаемый эффект, даже если предполагаемое количество испытуемых еще не достигнуто. Вторая ошибка: тестировать все больше и больше участников до тех пор, пока вы наконец не получите значимый результат, даже если запланированный объем выборки будет превышен.
От таких (и других) плохих практик также защищают два других способа: предварительная регистрация и «зарегистрированные отчеты». При предварительной регистрации исследователи загружают протокол своей разработки на общедоступную платформу предварительной регистрации. Он там «застыл», поэтому изменить его потом уже нельзя. Более поздние отклонения заметны и должны быть хорошо обоснованы.
Зарегистрированные отчеты делают еще один шаг вперед. Это формат, который предлагается все большим количеством журналов. Прежде чем данные будут собраны, исследователи отправляют свой план исследования, и журнал подвергает его первоначальной экспертной оценке, то есть оценке коллегами-специалистами. Они предлагают изменения, если считают, что дизайн не подходит для ответа на вопрос исследования. После того, как исследование будет проведено и статья будет написана, последует еще один раунд рецензирования. Затем журнал публикует исследование - вне зависимости от того, подтвердились ли ранее сформулированные гипотезы. Таким образом, «Зарегистрированные отчеты» смещают акцент с захватывающих результатов на методически хорошо проведенное исследование.
3. Акт: Оценка
Самая большая опасность заключается в р-взломе. Значение p указывает, является ли результат значимым, т.е. статистически значимым. Однако в нем ничего не говорится о том, является ли результат практически значимым. Отправной точкой является нулевая гипотеза, которая предполагает, что на самом деле никакого эффекта нет, например, нет различий между двумя группами. Предполагая эту нулевую гипотезу, как часто различия были бы больше, чем в доступных данных, если бы исследование повторялось до бесконечности одним и тем же образом? Если вероятность меньше 5 процентов, т. е. p меньше 0,05, результат обычно считается статистически значимым. Однако простое деление на значимые и незначимые результаты не соответствует действительности.
Чтобы опуститься ниже магической ценности, использовались всевозможные уловки, известные в профессиональном мире как p-hacking. Это включает в себя уже упомянутую преждевременную остановку и продление сбора данных. Другие методы: исключение «мешающих» предметов или изменение состава групп до тех пор, пока результат не совпадет, разумеется, с напускными, якобы вескими аргументами. В дополнение к p-hacking существует еще одна сомнительная исследовательская практика: HARKing, сокращенно от «выдвижения гипотез после того, как результаты известны».
Публикации, цитирование, финансирование исследований: все это зависит от вопроса, меньше ли p 0,05
На практике ПРЯМАНИЕ означает: исследователи формулируют свои гипотезы, собирают данные и определяют, что ранее предполагаемые эффекты не возникают, а другие происходят. Итак, они переписывают свою гипотезу, все сходится и ничего не мешает публикации. Это не этично. Исследовательские неожиданные находки, конечно, тоже чего-то стоят; они часто являются движущей силой научного прогресса. Но они также должны быть представлены как исследовательские, а затем подтверждены подтверждающим образом.
P-взлом - и, таким образом, одна из причин кризиса репликации - в основном коренится в том факте, что маленькое p так важно. Грубо говоря: публикации, цитируемость, финансирование исследований - все это зависит от того, меньше ли р 0,05. Пятипроцентный уровень значимости когда-то был установлен более или менее произвольно. Отход от p-значения обсуждался десятилетиями, но альтернативы распространяются медленно.
Возможные решения: сместите фокус с p-значения на размер эффекта, т.е. насколько велик эффект. Или, вместо предоставления одного значения p, укажите доверительный интервал для размера эффекта. Это можно использовать для указания точности предполагаемого эффекта, например, может ли тренировка IQ увеличить IQ на 5-6 баллов или на 1-10 баллов.
И последнее, но не менее важное: отсутствие результата - тоже результат. Однако значения р больше 0,05 недостаточно, чтобы сделать вывод об отсутствии различий между двумя группами или об отсутствии связи между двумя переменными. По мнению многих экспертов, эту нулевую гипотезу лучше проверить с помощью байесовской статистики. Научное сообщество все больше ценит это - все больше и больше журналов публикуют нулевые результаты или полагаются на новые методы анализа.
4. Акт: Релиз
При публикации прозрачность является самым большим преимуществом. В первую очередь это относится к данным, полученным в ходе исследования. Для этого они должны быть подготовлены в соответствии с принципом FAIR: FAIR расшифровывается как «находимый, доступный, интероперабельный, повторно используемый», т.е. находимый, доступный, связываемый и повторно используемый. Это нужно учитывать при планировании. Потому что для того, чтобы коллеги могли использовать данные, участники исследований должны заранее дать свое согласие.
Но не только полученные данные должны быть прозрачными. Авторы исследования должны столь же подробно сообщать о методах, методах расчета, противоречивых результатах, финансировании своей работы и любых конфликтах интересов. И все остальное, о чем стоит сообщить. Цель состоит в том, чтобы внешние исследователи имели всю информацию, необходимую им для точного воспроизведения настоящего исследования. Следует по возможности избегать так называемого «сбора вишен». Это означает выбор желаемых данных и результатов и сокрытие нежелательных.
После того, как все сделано и статья написана, последним шагом является отправка работы в рецензируемый журнал. Но какой? Вместо того, чтобы (только) учитывать важность журнала в научном сообществе, исследователи могут убедиться, что в журнале возможна публикация «Открытого доступа» - либо как «Золотой открытый доступ» (тогда вы за это платите), либо как « Зеленый открытый доступ» (тогда вы можете опубликовать статью дважды, например, на своем сайте). В обоих случаях исследование находится в свободном доступе для всех.