Неперехваченное исключение

Ошибка (databaseException): Enable backtrace for debug.

Поддержка пользователей UMI.CMS
www.umi-cms.ru/support

Опрос

Плохая наука

Почему самые громкие психологические исследования оказались неверными

Существуют «сильные позы», которые делают увереннее в себе и снижают уровень гормонов стресса. Когда люди держат в руках чашку с теплым напитком, они становятся доброжелательнее к окружающим. Сила воли — это ресурс, который мы тратим, когда удерживаемся от соблазнов. Способность откладывать вознаграждение определяет успех ребенка в будущем.

Эти утверждения во многом похожи друг на друга: за ними стоят широко известные психологические исследования, научно-популярные бестселлеры, колонки в популярных журналах и выступления на TED-конференциях.

У них есть и еще одно общее качество: все они оказались неверными.

Кризис воспроизводимости поставил под сомнение целые области науки. Многие результаты, которые широко цитировались в СМИ, теперь считаются преувеличенными или ложными. Когда ученые попытались воспроизвести классические и недавние психологические эксперименты, результаты оказались на удивление постоянными: примерно в половине случаев — успех, в другой половине — неудача.

Кризис окончательно стал очевидным в 2015 году, когда ученые под руководством Брайана Нозека проверили 100 психологических исследований. Исходных результатов они смогли добиться лишь в 36 случаях. Главный редактор журнала The Lancet Ричард Хортон вскоре констатировал:

«Обвинения в адрес науки вполне прямолинейны: по крайней мере половина научной литературы просто неверна. Страдая от исследований с малым размером выборки, мизерным эффектом и неверными анализами, а также от одержимости модными трендами сомнительной важности, наука совершила поворот в сторону невежества».

Воспроизводимость — одно из ключевых требований к научному знанию. Чем лучше результат воспроизводится, тем он надежнее — только так можно отделить реальные закономерности от простых совпадений.
Но оказалось, что это требование выполняется далеко не всегда.

Кризис начался с медицины, но больше всего затронул психологию. Летом 2018 года ученые попытались воспроизвести подборку психологических исследований, опубликованных в Science и Nature — самых престижных общемировых научных журналах. Из 21 эксперимента подтвердились только 13 — и даже в этих случаях оригинальные результаты оказались преувеличенными примерно на 50 %.

Часто проверку на воспроизводимость проваливают те исследования, которые широко тиражировались в СМИ и успели повлиять на общественное сознание. Например, работы о том, что поисковые системы ухудшают память, а чтение художественных произведений развивает способность к сопереживанию. Если повторные эксперименты терпят неудачу, это еще не означает, что исходные гипотезы ничего не стоят. Но чтобы их доказать, теперь нужны более качественные исследования.

***
Как предвидеть будущее с помощью статистики

В 2011 году известный американский психолог Дэрил Бем опубликовал статью, которая доказывала возможность ясновидения. Этот вывод не был порождением его бурной фантазии, а базировался на десятилетних исследованиях, в которых участвовали сотни человек. Многие заподозрили, что Бем решил устроить что-то вроде аферы Сокала и разоблачить психологию поддельной статьей с заведомо абсурдными выводами. Но по всем методологическим стандартам статья была очень убедительной.

В одном из экспериментов Бема перед участниками ставили две ширмы — им нужно было угадать, за какой спрятано изображение. Картинка генерировалась случайным образом сразу после осуществления выбора. Если бы участники хорошо справились с заданием, это указывало бы, что они каким-то образом могут предчувствовать будущее. В эксперименте использовались изображения двух видов: нейтральные и порнографические.

Бем предположил: если шестое чувство существует, наверняка оно имеет древнее эволюционное происхождение. А если так, то более вероятно, что оно настроено на наши самые древние потребности и побуждения.

Участники угадывали порнографические изображения в 53 % случаев — несколько чаще, чем следовало бы, если бы их выбор объяснялся чистой случайностью. Учитывая большое количество опытов, Бем мог заявить, что предвидение существует.

Позднее эксперты обнаружили, что при анализе результатов он использовал не совсем корректные приемы. Как правило, результат исследования признают надежным, если вероятность того, что он был получен случайно, не превышает 5 %. Но существует много способов снизить эту величину до нужного уровня: изменить исходные параметры анализа, добавить в выборку или изъять из нее нужное количество примеров, использовать более удачные гипотезы после сбора данных.

Проблема в том, что такие же приемы использовал не только Бем, но и многие другие ученые. Согласно опросу 2011 года, в этом призналась почти половина психологов.

Когда вышла статья о ясновидении, специалисты в области общественных наук Джозеф Симмонс, Лиф Нельсон и Ури Симонсон поняли, что наука движется к собственному краху. Они построили несколько компьютерных моделей и выяснили, что с помощью вполне стандартных статистических приемов можно повысить уровень ложно-положительных результатов в несколько раз. Это значит, что методы, которые формально являются научными, могут легко привести к совершенно абсурдным выводам.

Чтобы это проиллюстрировать, ученые провели эксперимент, который подтвердил, что прослушивание песни “When I’m Sixty-four” делает слушателя на полтора года моложе.

«Все знали, что использовать такие приемы неправильно, но думали, что это нарушение по своей значимости — примерно как перейти дорогу в неположенном месте. Оказалось, что оно больше похоже на ограбление банка», — подытожил Симмонс.

***

Как отличить плохое исследование от хорошего

Вскоре стало понятно, что проблемы воспроизводимости затрагивают далеко не только психологию. В исследованиях рака научные данные подтверждаются в 10–25 % случаев. В экономике не смогли реплицировать 7 из 18 лабораторных экспериментов. В исследованиях искусственного интеллекта тоже есть признаки кризиса.

Но терять веру в науку, кажется, все-таки не стоит. Ученые уже придумали несколько способов, которые сильно повысили надежность и качество новых исследований.

Несколько лет назад почти никто не публиковал результаты повторных экспериментов, даже если они проводились. Это было не принято, не приносило грантов и не способствовало успешной научной карьере. Согласно опросу Nature, более 70 % ученых-психологов пытались и не смогли воспроизвести чужие исследования, около половины не смогли повторить собственные, и почти никто не стремился предать эти результаты огласке.

Когда кризис воспроизводимости вышел на поверхность, многое изменилось. Повторные исследования постепенно стали обычным делом; данные экспериментов начали всё чаще выкладывать в открытый доступ; журналы принялись публиковать отрицательные результаты и регистрировать общий план исследований еще перед началом их проведения.

Исследования стали более масштабными — выборка 30–40 человек, которая в психологии была вполне стандартной, теперь мало кого устраивает. Крупные международные организации — такие как Psychological Science Accelerator — тестируют одни и те же гипотезы сразу в нескольких лабораториях по всему миру.

Перед проверкой статей из Nature и Science, о которой мы писали в начале, ученым предложили сделать ставки на тотализаторе. Они должны были предсказать, какое исследование успешно пройдет проверку, а какое провалится. В целом ставки были очень точными. «Это означает, во-первых, что научное сообщество может прогнозировать, какие работы удастся повторить, и, во-вторых, что невозможность воспроизвести исследование не была простой случайностью», — говорят организаторы эксперимента.

Ученые в целом неплохо умеют отличать надежные исследования от ненадежных — это хорошие новости. Сейчас специалисты из Центра открытой науки совместно с агентством DARPA пытаются создать алгоритм, который будет выполнять ту же задачу без участия человека.

Каждый год выходит слишком много статей, чтобы можно было вручную перепроверить хотя бы малую часть из них. Если за дело возьмется искусственный интеллект, всё будет намного проще.

Уже в первых тестах ИИ успешно справился с предсказаниями в 80 % случаев.

Что чаще всего делает исследование ненадежным? Маленькие выборки, нестыковки в цифрах, слишком красивое подтверждение гипотез. А также — стремление к сенсациям и слишком простые ответы на сложные вопросы.

***

Слишком хорошо, чтобы быть правдой

Создавать сенсационные исследования проще всего с помощью обмана. Известный социальный психолог Дидерик Стапель использовал сфабрикованные данные в нескольких десятках научных статей. Исследования Стапеля с огромной скоростью разлетались по газетам и журналам, он получил несколько престижных научных премий, публиковался в Science и считался одним из самых крупных специалистов в своей сфере.

Однажды выяснилось, что Стапель долгое время вообще не проводил исследований, а просто выдумывал данные и отдавал их на анализ студентам.

В науке такое встречается очень редко. Гораздо чаще громкие, но неверные утверждения возникают по другим причинам. Люди отчаянно ищут простые, понятные и эффектные ответы на волнующие вопросы. Можно очень легко поддаться соблазну и решить, что эти ответы у тебя есть, даже если на самом деле это не так. Стремление к простоте и определенности — одна из главных причин, почему многие исследования не проходят проверку на воспроизводимость. Вот несколько известных примеров.

Зефирный эксперимент

В эксперименте детям предлагали выбрать между одним небольшим вознаграждением — например, зефиром, — которое можно получить немедленно, и двойной наградой, если они смогут немного подождать. Позднее оказалось, что дети, которые дождались второй награды, во взрослой жизни стали более успешными. Исследование стало очень популярным и повлияло на некоторые школьные программы.

В 2018 году эксперимент повторили на более широкой выборке. Оказалось, что достаток в семье — куда более важный фактор, от которого зависит в том числе и уровень самоконтроля.

«Позы силы» и «позы слабости»

Участники эксперимента на две минуты принимали одну из двух поз: откидывались в кресле и закидывали ноги на стол («поза силы») или скрещивали руки на груди («поза слабости»). В результате участники из первой группы чувствовали себя более уверенно и чаще соглашались рискнуть в азартной игре. У тех, кто сидел в сильной позе, повысился уровень тестостерона, а у тех, кто в слабой, — кортизола. В повторных экспериментах удалось воспроизвести только один эффект: «позы силы» помогли участникам чувствовать себя увереннее, но не изменили их поведение или гормональные показатели.

Ассоциации со старостью заставляют двигаться медленнее

Участников эксперимента просили решить несколько головоломок. Если в них были вставлены слова, которые ассоциируются со старостью — «забывчивый», «пожилой», «одинокий» — то участники выходили из комнаты более медленным шагом.

В последних испытаниях эксперимент успешно воспроизводился только в одном случае: если сами экспериментаторы знали, что в тестах участникам намекали на старость. Сам эффект сохранился, но причины уже были другими.

Теплые предметы делают доброжелательнее к окружающим

Участникам эксперимента на короткое время давали подержать чашку с горячим или холодным кофе, а затем просили оценить личность человека по короткому описанию. Участники, которые держали чашку с горячим кофе, оценивали человека как более располагающего к себе. В другом эксперименте участникам давали предмет в теплой или холодной упаковке, а затем предлагали оставить его себе или подарить другу. Если предмет был в теплой упаковке, участники чаще выбирали второй вариант. Повторные эксперименты с более широкой выборкой не дали таких результатов. Похоже, теплые вещи не сделают вас альтруистом.

Сила воли истощается, когда мы противостоим соблазнам

Перед участниками эксперимента ставили две тарелки — с печеньем и редисом. В первой группе участникам разрешили есть печенье, а во второй — только редис. Затем каждому участнику предложили решить невозможную головоломку. Участники, которым в первой части эксперимента ели только редис, сдавались значительно раньше других. В повторных экспериментах результаты не подтвердились.

В некоторых случаях способность к самоконтролю не истощалась, а даже усиливалась со временем. Многие психологи теперь считают понятие «сила воли» слишком упрощенным.

***

В мировой психологии уже многое сделано для того, чтобы сделать исследования более надежными и воспроизводимыми. В России эту проблему только предстоит осознать.

«В российской психологии проблемами кризиса в основном озабочена научная молодежь, которая во многом ориентируется на западную науку, — рассказал «Ножу» доцент РАНХиГС Иван Иванчей. — Контроль за качеством публикаций на русском языке в целом не очень высокий. Журналы редко отвергают статьи, поэтому публикуется много некачественных исследований. Часто используются небольшие выборки, что тоже снижает вероятность успешного воспроизведения. Есть подозрение, что, если серьезно заняться вопросом воспроизводимости русскоязычных работ, можно обнаружить много проблем. Но напрямую этим никто не занимается».

В январе 2019 года стало известно, что российское правительство собирается значительно расширить требования к ученым по количеству публикаций: минимум опубликованных за год статей должен вырасти на 30–50 %.

Ученые из влиятельного академического «Клуба 1 июля» раскритиковали инициативу: «Задача науки не в том, чтобы плодить максимальное число публикаций, а в том, чтобы исследовать мироздание и извлекать из полученного знания пользу для человечества». Скорее всего, новые требования только увеличат масштаб проблемы.

История про кризис воспроизводимости — это не история про грядущий апокалипсис и нашествие варваров. Если бы кризис не произошел, всё было бы гораздо хуже: мы до сих пор ссылались бы на ошибочные исследования в полной уверенности, что знаем правду. Возможно, время бойких заголовков в стиле «британские ученые доказали» подходит к концу. Но слухи о том, что наука умерла, следует считать несколько преувеличенными.