Ошибки первого и второго рода - Википедия

Ошибки первого рода ( type I errors, a errors, false positives ) и ошибки второго рода ( type II errors, b errors, false negatives ) в   это ключевые понятия задач проверки статистических гипотез. Тем не менее, данные понятия часто используются и в других областях, когда речь идёт о принятии «бинарного» решения (да/нет) на основе некоего критерия (теста, проверки, измерения), который с некоторой вероятностью может давать ложный результат. [ , и поставлена бинарная задача проверки статистических гипотез: H   , а H   . Предположим, что задан статистический критерий , одну из имеющихся гипотез. Тогда возможны следующие четыре ситуации: H , и она точно определена статистическим критерием, то есть . H , но она неверно отвергнута статистическим критерием, то есть . H , и она точно определена статистическим критерием, то есть . H , но она неверно отвергнута статистическим критерием, то есть . Во втором и четвертом случае говорят, что произошла статистическая ошибка, и её называют ошибкой первого и второго рода соответственно. [ Как видно из вышеприведённого определения, ошибки первого и второго рода являются взаимно-симметричными, то есть если поменять местами гипотезы H H , то ошибки первого рода превратятся в ошибки второго рода и наоборот. Тем не менее, в большинстве практических ситуаций путаницы не происходит, поскольку принято считать, что нулевая гипотеза H соответствует состоянию «по умолчанию» (естественному, наиболее ожидаемому положению вещей)  например, что обследумый человек здоров, или что проходящий через рамку металлодетектора пассажир не имеет запрещённых металлических предметов. Соответственно, альтернативная гипотеза H обозначает противоположную ситуацию, которая обычно трактуется как менее вероятная, неординарная, требующая какой-либо реакции. С учётом этого ошибку первого рода часто называют ложной тревогой , ложным срабатыванием  или срабатыванием например, анализ крови показал наличие заболевания, хотя на самом деле человек здоров, или металлодетектор выдал сигнал тревоги, сработав на металлическую пряжку ремня. Из-за возможности ложных срабатываний не удаётся полностью автоматизировать борьбу со многими видами угроз. Как правило, вероятность ложного срабатывания коррелирует с вероятностью пропуска события (ошибки второго рода). То есть, чем более чувствительна система, тем больше опасных событий она детектирует и, следовательно, предотвращает. Но при повышении чувствительности неизбежно вырастает и вероятность ложных срабатываний. Поэтому чересчур чувствительно (параноидально) настроенная система защиты может выродиться в свою противоположность и привести к тому, что побочный вред от неё будет превышать пользу. Соответственно, ошибку второго рода иногда называют пропуском события или срабатыванием   человек болен, но анализ крови этого не показал, или у пассажира имеется холодное оружие, но рамка металлодетектора его не обнаружила (например, из-за того, что чувствительность рамки отрегулирована на обнаружение только очень массивных металлических предметов). Степень чувствительности системы защиты должна представлять собой компромисс между вероятностью ошибок первого и второго рода. Где именно находится точка баланса, зависит от оценки рисков обоих видов ошибок. [ Вероятности ошибок ( Вероятность ошибки первого рода при проверке называют -errors). Вероятность ошибки второго рода не имеет какого-то особого общепринятого названия, на письме обозначается греческой буквой -errors). Однако с этой величиной тесно связана другая, имеющая большое статистическое значение  мощность критерия . Она вычисляется по формуле . Таким образом, чем выше мощность, тем меньше вероятность совершить ошибку второго рода. Обе эти характеристики обычно вычисляются с помощью так называемой критерия. В частности, вероятность ошибки первого рода есть функция мощности, вычисленная при нулевой гипотезе. Для критериев, основанных на выборке фиксированного объема, вероятность ошибки второго рода есть единица минус функция мощности, вычисленная в предположении, что распределение наблюдений соответствует альтернативной гипотезе. Для это также верно, если критерий останавливается с вероятностью единица (при данном распределении из альтернативы). В статистических тестах обычно приходится идти на компромисс между приемлемым уровнем ошибок первого и второго рода . Зачастую для принятия решения используется пороговое значение, которое может варьироваться с целью сделать тест более строгим или, наоборот, более мягким. Этим пороговым значением является , которым задаются при проверке . Например, в случае металлодетектора повышение чувствительности прибора приведёт к увеличению риска ошибки первого рода (ложная тревога), а понижение чувствительности  к увеличению риска ошибки второго рода (пропуск запрещённого предмета). [ [ В задаче радилокационного обнаружения воздушных целей, прежде всего в системе ПВО ошибки первого и второго рода, с формулировкой "ложная тревога" и "пропуск цели" являются одним из основных элементов как теории, так и практики построения . Вероятно, это первый пример последовательного применения статистических методов в целой технической области. [ Понятия ошибок первого и второго рода широко используются в области компьютеров и программного обеспечения. [ Наличие уязвимостей в вычислительных системах приводит к тому, что приходится, с одной стороны, решать задачу сохранения целостности компьютерных данных, а с другой стороны  обеспечивать нормальный доступ легальных пользователей к этим данным (см. ). Moulton (1983, с.125) отмечает, что в данном контексте возможны следующие нежелательные ситуации: когда авторизованные пользователи классифицируются как нарушители ( ошибки первого рода когда нарушители классифицируются как авторизованные пользователи ( ошибки второго рода [ Ошибка первого рода происходит, когда механизм блокировки/фильтрации ошибочно классифицирует легитимное -сообщение как спам и препятствует его нормальной доставке. В то время как большинство способны блокировать/фильтровать большой процент нежелательных email-сообщений, гораздо более важной задачей является минимизировать число «ложных тревог» (ошибочных блокировок нужных сообщений). Ошибка второго рода происходит, когда анти-спам система ошибочно пропускает нежелательное сообщение, классифицируя его как «не спам». Низкий уровень таких ошибок является индикатором эффективности анти-спам алгоритма. Пока не удалось создать антиспамовую систему без корреляции между вероятностью ошибок первого и второго рода.Ошибки первого и второго рода - Википедия Вероятность пропустить спам у современных систем колеблется в пределах от 1 % до 30 %. Вероятность ошибочно отвергнуть валидное сообщение от 0,001 % до 3 %. Выбор системы и её настроек зависит от условий конкретного получателя: для одних получателей риск потерять 1 % хорошей почты оценивается как незначительный, для других же потеря даже 0,1 % является недопустимой. [ Понятие ошибки первого рода также используется, когда программное обеспечение ошибочно классифицирует безвредный файл как . Неверное обнаружение может быть вызвано особенностями , либо неправильной в базе данных. Подобные проблемы могут происходить также и с анти- и анти- программами. [ При поиске в базе данных, к ошибкам первого рода можно отнести документы, которые выдаются поиском, несмотря на их (несоответствие) поисковому запросу. Ошибочные срабатывания характерны для , когда поисковый анализирует полные тексты всех хранимых в базе данных документов и пытается найти соответствия одному или нескольким терминам, заданным пользователем в запросе. Большинство ложных срабатываний обусловлены сложностью , многозначностью слов: например, «home» может обозначать как «место проживания человека», так и «корневую страницу веб-сайта». Число подобных ошибок может быть снижено за счёт использования специального . Однако, это решение относительно дорогое, поскольку подобный словарь и разметка документов ( ) должны создаваться экспертом. [ Разнообразные детектирующие алгоритмы нередко выдают ошибки первого рода . Программное обеспечение может распознать букву «a» в ситуации, когда на самом деле изображены несколько точек, которые используемый алгоритм расценил как «a». [ Ошибки первого рода регулярно встречаются каждый день в в аэропортах. Установленные в них детекторы предназначены для предотвращения проноса оружия на борт самолёта; тем не менее, в них зачастую настраивается настолько высоко, что много раз за день они срабатывают на незначительные предметы, такие как ключи, пряжки ремней, монеты, мобильные телефоны, гвозди в подошвах обуви и т. п. (см. , ). Таким образом, соотношение числа ложных тревог (идентифицикация благопристойного пассажира как террориста) к числу правильных срабатываний (обнаружение действительно запрещённых предметов) очень велико. [ Ошибки первого и второго рода являются большой проблемой в системах сканирования, использующих распознавание или глаза, и т. д. Такие сканирующие системы могут ошибочно отождествить кого-то с другим, «известным» системе человеком, информация о котором хранится в базе данных (к примеру, это может быть лицо, имеющее право входа в систему, или подозреваемый преступник и т. п.). Противоположной ошибкой будет неспособность системы распознать легитимного зарегистрированного пользователя, или опознать подозреваемого в преступлении. [ В медицинской практике есть существенное различие между и Скрининг включает в себя относительно дешёвые тесты, которые проводятся для большой группы людей при отсутствии каких-либо клинических признаков болезни (например, ). Тестирование подразумевает гораздо более дорогие , зачастую инвазивные, процедуры, которые проводятся только для тех, у кого проявляются клинические признаки заболевания, и которые в основном применяются для подтверждения предполагаемого диагноза. К примеру, в большинстве штатов в США обязательно прохождение новорожденными процедуры скрининга на и , помимо других . Несмотря на высокий уровень ошибок первого рода , эти процедуры скрининга считаются целесообразными, поскольку они существенно увеличивают вероятность обнаружения этих расстройств на самой ранней стадии. Простые анализы крови, используемые для скрининга потенциальных на и , имеют существенный уровень ошибок первого рода ; однако в арсенале врачей есть гораздо более точные (и, соответственно, дорогие) тесты для проверки, действительно ли человек инфицирован каким-либо из этих вирусов. Возможно, наиболее широкие дискуссии вызывают ошибки первого рода в процедурах скрининга на рак груди ( ). В США уровень ошибок первого рода в маммограммах достигает 15 %, это самый высокий показатель в мире. Самый низкий уровень наблюдается в , 1 %. [ Ошибки второго рода являются существенной проблемой в . Они дают пациенту и врачу ложное убеждение, что заболевание отсутствует, в то время как в действительности оно есть. Это зачастую приводит к неуместному или неадекватному лечению. Типичным примером является доверие результатам при выявлении коронарного , хотя известно, что кардиотестирование выявляет только те затруднения кровотока в , которые вызваны . Ошибки второго рода вызывают серьёзные и трудные для понимания проблемы, особенно когда искомое условие является широкораспространённым. Если тест с 10%-ным уровнем ошибок второго рода используется для обследования группы, где вероятность «истинно-положительных» случаев составляет 70 %, то многие отрицательные результаты теста окажутся ложными. (См. ). Ошибки первого рода также могут вызывать серьёзные и трудные для понимания проблемы. Это происходит, когда искомое условие является редким. Если уровень ошибок первого рода у теста составляет один случай на десять тысяч, но в тестируемой группе образцов (или людей) вероят

Hosted by uCoz