Критерии и методы доказательства достоверности данных, получаемых в психологическом исследовании

Автор работы: Пользователь скрыл имя, 11 Ноября 2014 в 23:42, контрольная работа

Описание работы

При анализе и интерпретации результатов психологического исследования, полученных различными методами, всегда остро встает вопрос их достоверности. Решение этой проблемы в большей степени зависит от того, насколько надежны и Валидны методы и методики, выбранные исследователем для изучения того или иного психического феномена. Рассмотрим данный вопрос на примере надежности и валидности тестовых методик.

Скачать архив (38.98 Кб) Сколько стоит заказать работу?

Файлы: 1 файл

Контр. по метод осн. псих..docx

— 41.73 Кб (Скачать файл)

Критерии и методы доказательства достоверности данных, получаемых в психологическом исследовании

Введение.

При анализе и интерпретации результатов психологического исследования, полученных различными методами, всегда остро встает вопрос их достоверности. Решение этой проблемы в большей степени зависит от того, насколько надежны и валидны методы и методики, выбранные исследователем для изучения того или иного психического феномена. Рассмотрим данный вопрос на примере надежности и валидности тестовых методик.

1. Проблема достоверности получаемой психологической информации

1.1 Зависимость достоверности получаемых психологических данных от надежности и валидности используемых методик

При проведении тестирования, как при любом измерении, возникают три основные класса ошибок:

промахи;
систематические ошибки;
случайные ошибки.

Промахи - следствие грубых нарушений процедуры тестирования. У опытных экспериментаторов промахи встречаются довольно редко. Они могут быть легко выявлены и устранены путем отбрасывания резко отклоняющихся значений.

Систематические ошибки измерения остаются постоянными или закономерно меняются от измерения к измерению. В силу этих своих особенностей они могут быть предсказаны заранее, а в некоторых случаях и устранены.

К этой группе относятся ошибки, возникающие в связи с использованием различных методов сбора данных. Каждый метод сбора данных о личности ("L", "Q" и "T") обладает своими специфическими инструментальными искажениями.

Случайные ошибки имеют место, когда при последовательных измерениях постоянной характеристики получаются различные числовые оценки, т.е. при определении случайных ошибок предполагается, что измеряемая характеристика не изменяется во времени, а все отклонения обусловлены неточностью измерения.

1.2 Понятие надежности теста

На практике используются три основных метода оценки надежности тестов:

повторное тестирование;
параллельное тестирование;
расщепление.

Рассмотрим каждое из них в отдельности.

Повторное тестирование. Ошибка измерения может быть определена путем многократного тестирования. Поэтому совершенно естественно, что повторное тестирование выборки испытуемых одним и тем же тестом через определенный интервал времени и при одинаковых условиях стало одним из основных методов измерения надежности. Повторное тестирование обычно называют ретестом, а надежность, измеренную таким способом, - ретестовой надежностью. В этом случае за индекс надежности принимается коэффициент корреляции между результатами двух тестирований.

Метод повторного тестирования обладает как достоинствами, так и недостатками. К числу достоинств относятся естественность и простота определения коэффициента надежности. К недостаткам следует отнести неопределенность в выборе интервала между двумя измерениями. Возникновение временной неопределенности связано с тем, что повторное тестирование не отличается от первичного. Испытуемые уже знакомы с содержанием теста, помнят свои первоначальные ответы и ориентируются на них при повторном выполнении теста. Поэтому при повторном тестировании нередко наблюдается или "подгонка" под первоначальные результаты, или, как следствие негативизма, демонстрация "новых" результатов. В результате оказывается, что, проводя повторное измерение для оценки одних источников ошибок, мы вызываем к жизни другие. Это специфическая психометрическая проблема, так как человек является не только объектом, но и субъектом измерения, активно влияет на результаты тестирования. В качестве одного из эффективных средств устранения ошибок, связанных с повторным применением одного и того же теста, рекомендуется проводить повторное тестирование через достаточно большие интервалы времени, чтобы первоначальные ответы были забыты, а по возможности и сам факт первого измерения изгладился из памяти. Однако при больших интервалах времени между двумя обследованиями могут происходить изменения в самих измеряемых характеристиках личности. В этом случае низкие значения коэффициента надежности будут следствием изменчивости измеряемой характеристики, а не низкой надежности теста. Поэтому, приводя в руководстве к тесту его ретестовую надежность, следует указывать, какому интервалу времени она соответствует. В связи с тем, что ретестовая надежность уменьшается с ростом временного интервала, наиболее доверительными являются высокие коэффициенты надежности, полученные при явно больших интервалах между тестированиями. Недостаточно высокие коэффициенты надежности могут быть следствием неоптимального определения временных интервалов.

Параллельное тестирование. В этом случае многократность измерения организуется с помощью параллельных (parallel), или эквивалентных тестов.
Рассчитанный между двумя параллельными тестами коэффициент корреляции называется эквивалентной надежностью.

Высокие значения коэффициента корреляции между параллельными формами указывают не только на надежность этих двух тестов, но и на эквивалентность их психологического содержания. Поэтому, когда эквивалентная надежность низкая, то это может быть связано либо с неэквивалентностью психологического содержания тестов, либо с низкой надежностью, либо с тем и другим вместе. Чтобы исключить некоторые альтернативы, следует получить оценки ретестовой надежности для параллельных тестов. При низкой ретестовой надежности низкую эквивалентную надежность логично считать следствием ненадежности тестов, в противном случае, когда ретестовая надежность высокая, приходится признать, что параллельные формы неэквивалентны по психологическому содержанию. Если имеются сомнения в эквивалентности психологического содержания тестов, то эти сомнения не снимаются никакими статистическими расчетами. Эквивалентность подтверждается психологическим анализом, экспертными суждениями специалистов и только в дополнение к этому - статистическими критериями.

Создание параллельных форм тестов связано с преодолением ряда трудностей. В мировой практике известно довольно мало тестов, имеющих параллельные формы. В качестве примера таких тестов можно назвать уже упоминавшиеся ранее многофакторные личностные тесты, разработанные сотрудниками Иллинойского университета под руководством Р.Б. Кэттелла, - CPQ, CSPQ, HSPQ, 16PF, каждый из которых имеет две или более параллельных формы.

Метод расщепления. Он является развитием метода параллельного тестирования и базируется на допущении о параллельности не только отдельных форм теста, но и отдельных заданий внутри одного теста. Для вычисления коэффициента надежности методом расщепления тест разбивается на отдельные задания или группы заданий. Наиболее распространенная процедура "расщепление" теста на две части: в одну часть собираются результаты четных заданий, а в другую - нечетных. При расщеплении теста на две части индекс надежности вычисляется по формуле Спирмена - Брауна, предложивших ее независимо. Их статьи с выводами формулы были опубликованы в одном и том же номере психологического журнала.

где R1,2 - коэффициент корреляции двух половин теста.

Разделить тест на две равные части можно разными способами, и каждый способ дает новую численную оценку надежности. Для преодоления этого недостатка метода расщепления разрабатываются способы вычисления коэффициентов надежности, которые исходят из предположения деления теста не на две части, а на большее число частей, в пределе равном числу заданий. Но никто еще не дал исчерпывающего теоретического обоснования этой проблемы: на практике большинство критериев опираются на тот факт, что матрица корреляций отдельных заданий надежного теста состоит из коэффициентов, величина которых близка к единице. Поэтому наиболее естественно рассматривать в качестве индекса надежности средний модуль коэффициента корреляции всех заданий теста или средний коэффициент детерминации.
Коэффициент надежности, полученный методом расщепления, называют коэффициентом внутренней согласованности или гомогенности теста (homogenety). Гомогенность теста свидетельствует о том, что все задания теста устойчиво измеряют одну и ту же психологическую характеристику. Это означает, что если испытуемые имеют одинаковые тестовые оценки, то и степень выраженности у них измеряемого качества одинакова.

Итак, мы рассмотрели три эмпирических метода оценки надежности тестов: повторное тестирование одним и тем же тестом, повторное тестирование параллельной формой теста и расщепление теста. При использовании метода повторного тестирования получаем оценку степени устойчивости результатов во времени и в зависимости от условий тестирования. Поэтому ретестовый коэффициент надежности называют также коэффициентом устойчивости или стабильности теста. При использовании метода параллельных форм и метода расщепления оценивается степень взаимной согласованности частей теста. Поэтому коэффициенты надежности, полученные этими двумя методами, интерпретируются как показатели гомогенности, однородности теста.

Главная проблема теории тестов заключается в том, как по измеренным результатам определить истинные результаты. Существуют два основных определения истинных результатов тестирования, которые имеют значение для психометрии:

специфические;
обобщенные (генерализированные).

Под специфическим истинным результатом измерения понимается точный результат, полученный с помощью конкретного теста. Это понятие близко к понятию действительных точных (или "выровненных") оценок, используемых при измерении физических величин. Здесь истинность результатов понимается с точки зрения точности метода измерения. Для характеристики специфической истинности результатов тестирования и разработано понятие надежности. Оно характеризует соотношение наблюдаемого результата и его действительной величины.

Генерализованный (обобщенный) истинный результат - это термин, используемый для характеристики действительного уровня скрытых, ненаблюдаемых качеств или свойств. Скрытое от внешнего наблюдения свойство не может быть измерено только с помощью одного какого-нибудь теста. В практике для этой цели используется батарея с конечным числом разных тестов, направленных на измерение одного скрытого свойства, уровень которого требуется определить. Каждый из используемых тестов лишь частично покрывает исследуемое свойство.

1.3 Понятие валидности теста

Для характеристики способности теста измерять действительный уровень психического свойства или качества используют понятие валидности.

Валидность (validity) теста показывает, в какой мере он измеряет то качество (свойство, способность, характеристику и т.п.), для оценки которого он предназначен, т.е. не обладающие валидностью тесты не пригодны для практического использования.

В современной психометрии выделяют три основных вида валидности:

содержательная (логическая);
эмпирическая;
концептуальная.

Содержательная (content validation). Её часто называют "логической валидностью" или "валидностью по определению". Содержательная валидность означает, что тест является валидным по мнению специалистов.
Содержательную валидность следует отличать от очевидной, лицевой, внешней валидности (face validity). Очевидная валидность - это валидность с точки зрения испытуемого. Она означает то впечатление о предмете измерения, которое формируется у испытуемого при знакомстве с инструкцией и материалом теста. Очевидная валидность играет важную роль в процессе тестирования, поскольку именно она в первую очередь определяет отношение испытуемых к обследованию. Очевидная внешняя валидность может находиться в разных отношениях с содержательной валидностью. В одних случаях содержательная и внешняя валидность совпадают, в других внешняя валидность используется для маскировки содержательной валидности. С этой целью содержанию заданий и инструкций придается специальная форма, маскирующая истинную цель исследования. Тем самым предупреждается появление установочного поведения при тестировании. Это один из основных тактических приемов, используемых при создании объективных тестов. В отличие от очевидной валидности содержательная валидность всегда связана с оценкой отношения содержания тестового материала к истинной, а не мнимой цели измерения. Для определения содержательной валидности используются экспертные методы.
Эмпирическая валидность (empirical validity). Идея эмпирической валидности заключается в определении способности теста служить индикатором или предсказателем строго определенной психической способности или формы поведения человека. Для измерения этого свойства вычисляется коэффициент корреляции тестового результата с внешним критерием - R(X,K). В качестве критерия может выступать любой показатель, независимо и бесспорно измеряющий ту же психологическую характеристику, что и валидизируемый тест. Вопрос о выборе критерия является в этом виде валидности основным. От выбора критерия зависят качественная и количественная оценки валидности. Условно можно выделить три группы критериев:

экспертные;
экспериментальные;
"жизненные".

Экспертный критерий предполагает использование экспертных оценок для независимого измерения свойств личности. Хотя экспертному методу измерения особенностей личности в последнее время уделяется значительное внимание, тем не менее применение экспертных оценок для валидизации тестов не имеет достаточно разработанных унифицированных процедур, позволяющих получить достоверную и устойчивую информацию.
     На практике значительно больше распространены экспериментальные критерии. В этих случаях в качестве критерия валидности используются результаты одновременного и независимого тестирования испытуемых другим тестом, предположительно измеряющим то же свойство личности, что и валидизируемый тест. Коэффициент корреляции между результатами двух измерений называется эмпирической взаимной валидностью. Его величина зависит как от степени совпадения содержания измерения, так и от надежности тестов. Поэтому максимальные коэффициенты эмпирической взаимной валидности имеют параллельные тесты.
     Эмпирическая валидность теста - это всегда валидность по отношению к конкретному критерию. Поэтому процесс конструирования теста часто сопровождается поиском подходящего критерия. Если к моменту проверки валидности такого экспериментального критерия не оказывается, в его качестве используются характеристики реального поведения, которые на основе существующих психологических теорий предполагаются связанными с измеряемым свойством. Так в качестве этого жизненного критерия для теста интеллекта используются показатели успешности обучения, экстравертированности - успешности административной деятельности, тревожности - частота заболеваний неврозом и т.п.
     Концептуальная валидность (construct validity). Она устанавливается путем доказательства правильности теоретических концепций, положенных в основу теста. Обращение к концептуальной валидности необходимо в тех случаях, когда результаты тестовых измерений используются не просто для предсказания поведения, а как основа для выводов о том, в какой степени испытуемые обладают некоторой определенной психологической характеристикой. Причем измеряемая психологическая характеристика не может быть отождествлена с какой-либо наблюдаемой особенностью поведения, а представляет собой теоретическую концепцию. Примерами таких концепций являются интеллект, черты личности, мотивы, установки и т.д. Концептуальная валидность имеет значение также при разработке принципиально новых тестов, для которых не определены внешние критерии валидности.      В отличие от эмпирической валидности, для которой обычно имеется единственный внешний критерий, при оценке концептуальной валидности проверке подвергаются по возможности все гипотезы, вытекающие из теоретической концепции, лежащей в основе валидизируемого теста.

Информация о работе Критерии и методы доказательства достоверности данных, получаемых в психологическом исследовании