Что понимают под стабильностью теста
Надежность тестов
Надежностью тестов называется степень совпадения результатов при повторном тестировании одних и тех же людей в одинаковых условиях. Вполне понятно, что полное совпадение результатов при повторных измерениях практически невозможно.
Вариацию результатов при повторных измерениях называют внутрииндивидуальной или внутригрупповой, либо внутриклассовой. Основными причинами такой вариации результатов тестирования, которая искажает оценку истинного состояния подготовленности спортсмена, т.е. вносит определенную ошибку или погрешность в эту оценку, являются следующие обстоятельства:
1) случайные изменения состояния испытуемых в процессе тестирования (психологический стресс, привыкание, утомление, изменение мотивации к выполнению теста, изменение концентрации внимания, нестабильность исходной позы и других условий процедуры измерений при тестировании);
3) нестабильность метрологических характеристик технических средств измерения (ТСИ), используемых при тестировании. Нестабильность может быть вызвана несколькими причинами, обусловленными несовершенством применяемых ТСИ: погрешностью результатов измерения из-за изменений напряжения сети, нестабильностью характеристик электронных измерительных приборов и датчиков при изменениях температуры, влажности, наличием электромагнитных помех и т.п. Следует отметить, что по этой причине погрешности измерений могут составлять значительные величины;
4) изменения состояния экспериментатора (оператора, тренера, педагога, судьи), осуществляющего или оценивающего результаты тестирования
и замена одного экспериментатора другим;
5) несовершенство теста для оценки данного качества или конкретного показателя подготовленности.
В таблице 2 приведена градация уровней надежности тестов.
|
Тесты, надежность которых меньше указанных в таблице значений, использовать не рекомендуется.
Говоря о надежности тестов, различают их стабильность (воспроизводимость), согласованность, эквивалентность.
Под стабильностью теста понимают вопроизводимостъ результатов при его повторении через определенное время в одинаковых условиях. Повторное тестирование обычно называют ретестом. Стабильность теста зависит от :
— временного интервала между тестом и ретестом.
Для количественной оценки стабильности используется дисперсионный анализ, по той же схеме, что и в случае расчета обычной надежности.
Согласованность теста характеризуется независимостью результатов тестирования от личных качеств лица, проводящего или оценивающего тест. Если результаты спортсменов в тесте, который проводят разные специалисты (эксперты, судьи), совпадают, то это свидетельствует о
высокой степени согласованности теста. Это свойство зависит от совпадения методик тестирования у разных специалистов.
Когда создается новый тест, нужно обязательно проверить его на согласованность. Делается это так: разрабатывается унифицированная методика проведения теста, а потом два или более специалиста по очереди в стандартных условиях тестируют одних и тех же спортсменов.
Эквивалентность тестов определяется следующим образом: спортсмены выполняют одну разновидность теста и затем, после небольшого отдыха, вторую и т. д.
Если результаты оценок совпадают (например, лучшие в подтягивании оказываются лучшими и в отжимании), то это свидетельствует об эквивалентности тестов. Коэффициент эквивалентности определяется с помощью корреляционного или дисперсионного анализа.
Применение эквивалентных тестов повышает надежность оценки контролируемых свойств моторики спортсменов. Поэтому если нужно провести углубленное обследование, то лучше применить несколько эквивалентных тестов, Такой комплекс называется гомогенным. Во всех остальных случаях лучше использовать гетерогенные комплексы: они состоят из неэквивалентных тестов.
Не существует универсальных гомогенных или гетерогенных комплексов. Так, например, для слабо подготовленных людей такой комплекс, как бег на 100 и 800 м, прыжок и длину с места, подтягивание на перекладине, будет гомогенным. Для спортсменов высокой квалификации он может оказаться гетерогенным.
До определенной степени надежность тестов может быть повышена путем:
— более строгой стандартизации тестирования,
— увеличения числа попыток,
— увеличения числа оценщиков (судей, экспертов) и повышения согласованности их мнений,
— увеличения числа эквивалентных тестов,
— лучшей мотивации испытуемых,
— метрологически обоснованный выбор технических средств ихмерений, обеспечивающий заданную точность измерений в процессе тестирования.
Согласованность теста
Стабильность теста
Под стабильностью теста понимают воспроизводимость результатов при его повторении через определенное время в одинаковых условиях. Повторное тестирование обычно называют ретестом. Схема оценки стабильности теста такова:
Степень надежности тестов определяется с помощью коэффициентов взаимосвязи, полученных из корреляционного или дисперсионного анализа.
Выбор коэффициента взаимосвязи зависит от типа применяемой шкалы измерений, от числа выполненных попыток (попыткой считается, например, исходное или повторное тестирование) и количества факторов, влияние которых надо исследовать.
Если изучается влияние только одного фактора и при этом количество попыток не более двух, то надежность теста может быть приближенно оценена с помощью коэффициента корреляции между тестом и ретестом. В остальных случаях рекомендуется использовать дисперсионный анализ.
Стабильность теста зависит от:
2) контингента испытуемых;
3) временного интервала между тестом и ретестом.
Например, морфологические характеристики при небольших временных интервалах весьма стабильны; наименьшую стабильность имеют тесты на точность движений (например, броски в цель).
У взрослых результаты тестирования более стабильны, чем у детей; у спортсменов – более стабильны, чем у не занимающихся спортом.
С увеличением временного интервала между тестом и ретестом стабильность теста снижается (таблица 3.1).
Таблица 3.1 – Стабильность теста (коэффициент корреляции) при разных
временных интервалах (120 испытуемых студентов)
Тест | Ретест сразу по окончании теста | Ретест через 1 месяц |
Бег 1000 м | 0,94 | 0,76 |
Прыжок в длину с места | 0,93 | 0,82 |
Согласованность характеризуется независимостью результатов тестирования от личных качеств лица, проводящего или оценивающего тест. Согласованность определяется по степени совпадения результатов, полученных на одних и тех же испытуемых разными экспериментаторами, судьями, экспертами. При этом возможны два варианта:
1) лицо, проводящее тест, только оценивает его результаты, не влияя на них. Например, одну и ту же письменную работу разные экзаменаторы могут оценивать по-разному. Нередко различаются оценки судей в гимнастике, фигурном катании на коньках, боксе, показатели ручного хронометрирования, оценка электрокардиограммы или рентгенограммы разными врачами и т.п.;
2) лицо, проводящее тест, влияет на его результаты. Например, некоторые экспериментаторы более настойчивы и требовательны, чем другие, лучше мотивируют испытуемых. Это сказывается на результатах (которые сами по себе могут измеряться вполне объективно).
Согласованность теста – это, по существу, надежность оценки его результатов при проведении теста разными людьми.
Особенно актуальна задача оценки согласованности при количественном определении качественных показателей. Для этого разработаны специальные методы.
Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет
Стабильность тестов
Под стабильностью теста понимают воспроизводимость результатов при его повторении через определенное время в одинаковых условиях. Повторное тестирование обычно называют ретестом. Схема оценки стабильности теста такова:
ТЕСТ РЕТЕСТ
Степень надежности тестов определяется с помощью коэффициентов взаимосвязи, полученных из корреляционного или дисперсионного анализа.
Выбор коэффициента взаимосвязи зависит от типа применяемой шкалы измерений, от числа выполненных попыток (попыткой считается, например, исходное или повторное тестирование) и количества факторов, влияние которых надо исследовать.
Если изучается влияние только одного фактора и при этом количество попыток не более двух, то надежность теста может быть приближенно оценена с помощью коэффициента корреляции между тестом и ретестом. В остальных случаях рекомендуется использовать дисперсионный анализ.
Стабильность теста зависит от:
2) контингента испытуемых;
3) временного интервала между тестом и ретестом.
Например, морфологические характеристики при небольших временных интервалах весьма стабильны; наименьшую стабильность имеют тесты на точность движений (например, броски в цель).
У взрослых результаты тестирования более стабильны, чем у детей; у спортсменов¾более стабильны, чем у не занимающихся спортом.
С увеличением временного интервала между тестом и ретестом стабильность теста снижается.
Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет
Надежность теста
Надежность теста один из критериев качества теста, относящийся к точности психологических измерений. Чем больше Надежность теста, тем относительно свободнее он от погрешностей измерения. Надежность теста рассматривается при одном подходе: как устойчивость (стабильность) результатов при повторном тестировании; при другом, как проявление степени эквивалентности двух одинаковых по форме и цели (параллельных) тестов.
Надежность теста
Надежность эксперимента
устойчивость результатов эксперимента при его проведении второй, третий, четвертый и т.д. раз.
Добиться объективности психологического теста можно при выполнении следующих условий:
1) единообразие процедуры проведения теста для получения сравнимых с нормой (см. ниже) результатов;
2) единообразие оценки выполнения теста;
3) определение нормы выполнения теста для сопоставления с ними показателей, полученных в результате обработки данных тестирования (см. здесь «третий этап стандартизации»).
Эти три условия называют этапами стандартизации психологического теста.
Этапы стандартизации
На этапе разработки теста, а также любого другого метода проводится процедура стандартизации, которая включает три этапа.
Первый этап стандартизации психологического теста состоит в создании единообразной процедуры тестирования. Она включает определение следующих моментов диагностической ситуации:
1) условия тестирования (помещение, освещение и др. внешние факторы). Очевидно, что объем кратковременной памяти лучше измерять (например, с помощью субтеста повторения цифровых рядов в тесте Векслера), когда нет внешних раздражителей, таких как посторонние звуки, голоса и т.д.
2) Содержание инструкции и особенности ее предъявления (тон голоса, паузы, скорость речи и т.д.). Например, в тесте «10 слов» каждое слово должно предъявляться через определенный интервал времени в секундах.
4) Временные ограничения выполнения данного теста. Например, для выполнения теста Равена взрослому респонденту дается 20 минут.
5) Стандартный бланк для выполнения данного теста. Использование стандартного бланка облегчает процедуру обработки.
6) Учет влияния ситуационных переменных на процесс и результат тестирования. Под переменными подразумевается состояние испытуемого (усталость, перенапряжение и т.д.), нестандартные условия тестирования (плохое освещение, отсутствие вентиляции и др.), прерывание тестирования.
7) Учет влияния поведения диагноста на процесс и результат тестирования. Например, одобрительно-поощряющее поведение экспериментатора во время тестирования может восприниматься респондентом как подсказка «правильного ответа» и др.
8) Учет влияния опыта респондента в тестировании. Естественно, что респондент, который уже не в первый раз проходит процедуру тестирования, преодолел чувство неизвестности и выработал определенное отношение к тестовой ситуации. Например, если респондент уже выполнял тест Равена, то, скорее всего, не стоит предлагать ему его во второй раз.
Второй этап стандартизации психологического теста состоит в создании единообразной оценки выполнения теста: стандартной интерпретации полученных результатов и предварительной стандартной обработки. Этот этап предполагает также сравнение полученных показателей с нормой выполнения этого теста для данного возраста (например, в тестах интеллекта), пола и т.д. (см. ниже).
Третий этап стандартизации психологического теста состоит в определении норм выполнения теста.
Нормы разрабатываются для различных возрастов, профессий, полов и др. Вот некоторые из существующих видов норм:
Профессиональные нормы устанавливаются на основе тестов для разных профессиональных групп (например, механиков разного профиля, машинисток и др.).
Национальные нормы разрабатываются для представителей данной народности, нации, страны в целом. Необходимость таких норм определяется конкретной культурой, моральными требованиями и традициями каждой нации.
Наличие нормативных данных (норм) в стандартизованных методах психодиагностики является их существенной характеристикой.
Нормы — основы сравнения результатов
Нормой в спортивной метрологии называется граничная величина результата теста, на основе которой производится классификация спортсменов.
Есть официальные нормы: разрядные в ЕВСК. Используются и неофициальные нормы: их устанавливают тренеры или специалисты в области спортивной тренировки для классификации спортсменов по каким-либо качествам (свойствам, способностям).
Существует три вида норм: а) сопоставительные; б) индивидуальные; в) должные.
Сопоставительные нормы устанавливаются после сравнения достижений людей, принадлежащих к одной и той же совокупности. Процедура определения сопоставительных норм такова: 1) выбирается совокупность людей (например, студенты педагогического вуза); 2) определяются их достижения в комплексе тестов; 3) определяются средние величины и стандартные (среднеквадратические) отклонения; 4) значение х ± 0,5 σ принимается за среднюю норму, а остальные градации (низкая — высокая, очень низкая — очень высокая) — в зависимости от коэффициента при σ. Например, значение результата в тесте свыше х + 2σ считается «очень высокой» нормой
Индивидуальные нормы основаны на сравнении показателей одного и того же спортсмена в разных состояниях. Эти нормы имеют исключительно важное значение для индивидуализации тренировки во всех видах спорта. Необходимость их определения возникла вследствие существенных различий в структуре тренированности спортсменов.
Градация индивидуальных норм устанавливается с помощью тех же статистических процедур. За среднюю норму здесь можно принимать показатели тестов, соответствующие среднему результату в соревновательном упражнении. Индивидуальные нормы широко используются в текущем контроле.
В основе сопоставительных, индивидуальных и должных норм лежит сравнение результатов одного спортсмена с результатами других спортсменов, показателей одного и того же спортсмена в разные периоды и в разных состояниях, имеющихся данных с должными величинами.
Возрастные нормы. В практике физического воспитания наибольшее распространение получили возрастные нормы. Типичным примером являются нормы комплексной программы физического воспитания учащихся общеобразовательной школы, нормы комплекса ГТО и т.д. Большинство из этих норм составлялись традиционным способом: результаты тестирования в различных возрастных группах обрабатывались с помощью стандартной шкалы, и на этой основе определялись нормы.
В таком подходе есть один существенный недостаток: ориентация на паспортный возраст человека не учитывает существенного влияния на любые показатели биологического возраста и размеров тела.
Часто бывает так, что по одному тесту (например, прыжку) мальчик опережает свой паспортный возраст на два-три года, а по другому (метанию) — на один год. В этом случае определяется средняя арифметическая по всем тестам, комплексно отражающая двигательный возраст ребенка.
Определение норм может проводиться также с учетом совместного влияния на результаты в тестах паспортного возраста, длины и массы тела.
На основании решений уравнений регрессии составляются номограммы, по которым легко определить должный результат.
Пригодность норм.Нормы составляются для определенной группы людей и пригодны только для этой группы. Пригодность норм только для той совокупности, для которой они разработаны, называется релевантностью норм.
Возрастные нормы с учетом биологического возраста и особенностей телосложения. Показатели биологического (двигательного) возраста человека лишены недостатков, свойственных показателям паспортного возраста: их значения соответствуют среднему календарному возрасту людей.
Другая характеристика норм — репрезентативность. Она отражает их пригодность для оценки всех людей из генеральной совокупности (например, для оценки физического состояния всех первоклассников города). Репрезентативными могут быть только нормы, полученные на типичном материале.
Третья характеристика норм — их современность. Известно, что результаты в соревновательных упражнениях и тестах постоянно растут и пользоваться нормами, разработанными давно, не рекомендуется. Некоторые нормы, установленные много лет назад, воспринимаются сейчас как наивные, хотя в свое время они отражали действительную ситуацию, характеризующую средний уровень физического состояния человека.
5.Качество — это обобщенное понятие, которое может относиться к продукции, услугам, процессам, труду и любой другой деятельности, включая физическую культуру и спорт.
Качественными называются показатели, не имеющие определенных единиц измерения. Таких показателей в физическом воспитании, и особенно в спорте, много: артистичность, выразительность в гимнастике, фигурном катании на коньках, прыжках в воду; зрелищность в спортивных играх и единоборствах и т. д. Для количественной оценки таких показателей используются методы квалиметрии.
Квалиметрия — это раздел метрологии, изучающий вопросы измерения и количественной оценки качественных показателей. Измерение качества — это установление соответствия между характеристиками таких показателей и требованиями к ним При этом требования («эталон качества») не всегда могут быть выражены в однозначной и унифицированной для всех форме. Специалист, который оценивает выразительность движений спортсмена, мысленно сопоставляет то, что он видит, с тем, что он мысленно представляет как выразительность.
На практике, однако, качество оценивается не по одному, а по нескольким признакам. При этом наивысшая обобщенная оценка не обязательно соответствует максимальным значениям по каждому признаку.
В основе квалиметрии лежат несколько исходных положении:
— любое качество можно измерить; количественные метопы издавна применяются в спорте для оценки красоты и выразительности движений, а в настоящее время используются для оценки всех без исключения сторон спортивного мастерства, эффективности тренировочной и соревновательной деятельности, качества спортивного инвентаря и т.д;
— качество зависит от ряда свойств, образующих «древо качества».
— каждое свойство определяется двумя числами: относительным показателем К и весомостью М;
— сумма весомостей свойств на каждом уровне равна единице (или 100%).
Методические приемы квалиметрии делятся на две группы: эвристические (интуитивные), основанные на экспертных оценках и анкетировании, и инструментальные, или аппаратурные.
Как правило, экспертное оценивание, или экспертиза, проводится в виде опроса, или анкетирования, группы экспертов. Анкетой называется опросный лист, содержащий вопросы, на которые нужно ответить письменно. Техника экспертизы и анкетирования — это сбор и обобщение мнений отдельных людей. Характерные примеры экспертизы: судейство в гимнастике и фигурном катании на коньках, конкурс на звание лучшего по профессии или лучшую научную работу и т.п.
К мнению специалистов обращаются всякий раз, когда осуществить измерения более точными методами невозможно или очень трудно. Порой лучше получить приблизительное решение немедленно, нежели долго искать пути точного решения. Но субъективная оценка значительно зависит от индивидуальных особенностей эксперта: квалификации, эрудиции, опыта, личных вкусов, состояния здоровья и т. п. Поэтому индивидуальные мнения рассматриваются как случайные величины и обрабатываются статистическими методами. Таким образом, современная экспертиза — это система организационных, логических и математико-статистических процедур, направленных на получение от специалистов информации, и ее анализ с целью выработки оптимальных решений. И лучший тренер (педагог, руководитель и т.п.) тот, который опирается одновременно на собственный опыт, на данные науки, на знания других людей.
Методика групповой экспертизы включает в себя: 1) формулировку задач; 2) отбор и комплектование группы экспертов; 3) составление плана экспертизы; 4) проведение опроса экспертов; 5) анализ и обработку полученной информации.
Подбор экспертов — важный этап экспертизы, так как достоверные данные можно получить не от всякого специалиста. Экспертом может быть человек: 1) обладающий высоким уровнем профессиональной подготовки; 2) способный к критическому анализу прошлого и настоящего и к прогнозированию будущего; 3) психологически устойчивый, не склонный к соглашательству.
Есть и другие важные качества экспертов, но указанные выше должны быть обязательно. Так, например, профессиональная компетентность эксперта определяется: а) по степени близости его оценки к среднегрупповой; б) по показателям решения тестовых задач.
Желательно иметь однородную группу экспертов, но если это не удается, то для каждого из них вводится ранг. Очевидно, что эксперт представляет тем большую ценность, чем выше показатели его деятельности. Для повышения качества экспертизы стараются повысить квалификацию экспертов путем специального обучения, тренировок и ознакомления с возможно более обширной объективной информацией по анализируемой проблеме. Судей во многих видах спорта можно рассматривать как своеобразных экспертов, оценивающих мастерство спортсмена (например, в гимнастике) или ход поединка (например, в боксе).
Подготовка и проведение экспертизы.Подготовка экспертизы сводится в основном к составлению плана ее проведения. Наиболее важными его разделами являются подбор экспертов, организация их работы, формулировка вопросов, обработка результатов.
Существует несколько способов проведения экспертизы. Наиболее простой из них — ранжирование, которое состоит в определении относительной значимости объектов экспертизы на основе их упорядочения. Обычно наиболее предпочтительному объекту приписывается наивысший (первый) ранг, наименее предпочтительному — последний ранг. Но оценить, насколько далеко эти объекты отстоят друг от друга, ранжирование не позволяет. В связи с этим метод ранжирования используется сравнительно редко.
Большее распространение получил метод непосредственной оценки объектов по шкале, когда эксперт помещает каждый объект в определенный оценочный интервал.
Широкое распространение в физической культуре и спорте получил такой метод экспертных оценок, как анкетирование.Анкета представляет собой последовательный набор вопросов, по ответам на которые судят об относительной важности рассматриваемого свойства или о вероятности свершения каких-либо событий.
При составлении анкет наибольшее внимание уделяется четкой и осмысленной формулировке вопросов. По своему характеру они подразделяются на следующие типы:
1) вопрос, при ответе на который необходимо выбрать одно из заранее сформулированных мнений;
2) вопрос о том, какое решение принял бы эксперт в определенной ситуации;
3) вопрос, требующий оценить численные значения какой-либо величины.
Опрос может проводиться как очно, так и заочно в один или несколько туров.
Развитие вычислительной техники позволяет проводить анкетирование в режиме диалога с ЭВМ.
Вопросы для самоконтроля
1. Какие параметры являются основными измеряемыми и контролируемыми в современной теории и практике спорта?
2. Почему изменчивость является одной из особенностей спортсмена как объекта измерений?
3. Почему следует стремиться снизить число измеряемых переменных, контролирующих состояние спортсмена?
4. Какую возможность предоставляет спортсмену адаптивность?
5. Что называется тестом?
7. Какие тесты называются добротными?
8. В чем разница между нормативно-ориентированным и критериально-ориентированным тестом?
9. Какие существуют разновидности двигательных тестов?
10. В чем разница гомогенных и гетерогенных тестов?
11. Какие требования должны соблюдаться для стандартизации проведения тестирования? ;
12. Что называется надежностью теста? ;
13. Что вносит погрешность в результаты тестирования?
14. Что понимают под стабильностью теста?
15. От чего зависит стабильность теста?
16. Чем характеризуется согласованность теста?
17. Какие тесты называются эквивалентными?
18. Что понимают под информативностью теста?
19. Какие существуют методы определения информативности тестов?
20. В чем суть логического метода определения информативности тестов?
21. Что обычно используют в качестве критерия при определении информативности тестов?
22. Как поступают при определении информативности тестов, когда отсутствует единичный критерий?
23. Что называется педагогической оценкой?
24. Какими способами можно перевести результаты тестирования в баллы?
25. Что такое шкала оценок?
26. Каковы особенности пропорциональной шкалы?
27. В чем отличия прогрессирующей шкалы от регрессирующей?
28. В каких случаях применяются сигмовидные шкалы оценок?
29. В чем достоинство перцентильной шкалы?
30. Для чего могут использоваться шкалы выбранных точек?
31. Какие существуют варианты оценки результатов тестирования спортсменов по комплексу тестов?
32. Что называется нормой в спортивной метрологии?
33. На чем основаны индивидуальные нормы?
34. Как устанавливаются должные нормы в спортивной практике?
35. Как составляются большинство возрастных норм?
36. Какие существуют характеристики норм?
37. Что изучает квалиметрия?
38. В каком виде проводится экспертное оценивание?
39. Какими качествами должен обладать эксперт?
40. Как определяется объективная оценка пригодности эксперта?