автореферат и диссертация по психологии 19.00.03 для написания научной статьи или работы на тему: Методика конструирования тестов профессиональных достижений с использованием Интернет-технологий
- Автор научной работы
- Чумаков, Александр Алексеевич
- Ученая степень
- кандидата психологических наук
- Место защиты
- Москва
- Год защиты
- 2007
- Специальность ВАК РФ
- 19.00.03
Автореферат диссертации по теме "Методика конструирования тестов профессиональных достижений с использованием Интернет-технологий"
На правах рукописи
/-) Л/ . л
□03054833
Чумаков Александр Алексеевич - ~ .........
МЕТОДИКА КОНСТРУИРОВАНИЯ ТЕСТОВ ПРОФЕССИОНАЛЬНЫХ ДОСТИЖЕНИЙ С ИСПОЛЬЗОВАНИЕМ ИНТЕРНЕТ-ТЕХНОЛОГИЙ
Специальность 19.00.03 -Психология труда, инженерная психолог ия и эргономика (психологические науки)
Автореферат диссертации на соискание ученой степени кандидата психологических наук
Москва, 2007
003054833
Работа выполнена на кафедре психологии труда и инженерной психологии факультета психологии Московского государственного университета им. М.В. Ломоносова.
Научный руководитель: доктор психологических наук, профессор
Шмелев Александр Георгиевич
Официальные оппоненты: доктор психологических наук, профессор
Защита состоится «13» апреля 2007 г. в 15.00 на заседании диссертационного совета Д 501.001.11 в МГУ им. М.В. Ломоносова по адресу: 125009, Москва, ул. Моховая, дом 11, корпус 5, аудитория 102.
Автореферат размещен на сайте факультета психологии МГУ им. М.В. Ломоносова www.psy.msu.ru 13 марта 2007 г.
С диссертацией можно ознакомиться в Научной библиотеке МГУ им. М.В. Ломоносова.
Автореферат разослан «/2 » марта 2007 г.
Ученый секретарь
ГШГ.Г.РПТЯ1ШПННПГП ггтртя
Зараковский Георгий Михайлович;
кандидат психологических наук, доцент Моргунов Евгений Борисович.
Ведущая организация: Институт психологии Российской
Академии наук
Володарская И.А.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность исследования. В настоящее время происходит массовая компьютеризацая образовательных учреждений, а также «корпоративных университетов» - систем профессиональной переподготовки кадров внутри современных корпораций. Этот процесс создает материально-технические предпосылки для использования стандартизированных процедур (тестов) как средства автоматизации системы контроля. Прикладное применение тестов профессиональных достижений затрагивает в настоящее время не только вузы, но и крупные производственные предприятия, вынужденные в условиях научно-технической революции постоянно заниматься процессами переподготовки персонала и самим осуществлять контроля качества переподготовки. Развитие непрерывного образования выражается в постоянной работе профессионала над своими профессиональными знаниями. Тесты профессиональных достижений в этих условиях являются одним из основных инструментов для объективной обратной связи об эффективности результатов этого непрерывного образования.
В последние годы в обширной психолого-педагогической литературе все чаще акцентируется внимание на трудностях и проблемах, связанных с оценкой знаний: недостаточная сформулированность целей образования и, следовательно, критериев оценки, субъективизм производящего оценивание, отсутствие четких критериев, по которым производится оценка, и т.п. Попыткам решения с разных позиций этих проблем посвящены многие работы психологов, педагогов, методистов (Аванесов, 1998; Гильбух, 1976; Зинченко, 1982; Кпайн, 1994; Майоров, 2000; Талызина, 1975; Шмелев, 1999; Огоп1ипс1, 1988). Однако сама по себе тестовая технология, даже разработанная по всем правилам математической теории тестов, не снимает ряда психологических проблем. Возникает практическая проблема такой организации информационно-коммуникативной среды в процессе создания и применения тестов, которая бы снимала негативный эффект психологического отчуждения преподавателей (наставников на производстве) от образовательного процесса.
Одним из актуальных направлений является проблема использования особых сетевых инструментально-измерительных технологий для оценки образовательных достижений учащихся, которая набирает новую высоту в связи с внедрением Интернета и других информационно-коммуникационных технологий. Новые информационные технологии инициируют развитие новых подходов к технологиям обучения, включая дистанционное образование. Однако неверным было бы предполагать, что информатизация процессов
контроля усвоения знаний способна автоматически решить очерченные выше проблемы. Чрезвычайно важным является вопрос разработки четкой и научно обоснованной психолого-педагогической концепции создания и внедрения компьютеризированных тестовых методик контроля знаний.
В контексте развития указанной психолого-педагогической концепции особое место приобретает вопрос создания такой системы компьютерного тестирования, которая бы не отчуждала преподавателей от процесса контроля, но позволяла им активно влиять на образовательный процесс, способствовала эффективному усвоению учебного материала студентами и использовалась, с одной стороны, преподавателем для промежуточного и итогового контроля знаний и, с другой стороны, учащимся для самооценки уровня своей подготовленности в процессе самостоятельной работы.
Цель исследования: построение методической схемы и апробирование технологической модели разработки педагогических компьютерных тестов контроля знаний с использованием Интернет-технологий, а также разработка инструментария для независимого и объективного тестового контроля знаний студентов-психологов.
Объектом исследования явилась процедура оценки профессиональных знаний студентов старших курсов психологических факультетов вузов.
Предметом исследования явились теоретико-методологические принципы и практические процедуры разработки тестов профессиональных знаний с использованием Интернет-технологий.
Основная гипотеза исследования: тестовая форма контроля дает согласованные (валидные) результаты с традиционной формой контроля, но не дублирует эту форму, то есть, позволяет диагностировать особые свойства в структуре и качестве знаний. На этой гипотезе базируется основная практическая рекомендация для разработчиков тестовых систем в вузе: тестовая и традиционная формы контроля должны дополнять друг друга.
Реализация поставленной цели и проверка основной гипотезы осуществлялись в процессе решения следующих задач исследования:
- выявить этапы, необходимые для создания полноценной и качественной методики тестирования знаний;
- выделить необходимые критерии, которым должен удовлетворять качественный тест достижений;
- выяснить концептуальные особенности различных принципов и подходов к созданию тестового инструментария и проанализировать, каким же должен быть тест достижений (на факультетах психологии и других центрах
подготовки психологов) в зависимости от его целевого назначения;
- выяснить, какие факторы (в том числе организационные и социально-психологические) препятствуют успешному внедрению тестовых технологий в образовательную среду современного российского вуза, подготавливающего психологов;
апробировать новую технологическую модель Интернет-ориентированного банка тестовых заданий, обеспечивающую опосредованность, независимость и оперативность взаимодействия экспертов с разработчиками тестовых заданий и между собой.
Методологической базой исследования послужили:
- принципы и подходы классической теории тестов (B.C. Аванесов, А.Н. Майоров, А.Г. Шмелев, А. Анастази, П. Кпайн, Н. Гронлунд);
- принципы и подходы неклассической теории тестов - IRT (Дж. Раш, А. Бирнбаум);
- психосемантический подход (А.Г. Шмелев, Е.Ю. Терехина, Е. Эйдман).
Последний подход, как, возможно, никакие другие, предполагает активную роль преподавателя как носителя знаний, ведь мерой успешности студента в данном случае объявляется сближение субъективного семантического пространства студента с эталонным пространством, в качестве которого принимается субъективное пространство преподавателя.
Методы исследования:
1) теоретический анализ литературных источников по психодиагностике, тестологии, психологии труда и организационной психологии, а также по психологии проектирования компьютерных систем;
2) метод тестов с вынужденным выбором;
3) метод согласования независимых экспертных оценок;
4) метод многомерного шкалирования с последующей реконструкцией субъективного пространства (в данном случае использовался экспресс-модификация полной процедуры многомерного шкалирования);
5) методический аппарат современного статистического анализа данных, включая корреляционный, факторный и кластерный анализ;
6) метод инженерно-психологического проектирования сетевых компьютерных многопользовательских систем и баз данных;
Достоверность и обоснованность результатов исследования обеспечивается детальной теоретической проработкой проблемы конструирования тестовых методик оценки уровня профессиональных
достижений, а также изучение особенностей их внедрения в организационную среду вуза и использованием комплекса хорошо зарекомендовавших себя методических средств. Основой для реализации исследования послужила технология разработки тестов профессиональных достижений, разрабатывавшаяся на протяжении нескольких десятилетий за рубежом и в отечественной научной среде и прошедшая в модифицированном и переработанном виде полный цикл апробации при нашем непосредственном участии (Чумаков, 2006; Чумаков, Шмелев, 2005). Содержательная обоснованность полученных в диссертационном исследовании результатов подтверждается тем, что все диагностические обследования были проведены в реальных условиях предэкзаменационного тестирования выпускников при непосредственном внедрении технологии разработки и применения тестовой системы контроля в учебно-информационную среду вуза. Достоверность результатов обеспечивается репрезентативностью выборки испытуемых-студентов (общее число протестированных - свыше 400 человек), а также наличием значимо-согласованных экспертных оценок, полученных от 10 авторов-экспертов, которые соответствуют требованиям к использованию названных статистических процедур.
Научная новизна работы
Впервые был применен и проанализирован с позиции психологии метод независимых экспертных оценок для создания первичного банка тестовых заданий. Обоснована значимость расширения авторского этапа при конструировании тестов, когда авторы тестовых заданий становятся непосредственными рецензентами своих собственных и чужих заданий и тем самым преодолевается эффект отчуждения педагогического коллектива образовательного учреждения от содержательного смысла внедряемой тестовой технологии.
Впервые произведено исследование взаимосвязи экспертных оценок сложности и качества тестовых заданий с аналогичными показателями, полученными в результате статистического анализа пунктов теста после апробации тестовой методики на реальных испытуемых. Обычная процедура экспертизы тестовых заданий не предполагает решение экспертом этих заданий в позиции учащегося. В нашем случае эксперты были принципиально поставлены в позицию учащегося, должны были решать тестовые задания и лишь после этого оценивать их качество.
Произведено поисковое психодиагностическое исследование взаимосвязи между когнитивной сложностью (консистентностью и
дифференцированностыо специальных знаний учащихся) и академической успеваемостью по соответствующим учебным дисциплинам. Ранее подобного рода исследования производились только в других странах и в ходе применения громоздких психометрических (фактически исследовательских, а не практических диагностических) процедур полной попарной оценки различий.
В данной работе впервые созданы и внедрены процедуры тестового контроля знаний студентов-психологов с использованием Интернет-технологии «виртуальной лаборатории», или «Личного кабинета экзаменатора-преподавателя».
Теоретическая значимость работы состоит в изучении зависимости экспертных оценок качества тестовых заданий от уровня осведомленности экспертов в изучаемой области, а также в изучении взаимосвязи между когнитивной сложностью и академической успеваемостью.
Практическая значимость работы
Разработанная нами методическая схема и инструментальная система может быть использована не только педагогами (работниками сферы образования), но и специалистами кадровых служб предприятий для разработки собственного методического инструментария диагностики профессиональных знаний, отвечающего современным научным представлениям в области конструирования тестов и запросам практики. Прикладная ценность исследования - в позитивном ответе на вопрос о возможности применения различных психодиагностических процедур и методов, а также их сочетания с традиционными формами при оценке уровня профессиональных достижений.
Апробация и внедрение результатов работы
Основные методологические выводы работы обсуждались на следующих крупных научно-практических конференциях: «Юбилейная конференция, посвященная 120-летию Московского психологического общества» (ПИ РАО, январь 2005), «Прикладная психология как ресурс социально-экономического развития России» (МГУ, ноябрь 2005), «Психологическая теория и практика в изменяющейся России» (ЮурГУ, май 2006). По результатам работы опубликованы 1 статья, 3 тезисных сообщения.
Результаты исследования внедрены на факультете психологии МГУ им. М.В. Ломоносова для реализации предэкзаменационного тестирования старшекурсников перед государственным экзаменом по общей психологии, в программу межкафедрального спецсеминара «Конструирование тестов», существенные технологические элементы внедрены в практику работы компании ЗАО «Агентство «Гуманитарные технологии».
Положения, выносимые на защиту:
1) Оценка уровня успешности усвоения знаний учащимся оказывается более объективной (валидной) в том случае, если формируется как комплексная процедура, которая совмещает различные способы сбора данных, как в традиционной форме, так и в форме тестового диалога учащегося с компьютером.
2) Разработка методик диагностики профессиональных знаний требует комплексного, структурированного подхода, содержащего определенный набор принципиально важных этапов, пропуск или отказ от которых может привести к созданию некачественного диагностического инструментария, а также к социально-психологическим трудностям во внедрении тестовой технологии контроля знаний.
3) Доказана валидность сконструированных компьютерных тестов знаний - в виде значимых коэффициентов корреляции между данными тестов и суммарным баллом успеваемости студентов за всего годы обучения в вузе.
4) Развитие компьютеризированных Интернет-технологий позволяет расширить практику применения таких трудоемких в вычислительном отношении процедур при конструировании и применении тестов, как расчет согласованности экспертных оценок, а также построение пространственно-семантических моделей (концептуальных карт) индивидуального знания учащегося.
5) Одним из факторов, выступающих в качестве препятствий к внедрению тестовых технологий, состоит в определенных социально-психологических барьерах в сознании и поведении самих преподавателей; в работе показано, что чем ниже уровень согласованности ответов эксперта-преподавателя с эталонными ответами других экспертов (по определенному тематическому блоку), тем ниже преподаватели оценивают качество тестовых заданий и тем критичнее они относятся к тесту в целом.
6) Операциональные трудности в работе по внедрению компьютерных тестов в учебный процесс сокращаются в результате применения передовых в психолого-эргономическом отношении технологий по организации интерфейса пользователя: использование веб-интерфейса (модели диалога, характерного для Интернет-сайта) существенно сокращает расходы времени пользователей на освоение компьютерной системы конструирования и проведения тестов знаний.
Структура и объем диссертации
Данная работа состоит из введения, трех глав, выводов, заключения, списка литературы и двадцати одного приложения. Объем основного текста составил 174 страницы. Содержание текста подробно иллюстрировано 20 рисунками и 15 таблицами. Библиография насчитывает 196 источников, из которых 82 на иностранном языке.
ОСНОВНОЕ СОДЕРЖАНИЕ ДИССЕРТАЦИИ
Во Введении обосновывается актуальность работы, определяется методологическая основа, указываются объект и предмет исследования, формулируются цель, задачи и гипотезы исследования. Раскрывается научная новизна работы, ее теоретическая и практическая значимость, формулируются положения, выносимые на защиту.
Первая глава - «Метод тестов в образовании: историко-методологический анализ» - посвящена историческому и методологическому анализу современного состояния тестологической науки и практики в России и за рубежом, выяснению места тестов в системе образования и в практике работы организации, их особенностям, преимуществам и ограничениям применения.
Первый параграф посвящен рассмотрению истории развития тестовой технологии контроля знаний, которая поможет осознать причины современного состояния научной тестологии и ее практической реализации в нашей стране и за рубежом.
Настоящий этап социально-экономического развития характеризуется значительным ростом числа компаний, ориентированных на долгосрочное сотрудничество с персоналом и, как следствие, вкладывающих существенные средства в профессиональное развитие и обучение сотрудников. Одним из важнейших направлений становятся проблемы оценки уровня профессиональной компетентности, уровня подготовленности к решению профессионально специфичных задач, эффективности профессионального обучения, а также выявление пробелов в знаниях у начинающих профессионалов и их своевременное доучивание при помощи различных методов и приемов (Смирнов, 2005). Одной из частных, но в то же время ключевых и фундаментальных задач, является внедрение комплексных технологий, целью которых является повышение качества подготовки специалиста еще на этапе обучения в профессиональных учебных заведениях.
С начала 90-х годов в российской системе высшего профессионального образования наблюдается ярко выраженное усиление интереса к методам
объективного (инструментального) контроля результатов обучения, в частности к педагогическим тестам. Эти перемены являются отражением современных мировых взглядов на роль контрольно-оценочной системы в образовании, когда контроль, оценка и обучение рассматриваются как взаимосвязанные и взаимопроникающие составляющие единого образовательного процесса (Звонников, Челышкова, 2003).
Таким образом, по содержанию решаемых научно-теоретических и научно-прикладных задач данное исследование оказывается на стыках следующих психологических дисциплин: а) общая психология и психодиагностика (разрабатывались тесты знаний именно по этим дисциплинам), б) инженерная психология и психология труда (рассматривались вопросы оптимизации информационных потоков и организации мобильных автоматизированных рабочих мест (АРМ) авторов-экспертов тестовых заданий, проблемы диагностики уровня профессиональных достижений, являющейся одним из этапов оценки квалификации профессионала, вопросы применения различных психодиагностических процедур и методов при оценке уровня профессиональных достижений, организационно-психологические аспекты внедрения тестовой системы контроля в учебно-информационную среду вуза); в) педагогическая психология (рассматривались вопросы педагогических измерений и оптимизации системы контроля образовательных достижений), г) социальной психологии (рассматривались проблемы мотивации, а также социально-психологические барьеры, мешающие участию студентов и преподавателей в освоении новой технологии).
Научная разработка диагностических методик началась в XIX веке с развитием экспериментальных подходов. Тесты как таковые пришли в педагогику и психологию труда начала XX века в составе таких прикладных дисциплин как педология и психотехника (Носкова, 2004). Под воздействием запросов практики: медицины, психологии, педагогики, а затем и промышленного производства, как область экспериментальной науки начинает развиваться психодиагностика. Проблемой разработки тестов вплотную занимались видные российские ученые: М.С. Бернштейн, П.П. Блонский, А.П. Болтунов, С.Г. Геллерштейн, Г.И. Залкинд, И.Н. Шпильрейн, A.M. Шуберт и др.
Как известно, принятое в 1936 году постановление ЦК ВКП(б) «О педологических извращениях в системе Наркомпроса» послужило основой для свертывания исследований в области разработки диагностических методик и отказа от систематической психолого-педагогической диагностики (Леонтьев,
Лурия, Смирнов, 1968).
В то время как в нашей стране обсуждался вопрос - быть тестам или не быть - в США ставились другие вопросы - как повысить качество тестов, как сделать результаты тестирования независимыми от группы испытуемых, на которых тест разрабатывался (от выборки стандартизации) и от того или иного набора заданий, страдающего своей ограниченностью в большей или меньшей степени (Сноу, 1973; Flanagan, 1947; McFarland, 1953).
Настоящая реабилитация метода тестов в СССР произошла только в 70-е годы и в большей степени в контексте психодиагностики (Аванесов, 1978; Гильбух, 1976; Иванова, 1969; Калмыкова, 1975; Талызина, 1969, 1975; Ядов, 1972). Сам термин психодиагностика в СССР приобрел популярность по идеологическим причинам - его применяли чаще, чем на Западе, чтобы избегать «запрещенное слово тест». Для сравнения: пока в России пытались возродить научный подход к решению вопросов контроля знаний, к концу второй половины XX века на Западе не просто существовали, но были в значительной степени проработаны уже 4 подхода к решению вопросов и задач психолого-педагогического измерения, различающихся по целям (объектам) и специфике решаемых задач: классическая теория тестов - Classical Test Theory (Gulliksen, 1950; Lord & Novick, 1968; Feldt & Brennan, 1989); теория генерализации - Generalizability Theory (Cronbach, Gleser, Nanda, Rajaratnam, 1972; Brennan 1983, 1992; Shavelson & Webb, 1991); теория «вопрос-ответ» или «теория тестовых заданий» - Item Response Theory (Birnbaum, 1968; Drasgow & Parsons, 1983; Hambleton, Swaminathan & Rogers, 1991; Lord, 1980; Rasch, 1980), теория «уравнение-связывание» - Equating/Linking (Feuer, Holland, Green, Bertenthal & Hemphill, 1999; Linn, 1993; Mislevy, 1992), а также в ряде работ в качестве самостоятельного направления выделяют КОРТ - Criterion-referenced Measurement - критериально-ориентированное тестирование (Glaser, Klaus, 1962; Millman, 1994).
Во втором параграфе рассматриваются методологические основания включения тестовых форм в процесс контроля усвоения знаний и их место в системе образования. Здесь анализируются работы, в которых в той или иной форме обосновывается идея включения тестов в качестве одного из методов в систему комплексного педагогического контроля результатов учебной деятельности.
Как показали исследования (Талызина, 1975), наиболее эффективным является системный подход к подбору форм и методов контроля. Введение в учебный процесс сравнительно новой для отечественной педагогической
системы формы контроля - тестирования поставило перед методистами проблему его включения в сложившуюся систему контроля. Но, совершенно очевидно, что введение нового элемента в систему возможно только на основе учета его специфики и функций.
Система форм и методов проверки знаний должна выполнять следующие функции: контролирующую, обучающую (тесты с интеллектуальным интерфейсом - Дюк, 1994), диагностическую, прогностическую, развивающую и ориентирующую. Соответственно, для успешного выполнения указанных функций система контроля должна обеспечивать соблюдение следующих принципов: целенаправленности, объективности, всесторонности, регулярности и индивидуального подхода. Специфика тестов отвечает всем перечисленным принципам. Таким образом, тесты при грамотном, профессиональном подходе к их разработке могут стать не просто способом контроля знаний, но скорее неотъемлемой частью педагогической системы. Традиционные устные и письменные экзамены позволяют в большей степени (если она качественно подготовлены и выполнены) измерить «глубину знаний» и их «связность» (то есть, возможность вывода, аргументации). По сравнению с традиционными тестовые экзамены лучше приспособлены для измерения «широты» знаний и их «прочности» (Шмелев, 1999).
Третий параграф посвящен анализу связи тестового подхода с компетентностной моделью.
Компетентностный подход обновления содержания образования направлен на развитие компетентностей учащихся на основе принципов фундаментальности, универсальности, интегративности, вариативности, практической направленности (Болотов, Сериков, 2003; Зимняя, 2003; Равен, 2002; Фрумин, 2002; Хуторский, 2004, 2005). Под ключевыми компетенциями здесь понимается целостная система универсальных знаний, умений, навыков, а также опыт самостоятельной деятельности и личной ответственности обучающихся. На нормативном уровне, как правило, понятия «компетенция» и «компетентность» не разделяются, но, тем не менее, стоит осознать, что компетенции - это в какой-то мере заданный (нормативный, идеальный) шаблон, а компетентность - это характеристика наличного уровня подготовленности. Мы предлагаем вариант рабочего разведения понятий, вполне операциональный: компетенции - названия для шкал, компетентность — характеристика уровня, достигнутого индивидом по шкале. Поэтому в контексте нашего рассмотрения проблемы мы считаем уместным использовать рабочее определение компетентности, которое может быть сформулировано
следующим образом: «компетентность» - способность к решению не вполне стандартной задачи или «кейса» (задача с избыточной или неполной информацией, не соответствующая хрестоматийному (стандартному) набору учебных (упрощенных) задач), когда от тестируемого требуется сформировать новые связи между привычными для него знаниями, умениями и навыками. Для решения задач диагностики компетентностный подход требует сочетать тесты с выбором ответа и тесты с открытым и развернутым ответом, поскольку именно такого рода системы комплексной оценки (западные системы образования с середины 80-х годов прошлого века начали переходить на так называемую многоуровневую систему оценки - large-scale testing (large-scale assessment) -включающую сразу несколько видов диагностических процедур (Biggs, 1995; De Pascale, 2003; Draney, Peres, 1998; Gullickson, 1985; Guskey, 1994; Kennedy, 2005; Linn, 2001) - в наибольшей степени, на наш взгляд, может удовлетворить практически любому подходу к рассмотрению вопроса о содержании компетенций.
В четвертом параграфе обсуждаются преимущества и ограниченность тестовых форм контроля знаний.
Один из важных моментов - это разграничение тестов знаний и тестов профессиональных достижений. Тесты профессиональных достижений применяются прежде всего для измерения эффективности обучения или тренировок, для отбора персонала на наиболее ответственные должности, где требуются хорошие профессиональные знания, для определения уровня квалификации работников (Смирнов, 2005), то есть для оценки уровня развития конкретных знаний и навыков, требуемых для признания человека специалистом в той или иной области.
Тест в педагогике и психологии имеет сходное технологическое (операциональное) определение, но несколько различное применение. Направленность педагогического теста - это не качества и свойства личности, а т.н. ЗУН - знания, умения и навыки, при этом по технологической сути педагогический тест весьма сходен с психодиагностическим. Используя приведенное определение: тест в качестве составляющих должен иметь, по крайней мере, три элемента — систему заданий, зафиксированную документально технологию предъявления и отработанную систему проверки обработки и анализа результатов, которые должны составлять единство (Майоров, 1996).
Критики недостатков традиционных способов аттестации приведено достаточно много (Аванесов, 1998; Плавинский, 2001; Равен, 1999; Шмелев,
1999; CI egg, Cashin, 1986, Dressel, 1976; Feinberg, 1990; Hymes, Chafin, Gonder, 1991). Основными же недостатками и ограничениями самого метода тестирования являются следующие: во-первых, тесты достижений не являются инструментом для определения всего спектра учебных и профессиональных достижений. Во-вторых, это ограничения, которые накладываются на ответы. В силу применения процедуры выбора из готовых ответов в большинстве случаев оказывается затруднен или невозможен анализ способов решения задач, мыслительных операций, которые использует учащийся при решении тестовых заданий.
В пятом параграфе рассматриваются основные типы тестовых методик и основания для их разделения, а также возможное применение компьютерных и сетевых (Интеренет) технологий для целей диагностики профессиональных знаний.
Первое и наиболее важное, на чем надо остановиться, рассматривая классификацию тестов, — это два подхода, которые в настоящее время сложились в тестировании — тесты, ориентированные на критерий (критериально-ориентированные - КОРТ), и тесты, ориентированные на норму (нормативно-ориентированные - НОРТ). Эти два подхода выделяют почти все зарубежные и отечественные исследователи в области разработки тестов достижений (Аванесов, 1998; Анастази, Урбина, 2001; Bond, 1996; Stiggins, 1994; Wirstrom, 2005).
Следующим основанием для разделения тестов является цель применения. Здесь следует различать: тесты достижений; тесты усвоения знаний; тесты остаточных знаний; тест интегративный - система заданий для общей диагностики подготовленности выпускника образовательного учреждения.
Компьютерные сетевые технологии тестирования позволили преодолеть многие недостатки бланковых технологий. Основными преимуществами компьютеризированного тестирования с использованием Интернета мы считаем следующие: быстрое сравнение результатов измерения для большого количества испытуемых на больших территориях. Использование технологии адаптивного тестирования. Создание и применение банков тестовых заданий. Применение новых способов предъявления тестовых заданий, повышающих информационную безопасность: оперативная рандомизация вариантов на основе банка заданий - оперативное («на лету») формирование последовательности вопросов для одного испытуемого (предъявление тестовых заданий в случайном порядке), рандомизация ответов (изменение
позиции варианта ответа в различных вариантах). Оптимизированное управление продолжительностью тестовых измерений как для всех процедуры тестирования целиком, так и для отдельных частей теста (тематических блоков) и отдельных заданий.
Привлекательность сети Интернет для психологов по сравнению с традиционными способами проведения исследований уже не раз отмечалась в литературе (Жичкина, 2000; Шмелев, 2002; Шмелев, Бельцер, 1997; Birnbaum, 2000; Roberts, Smith, Pollock, 1997). Признаки повышения эффективности в этих работах в значительной степени перекликаются с тем списком, который мы уже называли выше.
В шестом параграфе рассматриваются возможные модели сочетания тестовых и традиционных технологий контроля.
Анализ литературы (например, Симонов, 2004; Симонов, Черненко, 2002; Беспалько, Татур, 1989) и практического опыта сочетания тестовых и традиционных форм дает следующую комбинаторику вариантов: Модель 1. Тест-экзамен. Промежуточные формы отчетности (контрольные, коллоквиумы, рефераты) учитываются по принципу "зачет-незачет". Итоговая оценка формируется на экзамене в тестовой форме. Модель 2. Тестирование-фильтр. В промежуточных формах контроля ключевую роль играет тест. Его результаты засчитываются по принципу "Зачет-допуск". Но результаты теста не учитываются на итоговом экзамене. Модель 3. Система накопленных баллов: тесты дают определенные баллы плюс проводится классический экзамен (устный или письменный). Модель 4. Система накопленных баллов: практические работы плюс тестовый экзамен. Модель 5. «Трехкатегориальный фильтр». Это особая модификация модели-2. Тест проводится как форма предэкзаменационного контроля. По результатам теста все студенты делятся на три категории, разные по численности.
Вторая глава - «Современные тестовые технологии» - посвящена анализу опыта, построению и обоснованию авторской модели конструирования тестов контроля профессиональных достижений.
В первом параграфе кратко освещаются (подробное рассмотрение и анализ происходит в следующих параграфах данной главы диссертации) этапы конструирования тестовой методики контроля знаний.
На основании анализа литературных источников и собственного многолетнего опыта разработки и проведения оценочных тестовых процедур, нами был предложен следующий список этапов разработки тестов достижений: 1) определение целей тестирования с учетом организационного контекста (в
разных образовательных учреждениях разные ситуации, традиции, возможности учащихся и преподавателей по созданию новых или использованию готовых тестов); 2) определение ресурсных возможностей разработчиков; 3) выбор организационно-технологического решения; 4) отбор содержания учебного материала; 5) конструирование технологической матрицы (форма представления отбора содержания образования для конструирования тестов достижений) и-или спецификации варианта теста, экспертиза матрицы и спецификации; 6) составление тестовых заданий или банка заданий (это отдельный этап и по времени и организационно); 7) экспертиза. Возможная доработка заданий, не прошедших экспертизу; 8) формирования выборки для апробации заданий и тестов; 9) компоновка заданий для апробации; 10) апробация тестовых заданий и вариантов; 11) определение и расчет показателей качества тестовых заданий; 12) отбраковка неудачных заданий и составление теста (рабочего банка заданий); 13) возможная доработка (коррекция) отбракованных заданий; 14) апробация вариантов теста; 15) определение и расчет показателей качества теста; 16) составление окончательного варианта теста (банка и алгоритма формирования вариантов на его основе); 17) стандартизация теста (комплекс процедур и мероприятий, позволяющий создать для всех испытуемых равные условия). 19) нормирование теста (процесс получения количественных или качественных характеристик инструментария, на основе сравнения с которыми можно дать оценочное суждение); 20) оснащение теста (издание в буклетной или электронной форме со всеми сопутствующими инструктивными материалами).
Во втором и третьем параграфах рассматриваются основные составляющие этапа определения целей тестирования, а также состав и типы тестовых заданий, необходимых для реализации целей диагностики профессиональных знаний.
В самом общем виде тестовые задания должны (Майоров, 1996; Клайн, 1994; Cheung, Bucat, 2002; Burton at al., 1991; Frary, 1996; Kahoe, 1995): быть составлены с учетом соответствующих правил; соответствовать содержанию учебного материала; быть проверены на практике (апробированы); иметь рассчитанные показатели качества — трудность и дискриминативность (способность задания разделять испытуемых в соответствии с успешностью их деятельности); быть достаточно краткими, ясными испытуемому.
Нами были разработаны более подробные рекомендации авторам тестовых заданий, ознакомиться с которыми можно в приложении 21 основного текста диссертации.
Также в данном параграфе нами были подробно рассмотрены типы тестовых заданий, которые так же наиболее часто выделяют в литературе (Аванесов, 1998; Кэйс, Свенсон, 1996; Майоров, 2000; Морев, 2004).
В четвертом параграфе обсуждается возможность применения психосемантических технологий в диагностике знаний.
В нашем исследовании мы решили попробовать сократить разрыв между традиционной формой контроля и тестовой. В сферу оценки учебных достижений нами был привнесен психосемантический метод многомерного шкалирования данных (Терехина, 1983, 1986) и метод концептуального картирования (Шмелев, 1994, 2002; Aidman, Ward, 2002; Hammond, Allinson, 1987).
Научные традиции факультета психологии МГУ связывают психосемантику преимущественно с академическими и прикладными исследованиями в области экспериментального изучения Образа мира в его различных аспектах (Артемьева, 1980; Петренко, 1983, 1988; Шмелев, 1983; Климов, 1995). Психосемантический подход в меньшей степени развивался в направлении прикладной образовательной диагностики. В данной работе обозначена одна из первых попыток применения этого подхода к оценке знаний студентов.
По нашему мнению, для человека, хорошо усвоившего материал, эта система понятий имеет более четкую структуру. Другими словами, система понятий может быть представлена структурой, опирающейся на четкие факторы.
В пятом, шестом, седьмом, восьмом, девятом, десятом, одиннадцатом и двенадцатом параграфах содержательно рассматриваются особенности каждого их этапов разработки тестовых методик. Обсуждаются основные аспекты процедуры экспертной оценки тестовых заданий, рассматривается основное содержание и задачи этапа апробации тестовых заданий, основные параметры качества тестовых заданий и теста в целом, а также методы их получения и анализа (в частности, трудности тестовых заданий - в классической тестологии и тестологии на базе IRT), вычисление дискриминативности тестовых заданий, измерение общих психометрических свойств теста в целом. Обсуждается авторский опыт применения, возможностей и преимуществ Интернет- и компьютерных технологий на всех этапах разработки тестового инструментария. Также подробно рассматриваются вопросы стандартизации процесса тестирования и вопросы, связанные с процедурой нормирования (получение количественных или
качественных характеристик инструментария, на основе сравнения с которыми можно дать оценочное суждение).
Как уже говорилось во введении, в условиях интенсивного развития новых информационных технологий (в частности, Интернет-технологий) в фокусе внимание специалиста, занятого решением прикладной проблемы, должны оказываться не только психометрические (тестологические) аспекты, но и психолого-эргономические аспекты проблемы. Информационная среда взаимодействия различных участников процесса конструирования и использования тестов в идеале должна быть организована так, чтобы содействовать их интеграции, но не дезинтеграции. По нашему мнению, это происходит тогда, когда педагоги чувствуют свою востребованность, свою включенность в процессы создания и применения тестовых технологий - в качестве авторов тестовых заданий, в качестве авторов логико-математических семантических моделей представления знаний, в качестве экспертов тестовых заданий, в качестве экспертов по подготовке окончательного комплексного заключения по оценке знаний студентов.
В тринадцатом параграфе рассматриваются основные критерии оценки пользовательского интерфейса программных средств экспертизы измерительных материалов и проведения тестирования, а также предложены варианты технологических решений. Выделяются характеристики, которыми обладает графический интерфейс пользователя, а также этапы его проектирования.
В четырнадцатом параграфе формулируются основные выводы из теоретико-методологической части.
Третья глава - «Опыт конструирования компьютеризированного теста контроля знаний для студентов-психологов» - посвящена анализу результатов разработки и внедрения тестовой технологии на факультете психологии МГУ им. М.В. Ломоносова.
Первый параграф посвящен изложению целей и гипотез исследования.
В этом разделе диссертации были сформулированы и обоснованы частные гипотезы исследования:
пропуск, по крайней мере, одного этапа в оптимальной последовательности шагов по конструированию теста, может привести к резкому снижению качества создаваемого инструмента;
целостность структуры знаний учащегося взаимосвязана с академической успеваемостью;
психологическая позитивная установка преподавателей на
использования тестовой технологии контроля формируется легче на основе принципа соучастия преподавателей в разработке самой технологии - на этапе конструирования банка тестовых заданий (в качестве авторов и экспертов по оценке и отбору тестовых заданий), а также при использовании тестовых баллов в качестве дополнительного источника информации, не отменяющего применения традиционных экзаменационных процедур.
Второй параграф посвящен описанию методики экспериментального исследования и методики обработки результатов. Особе внимание в экспериментально-методической части работы уделялось инструментальному оснащению нашего исследования, его технологическому, аппаратурно-методическому базису:
1) Основные серии тестирования студентов проводилось с использованием специализированного программного комплекса тестирования «Maintest» (Мэйнтест), разработанного по руководством профессором кафедры психологии труда МГУ им. М.В. Ломоносова А.Г. Шмелевым (программная реализация О.Н. Кононов);
2) В работе использована технология «виртуальной лаборатории», позволяющая организовать пространственно-распределенный процесс сбора экспертных оценок: данные экспертизы тестовых заданий собирались с использованием специализированного Интернет-комплекса «Личный кабинет для он-лайн исследований» и обрабатывались в специализированной для этой цели оболочке «Ехрап», разработанной А.Г. Шмелевым (программная реализация Д.М. Ильиных);
3) Данные о когнитивной сложности представлений учащихся (данные о целостности представлений) собирались и обрабатывались с использованием специализированной психосемантической методики «Тест когнитивной сложности «11 слов», разработанной А.Г. Шмелевым (программная реализация А.Г. Ларионов).
4) Методы математической и статистической обработки и представления данных (статистический блок программного комплекса тестирования «Maintest», статистический пакет «Microsoft Excel»).
В ходе исследовательских работ по гранту РФФИ №01-06-80382 был составлен набор тестовых заданий по курсу общей (8 тем, 160 вопросов) и прикладной психологии (4 темы, 80 вопросов). Для прохождения теста на этапе первичной апробации каждому из участников (испытуемых) генерировался вариант, состоящий из 48 вопросов (по 4 из каждого тематического блока: 48 = 12 * 4). В исследовании на этапе апробации приняли участие 116 человек
(учащиеся 3-5 курсов факультета психологии МГУ им. М.В. Ломоносова, а также выпускники прошлого года), во второй серии в общей сложности 302 человека (учащиеся 5-6 курсов факультета психологии МГУ им. М.В. Ломоносова, а также учащиеся 3 курса факультета психологии ГУ ВШЭ). После полного цикла апробации первичного теста осталось не более 27 процентов заданий, пригодных для использования. Примерно 20 процентов заданий были переформулированы.
Таким образом, полученные на первом этапе результаты неизбежно привели к тому, что следующая версия банка заданий должна была включать гораздо большее количество заданий. Такой банк был создан и включал в себя 320 заданий по 8 разделам общей психологии, работа с заданиями по прикладной психологии по ряду причин не продолжалась.
Методика независимой экспертизы представляла собой стандартный вариант оценки заданий по двум критериям: сначала эксперту необходимо было дать свой ответ на вопрос (решить задачу), а затем оценить его по двум характеристикам - сложность и качество. В работе приняли участие 10 экспертов - сотрудники кафедр психологии труда и общей психологии факультета психологии МГУ.
Данные экспертизы обрабатывались с использованием следующих методов: 1) графический анализ данных сопоставления ожидаемых и реальных показателей эксперта; 2) классические четырехклеточные матрицы сопряженности Гилфорда (корреляция компетентности эксперта с оценками сложности и качества заданий); 3) корреляционный балл - коэффициент линейной корреляции Пирсона всех оценок, данных экспертом (по всем парам «объект * критерий»), с усредненными оценками всех остальных экспертов; 4) балл близости - коэффициент «косинус», указывающий на близость индивидуального профиля к профилю остальных экспертов (с учетом уровня критичности).
Данные тестирования обрабатывались с использованием следующих методов: 1) расчет трудности заданий - алгоритм теории параметризации педагогических тестов ЖТ; 2) расчет дискриминативности тестовых заданий -точечно-бисериальный коэффициент корреляции; 3) сравнение экспертных оценок с показателями, полученными в ходе апробационных циклов, сравнение результатов прохождения тестирования респондентами с их объективными показателями успеваемости, сравнение уровня консистентности представлений и показателями успешности прохождения теста, а также показатель ретестовой надежности - коэффициент линейной корреляции
Пирсона; анализ значимости различий между коэффициентами корреляции - т.-преобразование Фишера для выборочного коэффициента корреляции; 4) надежность-согласованность пунктов - коэффициент корреляции «альфа» Кронбаха; 5) анализ когнитивной сложности - коэффициенты консистентности и дифференциронности, матрица сопряженности.
Третий, четвертый и пятый параграфы посвящены изложению результатов эксперимента и их обсуждению.
В результате проведенного нами исследования мы выяснили, что требование к соблюдению всех этапов создания тестирования, по крайней мере, тех, которые мы могли произвести, имеет вполне обоснованные причины. Возможность работы с полученными данными в результате разных подходов к оценке, обеспечиваемая многосторонним и гибким взаимодействие разноплановых структур: экспертные оценки позволяют судить о работе теста с позиций теоретико-педагогического видения, а анализ результатов позволяет выявить особенности, проявляющие в конкретных условиях взаимодействия субъекта с инструментарием. Такой разносторонний подход обеспечивает возможность создания по-настоящему качественного, научно-обоснованного теста контроля знаний.
Нами было показано, что те задания, на которые эксперт давал неправильный ответ, оценивались им, как низкокачественные, а применительно к нашей гипотезе зависимость констатируется в следующей формулировке: точность экспертных оценок обратно-пропорциональна субъективной оценке качества заданий. Этот факт можно объяснить тем, что на те вопросы, на которые эксперт не может дать однозначного ответа или же просто угадывает его, он склонен называть низкокачественными.
Анализ структуры аналогичных показателей средних оценок качества и сложности для правильно решенных заданий показывает нам их устойчивость от блока к блоку и близость их между собой внутри шкал. И хотя, на первый взгляд, может показаться, что ситуация должна быть прямо противоположной, то есть оценки правильно решенных заданий должны быть диаметрально противоположны оценкам заданий, на которые эксперт не знал правильного ответа. Ошибочность данного утверждения заключается в том, что по отношению к оценкам вопросов, на которые эксперт не дает правильного ответа, работают защитные механизмы самооценки, а вот по отношению к вопросам, где эксперт отвечает уверенно - оценочная стратегия (установка) оказывается более либеральной (менее строгой).
Как мы выяснили, компетентность эксперта все же влияет на оценку им
качества и сложности тестового задания, а разработанные нами методы позволяют расширить круг качественных заданий, но этот метод не дает нам возможность судить однозначно о влиянии компетентности экспертов на их оценки заданий.
Благодаря методу экспертных оценок, мы смогли провести предварительный отбор пунктов по рейтингу, составленному на основе взвешенных критериев, построить шкальные профили объектов (в данном случае эти объекты - это тестовые задания), позволяющие работать с пунктами теста по оценкам отдельных критериев. А также нами были разработаны схемы проведения анализа необходимости принятия на рассмотрение или отказа от оценок экспертов как на основе качественно-количественных, так статистических методов. Такая гибкая система позволяет более надежно произвести отбор пунктов, учитывая качество и согласованность работы экспертов.
Мы выяснили, что низкая согласованность экспертов, скорее всего, не есть результат содержательной стороны теста, а следствие различия в индивидуальном понимании каждым экспертом смысла и значения каждого из оцениваемых критериев, а также уровня требовательности, предъявляемого экспертом по отношению к тесту. На основе этого нами была разработана схема повышения надежности показателя согласованности посредством как расширения группы экспертов, так и работы по согласованию понимания критериев у уже имеющихся экспертов.
Нами были рассчитаны статистические показатели прохождения теста для первичного и вторичного циклов апробации. В целом задания теста являются средними по уровню трудности, тем не менее, изначально в тесте присутствовали и сложные, и легкие задания, однако, после работы с банком заданий количество очень трудных и очень легких заданий сократилось. Диапазон средней трудности достаточно широк, что отдельно взятые блоки вопросов обладают достаточно хорошей сбалансированности вопросов, но внутри среднего диапазона.
Нами был рассчитан важный показатель корреляции сложности (на основе экспертных оценок) и трудности (на основе прохождения теста) тестовых заданий. Коэффициент оказался значимым, что для данного массива объектов, то есть оценка сложности заданий экспертами находит свое отражение в реальной трудности этих же заданий при прохождении теста студентами. Другие показатели согласованности двух подходов подсчитаны на значимом уровне нами получены не были.
Проведенный нами предварительный анализ внутренней валидности шкал теста показал достаточно высокую интеркорреляцию шкал теста между собой, что является признаком не высокой дискриминантной валидности соответствующих субтестов. То есть диагностируемая ими сфера знаний сужается из-за сильной взаимосвязи знаний по одной области со знаниями по другой, что, конечно, может быть использовано при проведении комплексного тестирования по общей или прикладной психологии.
Анализ пунктов теста показал наличие плохо «работающих» или неработающих вопросов на этапе первичной апробации, число которых составило более половины от общего количества вопросов теста. Так же было отмечено, что достаточно маленький процент вопросов работает на свои шкалы: в большинстве случаев, даже если вопрос и работает на родную шкалу, то зачастую он работает еще и на какую-либо из других шкал. Нами были получены внешние показатели качества теста, которые показывают, что тестовая форма контроля дает согласованные (валидные) результаты с традиционной формой контроля, а значит, может быть использована для контроля, например, фактологических знаний на этапе экзаменационной аттестации. Ниже (рис. 1) приведены полученные в ходе исследования коэффициенты корреляции (уровень значимости 0,01) тестовой формы контроля с другими показателями успеваемости.
Интегральная успеваемость
Тест + уст. экзмен 0,47 (0,58)
Рис. 1. Связь тестовой формы контроля с другими показателями (в скобках указаны коэффициенты корреляции без учета средней группы - балл от 26 до 32)
Аналогичный анализ связи интегрального балла, в котором суммируются результаты студента по тесту и на экзамене (тест + уст. экзамен на рис.1), с общей академической успеваемостью (баллом диплома) показал, что лучше всего коррелирует с «общей академической успешностью» именно
интегральный балл. По данным 2005 года он примерно на 0,1 выше, чем каждый из показателей (тестовый балл и оценка на гос. экзамене) в отдельности, что непосредственно указывает на преимущество комплексной оценки. В 2005 году наша основная гипотеза была подтверждена на уровне значимости 0,05, однако, уже в 2007 году (результаты исследований этого года не вошли в основной текст данной работы) нами были получены аналогичные показатели на большей выборке (170 человек), при этом гипотеза подтвердилась уже на уровне значимости 0,01.
Нами была обнаружена связь между некоторыми структурными параметрами целостной системы представлений, в частности, таким как «консистентность», и академической успеваемостью. Эта связь оказалась прямолинейной, то есть с ростом тестового балла растет консистентность понятийной системы.
В шестом параграфе работы рассматриваются различные примеры -такие, когда тот или иной вопрос, получая высокую оценку сложности у экспертов, оказывается легким по результатам прохождения учащимися тестирования. Или же такие задания, где оценки получились максимально скоррелированными.
Общие выводы:
1. Комплексный подход к проблеме диагностики учебных достижений имеет статистически значимо более высокий уровень точности (валидности) оценки по сравнению с традиционной и тестовой формами контроля, применяемыми по отдельности. Тестовые испытания должны не заменять, но дополнять собой традиционные устные экзамены.
2. Получаемые в результате тестирования данные позволяют: а) прогнозировать успешность сдачи студентами госэкзамена по общей психологии; б) обладают высокой конкурентной валидностью с традиционным госэкзаменом по отношению к такому интегральному критерию как «общий уровень подготовленности студентов на основе оценок за всю историю обучения в вузе».
3. Была разработана, компьютеризирована и апробирована технология конструирования тестов профессиональных достижений, основными особенностями которой являются следующие ключевые этапы: а) авторский цикл, б) экспертный цикл в рамках которого при помощи компьютерных технологии собираются первичные данные о трудности и качестве тестовых заданий еще до предъявления испытуемым, в) апробация тестовых заданий, скомпонованных определенным образом, на пилотной выборке (определения
первичной статистической трудности заданий, оценка качества с позиции тестируемого, определение объективных параметров собственно процесса тестирования); г) формирование основного банка тестовых заданий с учетом данных, полученных в результате пилотной апробации; д) проведение основного тестирования; е) анализ результатов проведения основного тестирования.
4. Работа с экспертными оценками дала нам возможность, по крайней мере, частично понять, на каком уровне и каким образом происходит взаимодействие эксперта с тестовыми заданиями, какие факторы могут влиять на оценки эксперта. Субъективная оценка качества заданий обратно-пропорциональна точности экспертных оценок.
5. Применение именно Интернет-технологии тестирования создает не только операциональные удобства (скорость сбора данных и их последующей обработки, защита банка заданий от разглашения путем рандомизации вариантов), но и изменяет в ряде существенных моментов социально-психологическую ситуацию..
6. Нами было получено подтверждение перспективности предложенного нами пути преодоления «разрыва» между традиционной и тестовой форм системы контроля академической успеваемости посредством внедрения технологии семантического шкалирования (методов психосемантики) в сфере диагностику знаний, что дает нам возможность дальнейшего продолжения работ в этом направлении - по расширению репертуара тестовых технологий, опирающихся слишком часто на одни лишь задания с вынужденным выбором - не чувствительные к целостной организации индивидуальной понятийной системы.
Основное содержание диссертации отражено в следующих публикациях: Статьи в рекомендованных ВАК изданиях
1. Чумаков A.A. Опыт компьютеризированного тестового контроля знаний у студентов-психологов /Чумаков A.A.// Вестник Московского университета. Серия 14. Психология. -М.: Изд-во Московского университета, 2006, № 4. - 0,5 п.л.
Научные статьи и тезисы докладов
2. Чумаков A.A. Разработка тестов контроля знаний для факультетов психологии /Чумаков A.A.// Материалы юбилейной конференции посвященной 120-летию МПО. - М.: Эслан, 2004. - 0,2 п.л.
3. Чумаков A.A. Применение метода экспертных оценок при разработке теста контроля знаний у студентов-психологов/Чумаков A.A.//
Материалы Всерос. научной конференции «Психологическая теория и практика в изменяющейся России». - Челябинск: ЮрГУ, 2006. - 0,3 п.л.
4. Чумаков A.A. Опыт использования компьютеризированного теста образовательных достижений для оценки уровня подготовки выпускников психологического вуза /Чумаков A.A., Шмелев А.Г.// Материалы Межрегиональной научно-практической конференции «Прикладная психология как ресурс социально-экономического развития современной России». - М.: AHO УМО «Инсайт», 2005. - 0,2 п.л} (авторский вклад 50%)
Принято к исполнению 09/03/2007 Исполнено 12/03/2007
Заказ № 162 Тираж: 100 экз.
Типография «11-й ФОРМАТ» ИНН 7726330900 115230, Москва, Варшавское ш., 36 (495)975-78-56 www.autoreferat.ru
Содержание диссертации автор научной статьи: кандидата психологических наук, Чумаков, Александр Алексеевич, 2007 год
ВВЕДЕНИЕ.
ЧАСТЬ 1.
ГЛАВА 1. МЕТОД ТЕСТОВ В ОБРАЗОВАНИИ: ИСТОРИКО
МЕТОДОЛОГИЧЕСКИЙ АНАЛИЗ.
§ 1. Исторический контекст.
§ 2. Место тестов в системе образования.
§3. Тестирование и компетентностный подход.
§ 4. Преимущества и недостатки методик тестирования и проблемы их использования.
§ 5. Классификации тестовых методик и преимущества современных технологий тестирования.
§6. Возможные модели сочетания тестовых и традиционных технологий контроля.
ГЛАВА 2. СОВРЕМЕННЫЕ ТЕСТОВЫЕ ТЕХНОЛОГИИ.
§ 1. Этапы создания тестовых методик контроля знаний.
§2. Первый этап разработки тестовой методики.
§3. Состав и типы тестовых заданий, контекст их различного применения
§4. Психосемантические технологии в диагностике знаний.
§5. Экспертиза тестовых заданий.
§6. Апробация тестовых заданий.
§7. Показатели качества теста и тестовых заданий.
§8. Анализ трудности тестовых заданий - в классической тестологии и тестологии на базе И1Т.
§9. Вычисление дискриминативности тестовых заданий.
§ 10. Измерение общих психометрических свойств теста в целом.
§11. Стандартизация.
§ 12. Нормирование.
§13. Пользовательский интерфейс и функционально-технологическая схема.
ВЫВОДЫ.
ЧАСТЬ 2.
ГЛАВА 3. ОПЫТ КОНСТРУИРОВАНИЯ
КОМПЬЮТЕРИЗИРОВАННОГО ТЕСТА КОНТРОЛЯ ЗНАНИЙ ДЛЯ СТУДЕНТОВ-ПСИХОЛОГОВ.
§ 1. Задачи экспериментально-методического исследования.
§2. Схема исследовательской части.
§3. Результаты первичного апробационного цикла.
Особенности работы с данными экспертного цикла.
Отбор заданий на основании экспертных оценок.
Статистическая обработка результатов прохождения теста.
Оценка трудности тестовых заданий.
Внутренняя валидность.
Надежность-согласованность пунктов.
§4. Результаты второго цикла апробации.
Распределение сырых баллов и общий анализ трудности теста по субшкалам.
Анализ трудности тестовых заданий.
Корреляция пунктов со шкалами и дискриминативность тестовых заданий.
Поиск внешних показателей качества теста (проверка валидности по внешнему критерию).
Ретестовая надежность.
§5. Проверка связи когнитивной сложности с академической успеваемостью.
§6. Примеры.
ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ.
ВЫВОДЫ.
Введение диссертации по психологии, на тему "Методика конструирования тестов профессиональных достижений с использованием Интернет-технологий"
Актуальность исследования
Настоящий этап социально-экономического развития характеризуется значительным ростом числа компаний, ориентированных на долгосрочное сотрудничество с персоналом и, как следствие, вкладывающих существенные средства в профессиональное развитие и обучение сотрудников. Одним из важнейших направлений становятся проблемы оценки уровня профессиональной компетентности, уровня подготовленности к решению профессионально специфичных задач, эффективности профессионального обучения, а также выявление пробелов в знаниях у начинающих профессионалов и их своевременное доучивание при помощи различных методов и приемов (Смирнов, 2005). Одной из частных, но в то же время ключевых и фундаментальных задач, является внедрение комплексных технологий (в ряде случаев ориентированных на среду Интернет), целью которых является повышение качества подготовки специалиста еще на этапе обучения в профессиональных учебных заведениях.
С начала 90-х годов в российской системе высшего профессионального образования наблюдается ярко выраженное усиление интереса к методам объективного (инструментального) контроля результатов обучения, в частности к педагогическим тестам. Эти перемены являются отражением современных мировых взглядов на роль контрольно-оценочной системы в образовании, когда контроль, оценка и обучение рассматриваются как взаимосвязанные и взаимопроникающие составляющие единого образовательного процесса (Звонников, Челышкова, 2003).
Эти перемены имеют также в качестве одной из причин массовую компьютеризацию (активное внедрение Интернет-технологий) образовательных учреждений, а также «корпоративных университетов» -систем профессиональной переподготовки кадров внутри современных корпораций. Этот процесс создает материально-технические предпосылки для использования стандартизированных процедур (тестов) как средства автоматизации системы контроля. Прикладное применение тестов профессиональных достижений затрагивает в настоящее время не только вузы, но и крупные производственные предприятия, вынужденные в условиях научно-технической революции постоянно заниматься процессами переподготовки персонала и самим осуществлять контроля качества переподготовки. Развитие непрерывного образования выражается в постоянной работе профессионала над своими профессиональными знаниями. Тесты профессиональных достижений в этих условиях являются одним из основных инструментов для объективной обратной связи об эффективности результатов этого непрерывного образования.
В последние два десятилетия в России тестовые технологии контроля достигли масштабов таких широко-известных общефедеральных государственных проектов как Единый государственный экзамен (ЕГЭ) для выпускников учреждений среднего образования и поступающих в вузы. Но и на уровне отдельных образовательных учреждений (отдельных школ и вузов), а также на уровне отдельных дисциплин тестовые технологии внедряются очень интенсивно. Это, по-видимому, обусловлено несколькими факторами, к числу которых можно отнести: а) переходом России к рыночной экономике, в рамках которой востребованы более объективные и одновременно более дешевые по реализации процедуры контроля за уровнем подготовки профессиональных кадров, б) глобальной микрокомпьютерной революцией и значительным ростом числа пользователей (как отдельных лиц, так и целых сообществ), использующих для решения профессиональных задач среду Интернет, позволяющей значительно ускорить и автоматизировать многие этапы разработки и применения тестовых технологий.
Вместе с тем данные процессы - процессы внедрения тестовых технологий - еще не стали в отечественной психологии предметом систематического изучения не только со стороны психометрической (математико-психологической теории измерений), но и со стороны инженерно-психологической (что требует изучение психологии пользователей тестовых технологий) и со стороны организационно-психологической составляющей (что требует изучение социально-психологических факторов и барьеров на пути внедрения).
В сфере российского образования усиление интереса к методам объективного контроля результатов обучения, в частности к педагогическим тестам, сопровождается главным образом усилиями небольшой группы тестологов по «ликвидации тестологической безграмотности» педагогических работников: в системе Минобразования и науки РФ в 2003 году создается Федеральный Институт Педагогических Измерений (ФИЛИ), учреждаются кафедры педизмерений (в таком вузе как РУДН). После известного постановления ЦК ВКБ(б) от 1936 года упущено фактически полвека в процессе формирования определенной базовой тестологической культуры. Нет сколько-нибудь единых представлений о базовых понятиях и процедурах в этой области. Отсюда возникает риск новых нарушений и извращений в ходе применения метода тестов, которые уже однажды в эпоху Советской России привели к негативной реакции на этот метод не только на уровне правящей верхушки, но и у массы российских работников образования.
В последние годы в обширной психолого-педагогической литературе все чаще акцентируется внимание на трудностях и проблемах, связанных с оценкой знаний: недостаточная сформулированность целей образования и, следовательно, критериев оценки, субъективизм производящего оценивание, отсутствие четких критериев, по которым производится оценка, и т.п. Попыткам решения с разных позиций этих проблем посвящены многие работы психологов, педагогов, методистов (Аванесов, 1998; Гильбух, 1976; Зинченко, 1982; Клайн, 1994; Майоров, 2000; Талызина, 1975; Шмелев, 1999; Огоп1ип(1, 1988). Однако, сама по себе тестовая технология, даже разработанная по всем правилам математической теории тестов, не снимает ряда психологических проблем. Возникает практическая проблема такой организации информационно-коммуникативной среды в процессе создания и применения тестов, которая бы снимала негативный эффект психологического отчуждения преподавателей (наставников на производстве) от образовательного процесса.
В работах наиболее системно-мыслящих специалистов тестовый контроль рассматривается не как изолированный инструмент, но входит в систему методов контроля - как элемент комплексной оценки качества знаний учащихся (студентов вузов, в частности). Технология комплексной оценки качества знаний студентов включает в себя учет текущей работы студентов, результаты промежуточного и итогового контроля знаний студентов, а также учет степени сохранности полученных знаний через какое-то время после экзамена. Это может быть достигнуто интеграцией как однотипных форм контроля (тестовых), проводимых в течение определенного периода обучения, так и разнотипных форм (в качестве дополнительного средства принятия решения об уровне усвоения знаний).
Одним из актуальных направлений является проблема использования особых сетевых инструментально-измерительных технологий для оценки образовательных достижений учащихся, которая набирает новую высоту в связи, с внедрением Интернета и других информационно-коммуникационных технологий. Новые информационные технологии инициируют развитие новых подходов к технологиям обучения, включая дистанционное образование. Однако неверным было бы предполагать, что информатизация процессов контроля усвоения знаний способна автоматически решить очерченные выше проблемы. Чрезвычайно важным является вопрос разработки четкой и научно обоснованной психолого-педагогической концепции создания и внедрения компьютеризированных тестовых методик контроля знаний.
Тестирование - это быстрый и в зависимости от контекста применения эффективный способ контроля и оценки учебных достижений, позволяющий регулярно проводить мониторинг уровня освоения учебного материала студентами и своевременно обеспечивать необходимое взаимодействие между учащимися и преподавателями, направленное на повышение качества образования. В повседневной практике контроля знаний использование систем тестирования позволяет повысить качество контроля, снизить долю субъективизма в процессе контроля знаний, сократить время для проведения зачетных занятий, повысить заинтересованность студентов в результатах обучения, осуществить на практике принцип единства требований к уровню знаний, получить объективную информацию о владении студентом определенными знаниями, умениями и навыками и соотнести эти данные с задачами обучения для своевременной коррекции процесса усвоения новых знаний. Для успешного внедрения и реального содействия эффективности учебного процесса, по мнению автора данной работы и его научного руководителя, тестовые формы контроля знаний должны не подменять, но дополнять традиционные, сложившиеся формы контроля успеваемости. При этом могут быть достигнуты, как минимум, 3 следующие методические и педагогические цели (Чумаков, 2006):
1) Получение объективных статистических данных о результативности учебных курсов и трудностях в усвоение определенных элементов содержания образования.
2) Повышения мотивации и ответственности в отношении студентов к контролю их образовательных достижений.
3) Совершенствование традиционной схемы приема экзаменов - в случае обнаружения резких расхождений между оценками экзаменаторов и оценкам студентов по тестам следует производить, как минимум, дополнительное устное собеседование экзаменаторов с экзаменуемым по материалам курса.
Учитывая вышесказанное, можно сформулировать следующие условия эффективного внедрения тестового контроля в практику работы образовательного учреждения:
1) Наличие базовой тестологической грамотности педагогического коллектива: преподаватели, использующие эту форму контроля, должны понимать сильные и слабые стороны тестового контроля, знать типологию тестовых заданий и смысл статистических процедур их отбора, понимать устройство тестовых шкал и статистические принципы педагогической диагностики.
2) Наличие адекватного программно-технического обеспечения: современный тестовый контроль требует компьютерной базы и для формирования тестов, и для их проведения, и для хранения их результатов. Не последнюю роль здесь играет создание и внедрение удобных эргономических решений, облегчающих работу непрофессиональных пользователей ЭВМ с тестовыми материалами и результатами.
3) Наличие адекватного организационно-управленческого решения, обеспечивающего разумное сочетание тестового контроля с действующей в той или иной степени налаженной системой оценки образовательных достижений учащихся.
По-видимому, в отсутствие одного из этих трех необходимых компонентов (психометрического, инженерного и организационно-управленческого обеспечения) попытки внедрения тестового контроля обречены на неудачу.
Данный общий тезис изучается в настоящей работе методом социально-практического эксперимента - на опыте внедрения системы тестового контроля в практику работы одного образовательного - факультета психологии МГУ.
Таким образом, к концептуальным вопросам развития сферы образования целесообразно отнести вопрос создания системы компьютерного тестирования, которая бы не отчуждала преподавателей от процесса контроля, но позволяла им активно влиять на образовательный процесс, способствовала эффективному усвоению учебного материала студентами, и использовалась, с одной стороны, преподавателем для промежуточного и итогового контроля знаний и, с другой стороны, учащимся для самооценки уровня подготовленности в процессе самостоятельной работы.
Однако неверно было бы предполагать, что одна лишь информатизация процессов контроля усвоения знаний способна решить очерченные выше проблемы. Чрезвычайно важным являются и вопросы психометрического обеспечения - вопросы разработки четкой и научно обоснованной концептуальной методологической основы для создания тестовых методик контроля знаний, и вопросы организационно-управленческого обеспечения -вопросы создания адекватного организационно контекста, позволяющего не только проводить тесты, но и адекватно учитывать их результаты в работе образовательного учреждения. *
В настоящей работе из указанных трех факторов, обеспечивающих внедрение тестовых технологий, преимущественное внимание уделяется первому фактору. И это не случайно, ибо в отсутствие базовой тестологической культуры, крайне трудно привести в действие два других фактора процесса внедрения тестовых технологий - инженерно-психологический и социально-психологический (организационно-управленческий). Но это не означает, что автор работы не понимает важной роли двух последних факторов. Сама по себе тестологическая (психометрическая) культура создает лишь предпосылку, но не является достаточным условием успешного внедрения тестовой технологии.
Как уже говорилось выше, в условиях интенсивного развития новых информационных технологий (в частности, Интернет-технологий) и стремительного темпа информатизации образования возникает новый комплекс научно-прикладных проблем, связанных с внедрением как известных тестовых технологий контроля знаний, так и принципиально новых методов. В этих условиях в фокусе внимание специалиста, занятого решением прикладной проблемы, должна оказываться не только психометрические (тестологические) аспекты, но и психолого-эргономические аспекты проблемы.
Таким образом, по содержанию решаемых научно-теоретических и научно-прикладных задач данное исследование оказывается на стыках следующих психологических дисциплин: а) общая психология и психодиагностика (разрабатывались тесты знаний именно по этим дисциплинам), б) инженерная психология и психология труда (рассматривались вопросы оптимизации информационных потоков и организации мобильных автоматизированных рабочих мест (АРМ) авторов-экспертов тестовых заданий, проблемы диагностики уровня профессиональных достижений, являющейся одним из этапов оценки квалификации профессионала, вопросы применения различных психодиагностических процедур и методов при оценке уровня профессиональных достижений, организационно-психологические аспекты внедрения тестовой системы контроля в учебно-информационную среду вуза); в) педагогическая психология (рассматривались вопросы педагогических измерений и оптимизации системы контроля образовательных достижений), г) социальной психологии (рассматривались проблемы мотивации, а также' социально-психологические барьеры, мешающие участию студентов и преподавателей в освоении новой технологии).
Обозначенный выше научно-прикладной контекст позволяет автору сформулировать основные гипотезы исследования на основе определенного понимания предмета, объекта, целей и задач работы.
Объектом исследования явилась процедура оценки профессиональных знаний студентов старших курсов психологических факультетов вузов.
Предметом исследования явились теоретико-методологические принципы и практические процедуры разработки тестов профессиональных знаний с использованием Интернет-технологий.
Методическая цель исследования: построение методической схемы и апробирование технологической модели разработки педагогических компьютерных тестов контроля знаний с использованием Интернет-технологий.
Прикладная цель исследования: разработка инструментария для независимого и объективного тестового контроля знаний студентов-психологов.
Основная научная гипотеза исследования: тестовая форма контроля дает согласованные (валидные) результаты с традиционной формой контроля, но не дублирует эту форму, то есть, позволяет диагностировать особые свойства в структуре и качестве знаний. На этой гипотезе базируется основная практическая рекомендация для разработчиков тестовых систем в вузе: тестовая и традиционная формы контроля должны дополнять друг друга.
Частные гипотезы исследования:
- пропуск, по крайней мере, одного этапа в оптимальной последовательности шагов по конструированию теста, может привести к резкому снижению качества создаваемого инструмента; целостность структуры знаний учащегося взаимосвязана с академической успеваемостью; психологическая позитивная установка преподавателей на использования тестовой технологии контроля формируется легче на основе принципа соучастия преподавателей в разработке самой технологии - на этапе конструирования банка тестовых заданий (в качестве авторов и экспертов по оценке и отбору тестовых заданий), а также при использовании тестовых баллов в качестве дополнительного источника информации, не отменяющего применения традиционных экзаменационных процедур.
Отдельные задачи исследования:
- выявить этапы, необходимые для создания полноценной и качественной методики тестирования знаний;
- выделить необходимые критерии, которым должен удовлетворять качественный тест достижений;
- выяснить концептуальные особенности различных принципов и подходов к созданию тестового инструментария и проанализировать, каким же должен быть тест достижений (на факультетах психологии и других центрах подготовки психологов) в зависимости от его целевого назначения;
- выяснить, какие факторы (в том числе организационные и социально-психологические) препятствуют успешному внедрению тестовых технологий в образовательную среду современного российского вуза, подготавливающего психологов; апробировать новую технологическую модель Интернет-ориентированного банка тестовых заданий, обеспечивающую опосредованность, независимость и оперативность взаимодействия экспертов с разработчиками тестовых заданий и между собой.
Методологической базой исследования послужили:
- принципы и подходы классической теории тестов (B.C. Аванесов, А.Н. Майоров, А.Г. Шмелев, А. Анастази, П. Клайн, Н. Гронлунд);
- принципы и подходы неклассической теории тестов - IRT (Дж. Раш, А. Бирнбаум);
- психосемантический подход (А.Г. Шмелев, ЕЛО. Терехина, Е. Эйдман).
Последний подход, как, возможно, никакие другие, предполагает активную роль преподавателя как носителя знаний, ведь мерой успешности студента в данном случае объявляется сближение субъективного семантического пространства студента с эталонным пространством, в качестве которого принимается субъективное пространство преподавателя.
Методы исследования:
1) теоретический анализ литературных источников по психодиагностике, тестологии, психологии труда и организационной психологии, а также по психологии проектирования компьютерных систем;
2) метод тестов с вынужденным выбором;
3) метод согласования независимых экспертных оценок;
4) метод многомерного шкалирования с последующей реконструкцией субъективного пространства (в данном случае использовался экспресс-модификация полной процедуры многомерного шкалирования);
5) методический аппарат современного статистического анализа данных, включая корреляционный, факторный и кластерный анализ;
6) метод инженерно-психологического проектирования сетевых компьютерных многопользовательских систем и баз данных;
Достоверность и обоснованность результатов исследования обеспечивается детальной теоретической проработкой проблемы конструирования тестовых методик оценки уровня профессиональных достижений, а также изучение особенностей их внедрения в организационную среду вуза и использованием комплекса хорошо зарекомендовавших себя методических средств. Основой для реализации исследования послужила технология разработки тестов профессиональных достижений, разрабатывавшаяся на протяжении нескольких десятилетий за рубежом и в отечественной научной среде и прошедшая в модифицированном и переработанном виде полный цикл апробации при нашем непосредственном участии (Чумаков, 2006; Чумаков, Шмелев, 2005). Содержательная обоснованность полученных в диссертационном исследовании результатов подтверждается тем, что все диагностические обследования были проведены в реальных условиях предэкзаменационного тестирования выпускников при непосредственном внедрении технологии разработки и внедрения тестовой системы контроля в учебно-информационную среду вуза. Достоверность результатов обеспечивается репрезентативностью выборки испытуемых-студентов (общее число протестированных - свыше 400 человек), а также наличием значимо-согласованных экспертных оценок, полученных от 10 авторов-экспертов, которые соответствуют требованиям к использованию названных статистических процедур.
Научная новнзна работы
Впервые был применен и проанализирован с позиции психологии метод независимых экспертных оценок для создания первичного банка тестовых заданий. Обоснована значимость расширения авторского этапа при конструировании тестов, когда авторы тестовых заданий становятся непосредственными рецензентами своих собственных и чужих заданий и тем самым преодолевается эффект отчуждения педагогического коллектива образовательного учреждения от содержательного смысла внедряемой тестовой технологии.
Впервые произведено исследование взаимосвязи экспертных оценок сложности и качества тестовых заданий с аналогичными показателями, полученными в результате статистического анализа пунктов теста после апробации тестовой методики на реальных испытуемых. Обычная процедура экспертизы тестовых заданий не предполагает решение экспертом этих заданий в позиции учащегося. В нашем случае эксперты были принципиально поставлены в позицию учащегося, должны были решать тестовые задания и лишь после этого оценивать их качество.
Произведено поисковое психодиагностическое исследование взаимосвязи между когнитивной сложностью (консистентностью и дифференцированностью специальных знаний учащихся) и академической успеваемостью по соответствующим учебным дисциплинам. Ранее подобного рода исследования производились только в других странах и в ходе применения громоздких психометрических (фактически исследовательских, а не практических диагностических) процедур полной попарной оценки различий.
В данной работе впервые созданы и внедрены процедуры тестового контроля знаний студентов-психологов с использованием Интернет-технологии «виртуальной лаборатории», или «Личного кабинета экзаменатора-преподавателя».
Теоретическая значимость работы состоит в изучении зависимости экспертных оценок качества тестовых заданий от уровня осведомленности экспертов в изучаемой области, а также в изучении взаимосвязи между когнитивной сложностью и академической успеваемостью.
Инструментальное оснащение исследования:
1) Основные серии тестирования студентов проводилось с использованием специализированного программного комплекса тестирования «МаЫеБЬ) (Мэйнтест), разработанного по руководством профессору кафедры психологии труда МГУ им. М.В. Ломоносова А.Г. Шмелевым (программная реализация О.Н. Кононов);
2) В работе использована технология «виртуальной лаборатории», позволяющая организовать пространственно-распределенный процесс сбора экспертных оценок: данные экспертизы тестовых заданий собирались с использованием специализированного Интернет-комплекса «Личный кабинет для он-лайн исследований» и обрабатывались в специализированной для этой цели оболочке «Ехрап», разработанной А.Г. Шмелевым (программная реализация Д.М. Ильиных);
3) Данные о когнитивной сложности представлений учащихся (данные о целостности представлений) собирались и обрабатывались с использованием специализированной психосемантической методики «Тест когнитивной сложности «11 слов», разработанной А.Г. Шмелевым (программная реализация А.Г. Ларионов).
4) Методы математической и статистической обработки и представления данных (статистический блок программного комплекса тестирования «Maintest», статистический пакет «Microsoft Excel»).
Практическая значимость работы
Разработанная нами методическая схема и инструментальная система может быть использована не только педагогами (работниками сферы образования), но и специалистами кадровых служб предприятий для разработки собственного методического инструментария диагностики профессиональных знаний, отвечающего современным научным представлениям в области конструирования тестов и запросам практики. Прикладная ценность исследования - в позитивном ответе на вопрос о возможности применения различных психодиагностических процедур и методов, а также их сочетания с традиционными формами при оценке уровня профессиональных достижений.
Апробация и внедрение результатов работы
Основные методологические выводы работы обсуждались на следующих крупных научно-практических конференциях: «Юбилейная конференция, посвященная 120-летию Московского психологического общества» (ПИ РАО, январь 2005), «Прикладная психология как ресурс социально-экономического развития России» (МГУ, ноябрь 2005), «Психологическая теория и практика в изменяющейся России» (ЮурГУ, май 2006). По результатам работы опубликованы 1 статья, 3 тезисных сообщения.
Результаты исследования внедрены на факультете психологии МГУ им. М.В. Ломоносова для реализации предэкзаменационного тестирования старшекурсников перед государственным экзаменом по общей психологии, в программу межкафедрального спецсеминара «Конструирование тестов», существенные технологические элементы внедрены в практику работы компании ЗАО «Агентство «Гуманитарные технологии».
Положения, выносимые на защиту:
1) Оценка уровня успешности усвоения знаний учащимся оказывается более объективной (валидной) в том случае, если формируется как комплексная процедура, которая совмещает различные способы сбора данных, как в традиционной форме, так и в форме тестового диалога учащегося с компьютером.
2) Разработка методик диагностики профессиональных знаний требует комплексного, структурированного подхода, содержащего определенный набор принципиально важных этапов, пропуск или отказ от которых может привести к созданию некачественного диагностического инструментария, а также к социально-психологическим трудностям во внедрении тестовой технологии контроля знаний.
3) Доказана валидность сконструированных компьютерных тестов знаний - в виде значимых коэффициентов корреляции между данными тестов и суммарным баллом успеваемости студентов за все'Ъ^годы обучения в вузе.
4) Развитие компьютеризированных Интернет-технологий позволяет расширить практику применения таких трудоемких в вычислительном отношении процедур при конструировании и применении тестов, как расчет согласованности экспертных оценок, а также построение пространственно-семантических моделей (концептуальных карт) индивидуального знания учащегося.
5) Одним из факторов, выступающих в качестве препятствий к внедрению тестовых технологий, состоит в определенных социальнопсихологических барьерах в сознании и поведении самих преподавателей; в работе показано, что чем ниже уровень согласованности ответов эксперта-преподавателя с эталонными ответами других экспертов (по определенному тематическому блоку), тем ниже преподаватели оценивают качество тестовых заданий и тем критичнее они относятся к тесту в целом.
6) Операциональные трудности в работе по внедрению компьютерных тестов в учебный процесс сокращаются в результате применения передовых в психолого-эргономическом отношении технологий по организации интерфейса пользователя: использование веб-интерфейса (модели диалога, характерного для Интернет-сайта) существенно сокращает расходы времени пользователей на освоение компьютерной системы конструирования и проведения тестов знаний.
Структура и объем диссертации
Данная работа состоит из введения, трех глав, выводов, заключения, списка литературы и двадцати двух приложений. Объем основного текста составил 169 страниц (вместе с приложениями - 219 страниц). Содержание текста подробно иллюстрировано 21 рисунком и 17 таблицами. Бибилиография насчитывает 197 источников, из которых 82 на иностранном языке.
Заключение диссертации научная статья по теме "Психология труда. Инженерная психология, эргономика."
ВЫВОДЫ
Итак, резюмируя все вышесказанное, мы можем сделать следующие выводы:
1. Комплексный подход к проблеме диагностики учебных достижений имеет статистически значимо более высокий уровень точности (валидности) оценки по сравнению с традиционной и тестовой формами контроля, применяемыми по отдельности. Тестовые испытания должны не заменять, но дополнять собой традиционные устные экзамены.
2. Получаемые в результате тестирования данные позволяют: а) прогнозировать успешность сдачи студентами госэкзамена по общей психологии; б) обладают высокой конкурентной валидностью с традиционным госэкзаменом по отношению к такому интегральному критерию как «общий уровень подготовленности студентов на основе оценок за всю историю обучения в вузе».
3. Была разработана, компьютеризирована и апробирована технология конструирования тестов профессиональных достижений, основными особенностями которой являются следующие ключевые этапы: а) авторский цикл, б) экспертный цикл в рамках которого при помощи компьютерных технологии собираются первичные данные о трудности и качестве тестовых заданий еще до предъявления испытуемым, в) апробация тестовых заданий, скомпонованных определенным образом, на пилотной выборке (определения первичной статистической трудности заданий, оценка качества с позиции тестируемого, определение объективных параметров собственно процесса тестирования); г) формирование основного банка тестовых заданий с учетом данных, полученных в результате пилотной апробации; д) проведение основного тестирования; е) анализ результатов проведения основного тестирования. Анализ ряда случаев опыта использования тестового инструментария при разработке которого были пропущены один или несколько из перечисленных выше этапов, а также подробное поэтапное освещение конструирования теста в настоящем исследовании дает очевидное представление об обоснованности предлагаемой нами методической схемы и необходимости следования ей.
4. Работа с экспертными оценками дала нам возможность, по крайней мере, частично понять, на каком уровне и каким образом происходит взаимодействие эксперта с тестовыми заданиями, какие факторы могут влиять на оценки эксперта. Субъективная оценка качества заданий обратно-пропорциональна точности экспертных оценок.
5. Применение именно Интернет-технологии тестирования создает не только операциональные удобства (скорость сбора данных и их последующей обработки, защита банка заданий от разглашения путем рандомизации вариантов), но и изменяет в ряде существенных моментов социально-психологическую ситуацию.
6. Нами было получено подтверждение перспективности предложенного нами пути преодоления «разрыва» между традиционной и тестовой форм системы контроля академической успеваемости посредством внедрения технологии семантического шкалирования (методов психосемантики) в сфере диагностику знаний, что дает нам возможность дальнейшего продолжения работ в этом направлении - по расширению репертуара тестовых технологий, опирающихся слишком часто на одни лишь задания с вынужденным выбором - не чувствительные к целостной организации индивидуальной понятийной системы.
ОБЩЕЕ ЗАКЛЮЧЕНИЕ
Проблема использования инструментально-измерительных технологий для оценки образовательных достижений студентов набирает новую высоту в связи с повышением компьютерной вооруженности вузов, внедрением Интернета и других информационно-коммуникационных технологий. Решаемая в нашей работе проблема по сути интегральная, поскольку стоит на стыке сразу нескольких научных дисциплин и решает ряд специфических прикладных задач:
1. Эргономические вопросы, связанные с проектированием простых, удобных и в то же самое время функциональных рабочих мест экспертов и разработчиков тестовых заданий, которые часто находятся в географически различных местах, вопросы, связанные с анализом взаимосвязи и взаимодействия между ролевыми предписаниями самого метода в системе тестирования с одной стороны, и реальными исполнителями - с другой.
2. Глубокая когнитивно-психологическая, а не только дидактическая интерпретация данных, получаемых в процессе работы над созданием тестового инструменатрия.
3. Привнесение методов психометрического анализа тестового инструментария в сферу образовательного тестирования, которые изначально зародились в недрах разработки психологических тестов.
4. Организационно-психологический контекст принципиального внедрения системы тестирования, как новой формы контроля успеваемости учащихся, способной дополнить и улучшить сложившуюся традиционную систему оценки знаний. Проведение тестового контроля знаний, предваряющего госэкзамен и анализ результатов позволяют сделать ряд выводов и сформулировать ряд положений, направленных на улучшение системы итогого контроля результатов обучения студентов психологических специальностей. Вместо одноэтапной системы контроля (традиционный устный экзамен) следует, с нашей точки зрения, переходить к двухэтапной системе, в которой роль первого этапа-фильтра выполняет тестирование. Конечно, двухэтапный подход как таковой не является новостью для системы высшего образования: нередко экзамену по многим предметам предшествует сдача студентами зачета-допуска, обеспечивающего контроль усвоения базовых элементов курса. Наше предложение заключается в том, чтобы проводить подобный зачет-допуск в форме компьютеризированного теста, что позволяет не только снизить операционные расходы на его проведение, но и получить более объективные результаты, а также получить ценную обратную связь для преподавателей и методистов по статистике ошибок в усвоении отдельных элементов содержания. Как это и делается обычно на предварительных зачетах-допусках, студенту следует предоставить несколько (оптимально три) попыток сдачи зачета. Экзаменаторы должны располагать индивидуальными данными по результатам тестирования (количеству попыток, общему баллу и тематическому профилю по отдельным блокам). Двухэтапная система контроля знаний позволяет стимулировать подготовку студентов к госэкзамену, нарушая сложившуюся в последнее время тенденцию студентов к откладыванию начала подготовки едва ли не «на последний момент» - всего лишь за несколько дней до собственно госэкзамена (в надежде на подготовку с опорой на готовые шпаргалки к экзаменационным билетам), что тем самым повышает ответственность студентов и является стимулом для более серьезной работы с литературой и конспектами лекций.
Введение дополнительных методов контроля знаний, предваряющих сдачу основного устного экзамена, позволяет на основе данных тестирования упростить процедуру сдачи экзамена, понижая эмоциональную (стрессовую) нагрузку прежде всего для добросовестных и успевающих студентов, и, стимулируя подготовку у тех, кто не смог с первой попытки продемонстрировать высокий уровень знаний при прохождении тестирования.
Нами могут быть предложены следующие варианты сочетания тестовых оценок и традиционной системы сдачи госэкзамена:
1) «Неформальный мягкий». Реализация этого варианта возможна в двух направлениях: а) преподаватели обращаются к результатам теста по своему усмотрению и скорее поощряют обладателей высоких тестовых баллов; б) студенты из «высокой группы» (набравшие высокий балл по тесту) получают возможность произвольного выбора вопроса из утвержденного на госэкзамене списка и проходят по нему устное собеседование с комиссией; студенты, набравшие средний балл, сдают экзамен по традиционной схеме; студенты, набравшие низкий балл, получают при устном собеседовании большее число дополнительных вопросов именно по тем темам, где они получили низкий тестовый балл.
2) «Формальный поощряющий». В этом варианте при разнице результатов в один балл (между тестом и экзаменом) оценка выставляется в пользу студента.
3) «Формальный страхующий». Оценка на экзамене не может быть ниже тестовой на 2 балла (то есть, отличника по тесту проверяют на экзамене так, что выбирают между оценкой «отлично» или «хорошо», а «хорошиста» по тесту оценивают уже в более широком интервале - между пятеркой и тройкой).
4) «Формальный арифметический». Тест выступает в роли «четвертого экзаменатора», и оценка, полученная студентом по тесту, участвует в голосовании с весом, равным 25 процентам. Такой подход будет тем более обоснованным, чем раньше будет введена практика независимой оценки каждого отвечающего каждым экзаменаторов (индивидуально и письменно). Однако реализация этого варианта возможна только в том случае, если распределения и тестовых оценок, и оценок на устном экзамене будут приближаться к нормальному (в контексте нашего исследования это означает, что необходимо несколько сократить трудность тестовых заданий и повысить критичность оценки экзаменаторов при устном ответе).
Резюмируя работу в целом, следует отметить очевидные преимущества, во-первых, введения инструментально-измерительных технологий оценки уровня профессиональных достижений в организационный контекст (в частности, в учебно-информационую среду вуза); во-вторых, формирования системы коплексной оценки уровня подготовленности, которая обеспечивает повышение точности и объективности оценивания; в-третьих, применения Интернет-технологий, обеспечивающих более широкий, практически непрерывный доступ авторов тестовых заданий и экспертов к банку заданий, а также включение в процесс разработки в качестве авторов и экспертов самих сотрудников организации, что создает более благоприятную атмосферу и в значительной степени снижает «барьер отчуждения», практически всегда сопутствующий внедрению тестовых технологий.
Список литературы диссертации автор научной работы: кандидата психологических наук, Чумаков, Александр Алексеевич, Москва
1. Абаев Н.В. Архаичные формы религиозной теории и практики в чань-буддизме // Буддизм и средневековая культура народов Центральной Азии. Новосибирск: Наука, 1980.
2. Аванесов B.C. К вопросам истории и теории тестов // Образование: исследовано в мире. -М., 2001, № 3.
3. Аванесов B.C. Композиция тестовых заданий. М.: Адепт, 1998.
4. Аванесов B.C. Понятийный аппарат педагогической тестологии // Педдиагностика. М., 2002, № 2.
5. Аванесов B.C. Проблема психологических тестов // Вопросы психологии. -М., 1978, №5.
6. Аванесов B.C. Тесты: история и теория // Управление школой. М., 1999, №14.
7. Анастази А. Психологическое тестирование: В 2 кн. Пер. с англ.; Под ред. Гуревича K.M., Лубовского В.И. М.: Педагогика, 1982.
8. Анастази А., Урбина С. Психологическое тестирование. Спб.: Питер, 2001.
9. Арестова О.Н., Бабанин Л.Н., Войскунский А.Е. Специфика психологических методов в условиях использования компьютера. М.: Изд-во Московского университета, 1995.
10. Артемьева Е.Ю. Психология субъективной семантики. М.: Изд-во Московского университета, 1980.
11. Артемьева Е.Ю., Мартынов Е.М. Вероятностные методы в психологии. -М.: Изд-во Московского университета, 1975.
12. Асеева Н.Д. Тестовая диагностика в системе компьютерной профессиональной подготовки будущего специалиста. Автореферат канд. дисс. Н. Новгород, 2001.
13. Баранов В.Ф. Педологическая служба в советской школе 20-30-х г.г.// Вопросы психологии. М., 1991, № 4.
14. Белова О.В. Общая психодиагностика: Методические указания. -Новосибирск: Научно-учебный центр психологии НГУ, 1996.
15. Безрукова B.C. Словарь нового педагогического мышления. -Екатеринбург, 1992.
16. Берзин Э.О. Юго-Восточная Азия в XIII-XVI веках. М.: Наука, 1982.
17. Бернштейн М.С. Вопросы методологии на Первом Всесоюзном педагогическом съезде // На путях к новой школе. М., 1928, № 1.
18. Беспалько В.П., Татур Ю.Г. Системно-методическое обеспечение учебно-воспитательного процесса подготовки специалиста. М.: Высшая школа, 1989.
19. Блонский П.П. Предисловие. // Тесты: теория и практика. Сборник. № 1. М.: Работник просвещения, 1928.
20. Болотов В.А. Основные положения построения общероссийской системы оценки качества образования (ОСОКО) // Материалы межрегионального семинара «Построение общероссийской системы оценки качества образования». М., 2005.
21. Болотов В.А., Сериков В.В. Компетентностная модель: от идеи к образовательной программе // Педагогика. М., 2003, № 10.
22. Болотов В.А., Шмелев А.Г. Развитие инструментальных технологий контроля качества образования: стандарты профессионализма и парадоксы роста // Высшее образование сегодня. М., 2005, № 4.
23. Бурлачук Л.Ф. Психодиагностика: Учебник для вузов. Спб.: Питер, 2003.
24. Бурлачук Л.Ф., Морозов С.Н. Словарь-справочник по психодиагностике. -Спб.: Питер, 1999.
25. Веселкова Т.С. Междисциплинарные тесты как средство диагностики системности знаний учащихся. Автореферат канд. дисс. Ижевск, 2000.
26. Выготский Л.С. Педология и психотехника// Психотехника и психофизиология труда. М., 1931.
27. Гайда В.К., Захаров В.П. Психологическое тестирование: Учебное пособие. Спб.: Изд-во ЛГУ, 1982.
28. Гильбух Ю.З., Рычик М.В. Реализация в учебном процессе функций обучения, развития и диагностики // Советская педагогика. М., 1976, № 7.
29. Гронлунд Н. Тесты достижений в конструировании. Пер.с английского. -Лондон: Принтис-Холл, 1982.
30. Днепров Э.Д. Десять лет по ложному пути // Время МН. М., 2002, №11.
31. Днепров Э.Д. Образовательный стандарт инструмент обновления содержания общего образования / Временный научный коллектив «Образовательный стандарт» Министерства образования Российской Федерации. -М.: Институт новых образовательных систем, 2004.
32. Дубенский Ю. П. Дидактика физики: Исследовательско-конструкторский подход: Учебное пособие. Омск: ОмГУ, 1995.
33. Дюк В.А. Компьютерная психодиагностика. Спб.: Братство, 1994.
34. Жичкина А.Е. О возможностях психологических исследований в сети Интернет // Психологический журнал. М., 2000, № 2.
35. Зимняя И. А. Ключевые компетенции новая парадигма результата образования // Высшее образование сегодня. - М., 2003, № 5.
36. Зинченко В.П. Психология восприятия информации. М : Изд-во Московского университета, 1982.
37. Звонников В.И., Челышкова М.Б. О педагогических измерениях в управлении качеством образования. М., 2003.
38. Иванова А.Я. «Обучающий эксперимент» как принцип оценки умственного развития детей: Автореферат канд. дисс. М., 1969.
39. Каган В.Е. Практическая психология для психологов и врачей: обучающий тестовый контроль. М.: Смысл, Академический проект, 1999.
40. Кадневский В.М. Тестовая культура как феномен цивилизации // Образование: исследовано в мире. М., 2004, № 10.
41. Кендалл М.Дж., Стьюарт А. Статистические выводы и связи. М.: Наука, 1973.
42. Клайн П. Введение в психометрическое программирование: Справочное руководство по конструированию тестов. Пер. с англ. Киев, 1994.
43. Кларин М.В. Инновационные модели обучения в зарубежных педагогических поисках. М.: Арена, 1994.
44. Климов Е.А. Образ мира в разнотипных профессиях. Учебник. М.: Изд-во Московского университета, 1995.
45. Козлов O.A. Теоретико-методологические основы информационной подготовки курсантов военно-учебных заведений. М.: МО РФ, 2002.
46. Концепция модернизации российского образования на период до 2010 года, 11 февраля 2002 г.
47. Концепция оценки достижения учащимися требований общеобразовательного стандарта / Коллектив авторов под рук. Леднева B.C. -М.: Изд-во РАО, 1993.
48. Кейс С.М., Свенсон Д.Б. Создание письменных тестовых вопросов по базисным и клиническим дисциплинам. Пер. с англ. Филадельфия: Национальный совет медицинских экзаменаторов, 1996.
49. Леонтьев А.Н. Деятельность, сознание, личность. М.: Политиздат, 1975.
50. Леонтьев А.Н., Лурия А.Р., Смирнов A.A. О диагностических методах психологического исследования школьников // Советская педагогика. -М„ 1968, №7.
51. Люсин Д.В. Основы разработки и применения критериально-ориентированных педагогических тестов. -М.: Исследовательский центр, 1993.
52. Майоров А.Н. Теория и практика создания тестов для системы образования. -М.: Народное образование, 2000.
53. Майоров А.Н. Тесты школьных достижений: конструирование, проведение, использование. -Спб.: Образование и культура, 1996.
54. Мандел Т. Разработка пользовательского интерфейса. М.: ДМК, 2001.
55. Маркова А.К. Психология профессионализма. М.: Знание, 1996.
56. Маркова А.К. Психология труда учителя. М.: Просвещение, 1993.
57. Мельников В.М., Ямпольский Л.Г. Введение в экспериментальную психологию личности. М.: Просвещение, 1985.59