http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
김희연(StellaYun Kim),이규민(Guemin Lee),강상진(Sang-Jin Kang) 한국교육평가학회 2013 교육평가연구 Vol.26 No.2
준거참조 검사의 신뢰도로 일컬어지는 분류일치도를 추정함에 있어 한 번의 시험 시행 결과를 활용하는 다양한 방법들이 제안되어왔다. 이 방법들은 분류일치도 추정시 단 한번의 검사 점수만을 활용하기 때문에, 각각의 방법들이 검사 형에 대하여 어떠한 동형성 가정을 갖는지 명세화 할 필요가 있다. Lee, Brennan와 Kolen(2000)은 IRT와 non-IRT 접근간에 검사의 동형성 가정이 다르다는 점을 지적한다. 구체적으로, IRT 접근은 검사 형이 엄격한 평행 검사라고 가정하는 반면, non-IRT 접근의 이항분포 모형의 경우, 검사 형이 임의 평행 검사임을 가정한다. 이 연구는 IRT와 non-IRT 접근의 다른 동형성 가정이 분류 일치도 추정치에 미치는 영향을 모의연구를 통해 밝히고자 하였다. 연구결과, 동형성 가정의 차이가 분류일치도 추정치에 미치는 영향정도가 꽤 크다는 것이 확인되었다. 또한, 검사 길이가 길어질수록 분류일치도 추정치의 안정성은 증가하였으며 추정방법의 정확도 또한 증가하였다. 검사 점수 능력 분포 또한 분할 점수 근처의 점수 밀도에 영향을 주는 요인이라는 점에서 분할 점수의 위치와 상호작용하면서 분류일치도 지수에 영향을 미치는 것으로 나타났다. 동형성 가정을 달리하는 두 접근에 의해 산출된 분류일치도 지수는 전혀 다른 의미를 가지기 때문에, 추정 방법을 선택할 때에는 이를 반영하는 과정이 필요할 것이다. A number of procedures have been reported for estimating classification consistency based on the results of a single administration (Huynh, 1976; Lee, Brennan, and Wan, 2009; Lee, 2010). Because when estimating classification consistency, those procedures employ the results of only one test administration, it is necessary to specify which parallelism assumption on a test should be made. Lee, Brennan and Kolen (2000) pointed out that the assumptions about error are different between IRT and non-IRT approaches in that test forms are considered to be strictly parallel in IRT approaches, whereas they are said to be randomly parallel in non-IRT approaches. The present study was designed to investigate the effects of two different parallelism assumptions (randomly parallel vs. strictly parallel test forms) under IRT and non-IRT approaches on classification consistency estimates. In generating two different levels of parallelism of tests, three simulation conditions were considered; test length, ability distribution, and cut score position on the scale. We found that different parallelism assumptions of tests had significant effects on classification consistency estimates. As expected, the test length had profound effects on estimates of the classification consistency with different levels of parallelism. The effects of ability score distribution on estimates of classification consistency were different due to cut score positions, which showed some extent of interaction effects between ability score distribution and cut score positions.