RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 원문제공처
        • 등재정보
        • 학술지명
          펼치기
        • 주제분류
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        Cheating Proof Testing System (CPTS) and its Validity

        Lee, Guemin(이규민),Park, Do-Soon(박도순),Nam, Myungho(남명호),Kim, Myunghwa(김명화),Jeon, Min-Jeong(전민정),Kim, Keon-Seob(김건섭) 한국교육평가학회 2009 교육평가연구 Vol.22 No.1

        이 연구의 목적은 부정행위방지 검사 제작 시스템(Cheeting Proof Testing System: CPTS)을 설명하고 그 타당성을 검토하는 것이다. CPTS는 선택형 문항의 경우 선택지 순서를 시스템 내에서 임의로 변경함으로써 각각의 개별 피험자에게 개별화된 검사지를 제작하여 제공하는 컴퓨터 시스템이다. 즉, 개별화된 검사지를 받은 피험자는 같은 문항이라도 선택지의 순서와 위치가 다르기 때문에 다른 피험자의 시험지나 답안지를 보고 베끼는 부정행위를 할 수 없게 된다. CPTS의 타당성을 검토하기 위해 공변량 분석과 고전검사이론, 문항반응이론의 기법들이 사용되었다. 공변량 분석 결과 CPTS가 제공하는 개별화된 검사지를 시행한 실험집단과 피험자 모두 동일한 검사지를 시행한 통제집단 사이에 검사 점수에 있어서 통계적으로 유의미한 차이가 없는 것으로 나타났다. 고전검사이론과 문항반응이론을 이용한 문항 분석 결과, 문항난이도, 변별도와 같은 문항 특성 지수에 있어서 실험집단과 통제집단 사이에 유사한 결과를 산출하였고, 문항반응이론을 적용하여 산출한 검사특성곡선과 문항특성곡선도 유사하게 나타났다. 시험 감독교사와 참여했던 학생 피험자를 대상으로 한 설문 조사 결과, 감독 교사와 학생 모두 CPTS가 실제 검사 상황에서 학생들의 부정행위를 방지할 수 있는 효과적인 수단이 될 수 있을 것으로 인식하고 있었다. 결론적으로 CPTS는 검사특성 상 큰 변화는 일으키지 않으면서 선택형 문항 검사의 경우 학생들의 부정행위를 방지할 수 있는 하나의 방법으로 고려될 수 있을 것이다. The purpose of this study was to describe the Cheating Proof Testing System (CPTS), which was designed to prevent cheating on tests, and to evaluate its validity. The CPTS is a testing system that allows for the individualization of a test form given to an examinee by randomly arranging choice options. In this way, students taking the individualized test forms with randomly arranged choice options are discouraged from copying other students’ answers. To investigate the validity of the CPTS, several analyses were conducted utilizing both the analysis of covariance (ANCOVA) and classical test and item response theory approaches. The ANCOVA analysis revealed no significant differences between groups that either adopted or did not adopt the CPTS. Item characteristic indices such as item discrimination or item difficulty were similar in both CPTS tests and non-CPTS tests. Item and test characteristic curves were also very similar between the CPTS and non-CPTS tests. Survey research given to both teachers (or proctors) and students who have experienced the CPTS indicated that both teachers and students believed that the CPTS could be an effective way to prevent student cheating on tests. In conclusion, the CPTS should be considered a method to prevent student cheating without introducing significant psychometric changes in test characteristics.

      • KCI등재

        A Generalizability Theory Approach to Investigating Item Context Effects

        이규민(Guemin Lee) 한국교육평가학회 2004 교육평가연구 Vol.17 No.1

        이 연구의 목적은 일반화가능도 이론을 적용하여 문항의 문맥효과를 분석할 수 있는 방법을 제시하고, 제시된 방법을 사용하여 서로 다른 검사 버전을 포함하고 있는 측정 상황에서 실제적으로 문맥효과를 탐색해 보려는 목적을 갖고 있다. 이 연구에서 제시된 일반화가능도 이론을 적용한 문맥효과 분석 방법은 검사의 버전 효과와 검사 버전과 문항의 상호작용 효과를 잠재적인 문맥효과로 구분하여 주는 모형을 개념화하고 있다. 문항의 난이도 지수나 문항반응이론의 b-모수 추정치를 사용하여 문항의 문맥효과를 분석하는 전통적인 방법이 같은 측정 상황에 함께 적용되었다. 일반화가능도 이론을 적용하였을 경우와 전통적인 방법을 적용하였을 경우는 모두 비슷한 결과를 도출하였고, 모두 검사 버전에 의한 일정 정도의 문맥효과가 있는 것으로 보고하고 있다. 이 연구에서는 연구 결과를 바탕으로 σ²(ν)≥σ²(i) 일 경우, 검사에 문맥효과가 존재할 가능성이 있으므로 주의할 필요가 있음을 나타내 주고, 이를 일종의 문맥효과 경계 기준 기준으로 사용될 수 있음을 제안하였다. σ²(ν) 는 검사 버전에 의한 σ²(i)는 문항에 의한 분산성분 추정치를 나타냄 검사버전에 의한 서로 다른 정도의 문맥효과는 검사에 사용되는 문항 순서(item ordering)와 문항 형태(item format)가 검사 버전에 따라 다르기 때문인 것으로 판단된다. The purposes of this study were to establish procedures of investigating item context effects using a generalizability approach, and to examine the existence and magnitude of those effects when several test versions were involved. The heuristic model administered in this study isolated test version and items by test version interaction effects as potential context effects. Traditional approaches of using item difficulty index and IRT b-parameter estimate showed some degree of context effects due to test versions. The generalizability approach led to a conclusion similar to that of traditional approaches. We suggest σ²(ν)≥σ²(i) as a flagging criterion for context effects due to test versions when using the genralizability approach, where σ²(ν) and σ²(i) represents estimates of test version and item variance components, respectively. Both traditional and generalizability approaches indicated different degrees of context effects among test versions. These different degrees of context effects could be related to the different item orderings and test formats.

      • KCI등재

        초등학교 3학년 국가수준 기초학력 진단평가 동등화 방안

        이규민(Guemin Lee) 한국교육평가학회 2005 교육평가연구 Vol.18 No.1

        이 연구는 초3 기초학력 진단평가의 다년간 결과를 비교 가능하도록 만들어 주는 동등화 방안을 탐색하고, 그 상대적 적절성을 평가하여 현장에서 적용될 수 있는 구체적인 방안을 검토하는 것이다. 연구 결과를 요약하면 다음과 같다. 첫째, 2002년과 2003년 검사의 동등화를 위한 검사 구인의 동질성 분석 결과 기초 수학 검사가 동등화를 위한 조건들을 상대적으로 잘 만족시켰고, 결과적으로 양호한 동등화 결과를 산출하였다. 읽기와 쓰기는 검사 구성에 변화가 있었고, 이러한 변화가 검사 점수의 동등화에도 영향을 준 것으로 판단된다. 둘째, 동등화 표본의 사례 수가 적어 문항반응이론을 이용한 동등화 방법을 적용하지 못하는 상황에서 평균, 선형, 동백분위 동등화 방안이 제안되었다. 세 방법 모두 낮은 점수대와 높은 점수대에서 동등화 방법 간 차이가 발견되었고, 중간 점수대에서는 상대적으로 그 차이가 적었다. 검사 점수의 동등화를 위한 조건들을 잘 만족시켰던 기초 수학 검사의 경우, 적용된 모든 방법에서 유사한 동등화 결과를 산출하였다. 셋째, 기초학력 도달/미도달 여부의 일치 정도 분석과 Bootstrap 방법을 이용한 동등화 오차 분석은 동등화 방법의 상대적 적절성을 평가하는데 한계가 있었다. 반면 2003년 이루어진 Bookmark 기초학력 도달 기준선 설정 작업 결과를 준거로 사용하여 동등화 방법 간 적절성 평가에서는 동백분위 방법이 다른 방법 보다 상대적으로 우수한 것으로 나타났다. The grade 3 National Diagnostic Test of Basic Competency (NDTBC), which was first developed and administered in 2002, has its main mission to diagnose performance levels of students with respect to their basic competencies (language literacy and numeracy). The NDTBC is a kind of national evaluation system of monitoring progress of student achievement levels and providing information for decision-making processes to increase educational accountability. This study was designed to address issues related equating test results across multiple years to obtain score comparability. Main conclusions based upon results of this study can be summarized as follows. First, the Mathematics test satisfied equating conditions relatively better than did the Reading and Writing tests. Test structures of the Reading and Writing tests were changed in numbers of items and in content balances. These changes could influence on equating relationships to some extent. Second, under a circumstance that it is not possible to apply equating methods based up item response theory due to sample size restrictions, this study proposed mean, linear, and equipercentile equating methods for collected data with a single-group design. Three proposed equating methods provided non-negligible differences in equating results in low and high ability score ranges, but those provided similar equating relationships in the middle range of the score scale. The Mathematics test that satisfied equating conditions more closely produced more similar results among three equating methods than did other content areas. Third, the decision consistency analysis between 2002 and 2003 test results, and equating error estimates from Bootstrap re-sampling techniques could not provide relevant information regarding relative appropriateness of proposed equating methods. Based upon the results form a analysis using 2003 Bookmark standard setting outputs as criteria, the equipercentile equating method produced equating results relatively better than did other equating methods.

      • KCI등재

        Estimating Standard Errors for School Passing Rates Using Generalizability Theory

        이규민(Guemin Lee) 한국교육평가학회 2005 교육평가연구 Vol.18 No.2

        School test performance is often summarized in terms of the percentage of students at or above a cutscore (PAAC) that has been set on a test. Two types of standard errors for school PAAC's were examined in this study, conditional standard errors and overall standard errors. The effect of school size on these standard errors also was examined. The tests used in this study were English Language Arts and Mathematics tests administered to Grades 4 and 8 students as part of a large, statewide assessment. About 150 schools were randomly selected for the analyses. The results indicated that (1) the conditional standard error appears to follow a quadratic pattern as a function of PAAC, (2) the quadratic shape is substantial when school size is small, and (3) the overall and conditional SE's are similar when they are conditioned on school size. Several feasible ways of reporting standard error information for school PAAC are also discussed. 학교의 수행수준은 종종 하나의 특정 분할점수를 기준으로 이를 넘은 학생의 비율(percentage of students at or above a cutscore: PAAC)로 보고된다. 이 연구에서는 학교의 PAAC 점수에 대한 두 가지 형태의 표준 오차 추정 방법으로 조건 표준 오차(conditional standard error)와 전체 표준 오차(overall standard error)가 검토되었다. 연구에 사용된 자료는 미국에서 주(state)에서 시행되는 대표적인 평가체제 중 4학년과 8학년을 대상으로 하는 영어언어검사(English Langage Arts)와 수학검사(Mathematics)이다. 대략 150여개 학교가 이 연구를 위해 표집되어 자료가 수집되고 분석되었다. 연구 결과를 통해, (1) 조건 표준 오차는 PAAC 점수에 따라 2차 함수 형태의 패턴을 보이고, (2) 2차 함수 형태는 학교의 규모가 작을수록 더욱 분명하게 확인되고, (3) 전체 표준 오차나 조건 표준 오차는 학교 규모를 기반 축으로 비교될 때 매우 유사한 형태를 나타냄을 알 수 있었다. 이 밖에도 학교 PAAC 점수에 대한 표준 오차 관련 정보를 제공하는데 유용한 보고 형식이 함께 논의되었다.

      • KCI등재

        A Comparison Study on the Applications of the Angoff and Bookmark Standard Setting Methods

        이규민(Guemin Lee),박인용(In-yong Park),이명숙(Myngsuk Lee),박연복(Yeonbok Park),김경성(Kyung-Sung Kim) 연세대학교 교육연구소 2014 미래교육학연구 Vol.27 No.1

        앵고프(Angoff, 1971) 방법과 북마크(Lewis, Mitzel, & Green, 1996) 방법은 요즘 사용되고 있는 수준설정 방법 중 가장 보편적으로 널리 사용되고 있는 검사 문항 중심 수준설정 방법이다. 이 연구에서는 Standards for Educational and Psychological Testing(AERA, APA, & NCME, 1999)의 요구 사항을 따라, 이러한 수준설정 방법을 동일한 검사에 적용해 보고, 두 방법간 유사성과 차별성을 여러 측면에서 비교하였다. 이 연구에서 사용된 분석 자료는 초등학교 6학년 ‘국가수준 기초학력 진단평가’를 통해 얻어진 자료이다. 국가수준 기초학력 진단평가는 국어, 영어, 수학, 사회, 과학의 5개 교과로 구성되어 있고, 각각의 교과별로 기초학력 미달 학생을 변별하기 위한 목적으로 개발되었다. 연구 결과, 북마크 방법으로 설정된 분할 점수가 앵코프 방법으로 설정된 분할 점수 보다 5개 교과 모두에서 높았고, 결과적으로 더 많은 기초학력 미달 학생을 변별하는 것으로 나타났다. 분할 점수 분산에 영향을 미치는 가장 주요한 요인은 수준설정 방법으로 나타났지만, 두 방법 모두 각각 높은 수준의 분류 일치 계수를 산출하였다. 결론적으로, 북마크와 앵고프 수준설정 방법은 최소 능력을 소유한 것으로 판단되는 학생을 선별하는데 있어 서로 다른 분할 점수를 산출하고는 있지만 각각의 방법은 높은 수준의 분류일관성을 확보하고 있는 것으로 보인다. The Angoff (1971) and the Bookmark (Lewis, Mitzel, & Green, 1996) item-centered methods are two of the most prevalent standard setting methods used today. We investigated the results and effects of applying these methods by following the recommendations of the Standards for Educational and Psychological Testing (AERA, APA, & NCME, 1999). The data used in this study were obtained from the grade 6 National Diagnostic Test of Basic Competency (NDTBC) that was developed and administered in South Korea. The NDTBC is composed of five subject areas: Reading, English, Mathematics, Social Studies, and Science. The Bookmark method produced slightly higher cut-off scores for all five subject areas and identified more below-basic students than did the Angoff method. Standard setting methods were the major source of cut-off score variation, but both standard setting methods produced high classification consistency indices. Judgments about cut-off scores were reasonable and valid using both methods. In conclusion, both the Bookmark and Angoff standard setting methods yield different cut-off scores for the minimally acceptable performance of examinees, but produce high level of classification consistency within each method.

      • KCI등재

        Testlet Response Model for IRT True Score Equating

        Guemin Lee(이규민),In-Yong Park(박인용),Min-Jeong Jeon(전민정) 한국교육평가학회 2009 교육평가연구 Vol.22 No.3

        The present study was designed to address several issues of item response theory(IRT) true score equating for testlet-composed tests(e.g., reading comprehension tests). Because the fundamental local independence assumption in IRT for testlet-composed tests is often violated, standard IRT equating methods based on that assumption could lead to biased equating relationships(Lee, Kolen, Frisbie, & Ankenmann, 2001; Li, Bolt, & Fu, 2005). Response data sets fortestlet-composed tests were simulated. We generate 50 data sets of 1,500 examinees of both old and new test forms composed of seven testlet swith six items per testlet(42 items in total). We found that the graded response model (GRM) and testlet response model(TRM)true score equating methods providede quating relationships that were more similar to the true equating equivalents than did the three parameter logistic (3PL) true score equating method. Because the IRT assumption for dichotomous item response models is often violated intests composed of testlets, it would be expected that a larger bias would be found in the 3PL method than in the GRM and TRM methods. The GRM and TRM method scould be considered for equating test scores composed of testlets. Finally, the total errors in equating were influenced mainly by the bias component rather than the random estimation component for using different IRT models. 이 연구는 단위검사로 구성된 검사에 적용되는 문항반응이론 진점수 동등화와 관련된 몇몇 이슈를 다루고 있다.단위검사로 구성된 검사는 문항반응이론의 기본 가정인 지역독립성 가정이 흔히 위배되기 때문에 이러한 가정에 기반을 두고 있는 일반적인 동등화 방법은 편파된 동등화 결과를 초래할 수 있다(Lee,Kolen,Frisbie,& Ankenmann,2001;Li, Bolt,& Fu,2005).이 연구에서는 단위검사로 구성된 검사에 대한 반응 자료를 시뮬레이션 기법으로 생성하였다.새로운 검사 형과 동등화 될 이전의 검사형에 대한 1,500명의 피험자 반응이 생성되었고,검사는 7개의 단위검사와 단위검사 당 6개의 문항이 속한 구조로 총 42개의 문항으로 구성되었다.연구 결과를 통해,등급반응모형과 단위검사반응모형 진점수 동등화 방법이 3모수 로지스틱 진점수 동등화 방법 보다 실제 동등화 결과에 유사한 결과를 산출하였다.단위검사로 구성된 검사의 경우,3모수 로지스틱 모형과 같은 이분문항반응모형은 문항반응이론 가정을 위배하게 되기 때문에 등급반응모형이나 단위 검사반응모형에 비해 상대적으로 큰 편파성이 예상된다.등급반응모형은 단위검사반응모형과 단위검사로 구성된 검사의 동등화 결과와 유사한 결과를 산출하여 현장에서 대안적 사용이 가능할 것으로 예상된다.단위검사로 구성된 검사의 동등화 결과 분석을 통해,동등화 오차의 많은 부분이 문항반응모형의 선정에 따른 편파성에 기인하는 것으로 나타났고,추정 과정에서 오는 임의 오차 부분은 상대적으로 적은 것으로 분석되었다.

      • KCI등재

        『한국교육종단연구2005』의 수직척도 타당성 검토

        이규민(Guemin Lee),임현정(Hyun-Jung Im),박인용(In-Yong Park),김연정(Yeonjeong Kim) 한국교육평가학회 2010 교육평가연구 Vol.23 No.3

        『한국교육종단연구2005』에서는 매년 학생들의 학년별 성취도 변화를 평가하도록 우리나라에서는 처음으로 국가수준 학업성취도 평가에서 수직척도가 개발되어 적용되었다.이 연구는『한국교육종단연구2005』에서 개발된 수직척도의 타당성을 검토하고자 (연구)설계되었고, 2005년 이후 4년 간 누적된 자료를 이용하여 척도화 표본과 표준화 표본을 통합하여 분석하였다. 수직척도의 타당성을 검토하기 위해, 6가지 서로 다른 수직척도 개발 방법을 선정하여 국어, 수학, 영어 교과에 적용하였고, 다층분석 기법을 적용하여 수직척도화 방법을 비교하였다. 분석 결과, 문항반응이론을 적용하기 위한 표본의 사례 수제한과 그로 인한 모수추정의 불안정성 문제, 학년 간에 100점이라는 임의 성장 정보를 추가한 문제, 차별적으로 기능하는 문항을 학년 간 수직척도 개발을 위한 공통문항으로 사용한 문제, 문항 반응 패턴 채점 방식이 아닌 총점과 수직척도 점수 변환 방식을 사용한 문제 등은 개발된 수직척도의 타당성을 위협하는 요인이 아님을 확인할 수 있었다. 단지, 학년 내 척도 점수의 분산 수준 결정은 수직척도 개발을 통한 학교효과 분석에 영향을 주는 것으로 나타났다. 그러나 척도 변환의 미결정성은 모든 척도개발에 관련되는 사항으로, 이러한 점이『한국교육종단연구2005』수직척도의 타당성을 위협하는 근거로 해석되는 것은 적절하지 않을 것이다. 따라서 향후 다년간에 걸친 자료 분석과 결과 비교를 위해 개발된 수직척도를 계속 유지하는 것이 바람직할 것이다 A new vertical scale was firstly developed and implemented for national achievement evaluation in the Korean Educational Longitudinal Study started in 2005 (KELS 2005). This study was designed to investigate the validity of the newly developed vertical scale of KELS 2005 by using both vertical scaling samples and standardization samples aggregated for 4 years after its inception. Six different vertical scaling methods were differentiated and applied to Korean Language, Mathematics, and English subject matter areas, and multilevel models and analysis techniques were adopted to compare six vertical scaling methods. Based upon the results of this study, we can conclude several factors would not be related in threatening the validity of vertical scale of KELS 2005. Those factors include (1) relatively small sample size for applying item response models and the related unstability issue of item parameter estimates, (2) the problem of adding manipulated growth information, like 100-point growth per grade, onto the vertical scale, (3) the impact of the use of differentially functioning items as common items for vertical scaling, and (4) the implementation of number correct to scale score conversion table insead of pattern scoring. The level of score variation within grades in vertical scale had some influences on the analyses of school effectiveness under multilevel models. However, it would be reasonable not to interpret this result as the evidence to invalidate the vertical scale of KELS 2005, because the level of score variation within grades would not be a generic factor to vertical scale, but would be related to all possible score scales. In turn, it would be recommended to maintain the level of score variation within grades set in 2005 to support the comparison of student achievement growth over several years after 2005.

      • KCI등재

        Bifactor 다차원 문항반응이론을 적용한 단위검사 구성 검사점수의 신뢰도 추정 방법

        김나나(Nana Kim):이규민(Guemin Lee):강상진(Sang-Jin Kang) 한국교육평가학회 2017 교육평가연구 Vol.30 No.1

        이 연구에서는 bifactor 다차원 문항반응이론을 적용하여 단위검사 구성 검사점수의 신뢰도를 추정하였고, 이를 기존 연구에서 사용되어온 다른 신뢰도 추정 방법들과 비교하였다. 구체적으로 bifactor 모형, 일차원 이분문항반응이론 모형, 일차원 다분문항반응이론 모형을 적용하여 추정한 신뢰도를 비교하였으며, 단위검사 효과의 크기와 단위검사의 불균형 수준이 이러한 단위검사 구성 검사점수의 신뢰도 추정에 미치는 영향을 분석하였다. 연구 결과, bifactor 모형이 단위검사 구성 검사점수의 신뢰도를 가장 정확하게 추정하였고, 이분문항반응이론 모형과 다분문항반응이론 모형은 신뢰도를 각각 과대 추정하거나 과소 추정하였다. 하지만 다분문항반응이론 모형의 경우에는 신뢰도 과소 추정의 정도가 미미하여, 단위검사 구성 검사점수의 신뢰도를 추정하는 방법으로 사용할 수 있을 것으로 보인다. 또한 단위검사의 효과가 커질수록 이분문항반응이론 모형의 신뢰도 과대 추정 정도가 커지는 것으로 나타난 반면, 단위검사의 불균형 수준은 신뢰도 추정에 큰 영향을 미치지 않았다. This study aimed to investigate a bifactor MIRT approach to estimating the reliability of testlet-composed test scores. Using simulated data, the reliability estimates derived from a bifactor model were compared to those estimated via traditional IRT models: a two parameter logistic (2PL) model and a graded response model (GRM). Moreover, the effects of testlet effect size and the degree of imbalance in testlet lengths on estimating the reliability were examined. The bifactor model produced the most accurate reliability estimates of testlet-composed test scores while the 2PL model and GRM over- and under-estimated the reliability, respectively. The magnitudes of underestimation in the GRM, however, were very small; therefore, using the GRM also seemed to be quite appropriate when estimating the reliability of testlet-composed test scores. The errors of reliability estimates obtained from the 2PL model increased as the testlet effect grew larger. The degree of imbalance in testlet lengths also influenced the errors of reliability estimated from the 2PL model, but the effect was marginal

      • KCI등재

        The Effects of Different Parallelism Assumptions on the Estimates of Classification Consistency Using IRT and non-IRT Approaches

        김희연(StellaYun Kim),이규민(Guemin Lee),강상진(Sang-Jin Kang) 한국교육평가학회 2013 교육평가연구 Vol.26 No.2

        준거참조 검사의 신뢰도로 일컬어지는 분류일치도를 추정함에 있어 한 번의 시험 시행 결과를 활용하는 다양한 방법들이 제안되어왔다. 이 방법들은 분류일치도 추정시 단 한번의 검사 점수만을 활용하기 때문에, 각각의 방법들이 검사 형에 대하여 어떠한 동형성 가정을 갖는지 명세화 할 필요가 있다. Lee, Brennan와 Kolen(2000)은 IRT와 non-IRT 접근간에 검사의 동형성 가정이 다르다는 점을 지적한다. 구체적으로, IRT 접근은 검사 형이 엄격한 평행 검사라고 가정하는 반면, non-IRT 접근의 이항분포 모형의 경우, 검사 형이 임의 평행 검사임을 가정한다. 이 연구는 IRT와 non-IRT 접근의 다른 동형성 가정이 분류 일치도 추정치에 미치는 영향을 모의연구를 통해 밝히고자 하였다. 연구결과, 동형성 가정의 차이가 분류일치도 추정치에 미치는 영향정도가 꽤 크다는 것이 확인되었다. 또한, 검사 길이가 길어질수록 분류일치도 추정치의 안정성은 증가하였으며 추정방법의 정확도 또한 증가하였다. 검사 점수 능력 분포 또한 분할 점수 근처의 점수 밀도에 영향을 주는 요인이라는 점에서 분할 점수의 위치와 상호작용하면서 분류일치도 지수에 영향을 미치는 것으로 나타났다. 동형성 가정을 달리하는 두 접근에 의해 산출된 분류일치도 지수는 전혀 다른 의미를 가지기 때문에, 추정 방법을 선택할 때에는 이를 반영하는 과정이 필요할 것이다. A number of procedures have been reported for estimating classification consistency based on the results of a single administration (Huynh, 1976; Lee, Brennan, and Wan, 2009; Lee, 2010). Because when estimating classification consistency, those procedures employ the results of only one test administration, it is necessary to specify which parallelism assumption on a test should be made. Lee, Brennan and Kolen (2000) pointed out that the assumptions about error are different between IRT and non-IRT approaches in that test forms are considered to be strictly parallel in IRT approaches, whereas they are said to be randomly parallel in non-IRT approaches. The present study was designed to investigate the effects of two different parallelism assumptions (randomly parallel vs. strictly parallel test forms) under IRT and non-IRT approaches on classification consistency estimates. In generating two different levels of parallelism of tests, three simulation conditions were considered; test length, ability distribution, and cut score position on the scale. We found that different parallelism assumptions of tests had significant effects on classification consistency estimates. As expected, the test length had profound effects on estimates of the classification consistency with different levels of parallelism. The effects of ability score distribution on estimates of classification consistency were different due to cut score positions, which showed some extent of interaction effects between ability score distribution and cut score positions.

      • KCI등재

        모의 실험을 통한 혼합형 문항 검사의 문항반응이론 척도변환과 진점수동등화 조건 탐색

        이문수(Moonsoo Lee),이규민(Guemin Lee),강상진(Sang-Jin Kang) 한국교육평가학회 2009 교육평가연구 Vol.22 No.3

        이 연구는 공통문항 비동등 집단 설계에서 공통문항 구성의 조건별 차이와 문항반응이론 척도 변환 방법 간의 차이를 탐색함으로써 혼합형 문항 검사 동등화 연구의 실제적 적용을 목적으로 하였다.구체적으로 혼합형 문항 검사에서 문항반응이론 척도변환과 동등화 결과가 표본 크기,공통문항의 비율,공통문항 내에서의 선다형 문항과 구성형 문항의 구성 유형,척도변환 방법에 따라 차이가 있는지를 모의자료를 이용하여 검증해보았다.분석결과 혼합형 문항 검사에서 문항반응이론 척도변환과 동등화 결과는 표본 크기가 증가할수록,공통문항의 비율이 증가할수록,이분문항과 다분문항이 혼합된 형태로 공통문항을 구성하였을 때 안정적인 동등화 결과를 나타냈다.또한,척도변환 방법에 따른 문항반응이론 척도변환과 동등화 결과는 대부분의 조건에서 모수의 동시 추정 방법이 가장 작은 오차를 보였다. This paper aims to actually apply the study of equating the mixed-format tests by exploring the difference between the conditional construction of common-items in the common-item nonequivalent groups design and the method of IRT scale transformation. Specifically, the questions raised up by this study are as follows: Is there any difference in IRT scale transformation and the result of equating according to the size of the sample, the ratio of the common-items, the different construction types in the multiple-choice items and constructed-response items with in the common-items and the method of the scale transformation in the mixed format test? This study implemented a series of simulations to answer above questions. The results of the analysis were as follows. First, the larger the size of the sample was, the smaller the error was in the result ofIRT scale transformation and the equating. Second, as the rate of the common-items increased, the IRT scale transformation and equating in the mixed format tests became more stable. Third, the result of IRT scale transformation and that of equating were different according to the construction types of the common-items. By and large, in this case the most stable result was produced if dichotomous items and polytomous items in the common-items were combined. Lastly, in the mixed format test the result of IRT scale transformation and the equating based on the scale transformation method showed the least errors when using concurrent calibration method of the parameter in most of the conditions.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼