
http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
Exploring the Role of Prosody in Korean EFL High School Students’ Oral Reading Fluency
Oral reading fluency (ORF), defined as the ability to read text accurately, quickly, and expressively, is considered a crucial skill for reading comprehension success. Founded on the theoretical underpinnings of information processing models and numerous empirical studies, ORF has drawn much attention from reading researchers and educators. Given its significance, various interventions have been developed and incorporated into the classroom, alongside numerous assessment tools for measuring ORF in both first language (L1) and second language (L2) contexts. However, there has been ongoing criticism of ORF assessment tools for their exclusive focus on measuring reading accuracy and rate, while neglecting the critical component of reading prosody. Reading prosody refers to the melodic quality of oral reading such as tempo, pauses, pitch, and rhythm. Research has shown that as readers become more proficient and fluent in reading, their oral reading becomes smoother and more speech-like, progressing from a word-by-word, hesitant manner to a more fluid style. In addition, the importance of reading prosody has been underscored as it plays a critical role in reading comprehension by holding information being processed in working memory or acting as a cognitive scaffold for semantic processing (Frazier et al., 2006). Even though little is known about reading prosody so far, a growing body of research has shown that reading prosody is an essential component of ORF and reading comprehension in L1 reading. In the L2 context, ORF also has been increasingly establishing itself as a legitimate component of reading skill, and evidence has been accumulated suggesting its significant relationship with reading comprehension. However, the research of reading prosody is at the beginning stage in the L2 context. Therefore, the present study attempted to explore various aspects of the roles reading prosody plays in L2 reading. First, it examined distinctive characteristics of reading prosody features differing according to fluency skill. Second, this research sought to evaluate the supposition regarding the characterization of ORF, specifically assessing whether the combined factors of reading accuracy and rate (i.e., text reading efficiency) and reading prosody can be considered a single construct, known as ORF. Additionally, the investigation aimed to examine the role of reading prosody in accounting for reading comprehension. A total of 90 Korean high school students learning English as a foreign language (EFL) participated in the study. The students were subjected to a battery of reading assessments to evaluate their decoding skills, text reading efficiency (TRE), and reading comprehension. To examine and measure reading prosody features, spectrographic analysis was employed as the methodology. By employing a speech sound wave analysis tool such as Praat (Boersma & Weenink, 2023), the visuo-graphic representation of sound waveform was generated. The observation of this spectrogram made it possible to identify and extract various prosodic features. As a result of spectrographic analyses, six features of reading prosody were extracted: intrasentential pause ratio (IntraP_ratio), intrasentential pause duration (IntraP_duration), ungrammatical pause ratio (UGP_ratio), intersentential pause ratio (InterP_ratio), overall intonation contour (Pitch_SD), and pitch changes at the sentence-final position (Pitch_SF). These features were subsequently analyzed using a series of one-way analysis of variance (ANOVAs), confirmatory factor analysis (CFA), or a series of hierarchical linear regressions. The study found that pause-related variables such as IntraP_ratio, IntraP_duration, and UGP_ratio were distinctively different among students with different fluency skills, indicating that these variables may be indicative of a student’s level of fluency. In contrast, it was found that Pitch_SD did not exhibit significant differences based on fluency level, suggesting that the overall pitch pattern may remain similar across Korean L2 readers regardless of their level of fluency. Meanwhile, significant variations in pitch changes at the sentence-final position and pause duration across sentences were only evident among higher fluency groups, indicating that these changes primarily manifest among L2 readers who have attained a sufficient level of decoding and fluency. In addition, it was found that reading prosody and TRE align and contribute to the unified construct of ORF. However, among reading prosody features, only pause-related variables were indicative of ORF. Lastly, the present study demonstrated that reading prosody plays a crucial role in predicting reading comprehension by acting as a mediator between decoding skills and reading comprehension. However, the results indicate that reading prosody did not account for additional variance in reading comprehension beyond TRE, especially when TRE was given priority in the order of entry in the hierarchical linear regression. When another regression analysis was conducted to inspect the relationship between reading prosody and TRE, a substantial overlap of these variables was detected, suggesting that the effect of reading prosody on reading comprehension would be masked if TRE is entered before reading prosody factors. In fact, when reading prosody was given priority in the order of the entry in the regression analysis, it was found to remain significant alongside TRE. The current dissertation has important pedagogical implications for L2 reading instruction. The findings suggest that focusing on the development of reading prosody is critical for enhancing L2 reading proficiency. L2 teachers should consider incorporating activities that explicitly address reading prosody, such as choral reading or repeated reading, into their instruction to help L2 learners improve their ORF. Given the mediating role of reading prosody in the relationship between decoding skills and reading comprehension, instructors are encouraged to integrate ORF monitoring activities using the ORF scale into their assessment protocols. The current study’s outcomes can be leveraged to develop a valid and reliable ORF scale as in previous studies. Overall, the findings of this study highlight the importance of a comprehensive approach to L2 reading instruction that targets ORF, especially reading prosody to promote efficient and effective reading comprehension in L2 learners. 읽기 속도, 정확성, 표현력으로 정의되는 읽기 유창성은 읽기 이해에 있어서 중요한 요소로 간주된다. 정보처리이론의 이론적 배경과 더불어 상당수의 실험연구 결과로 읽기 유창성은 연구자들과 교육자들로부터 많은 관심을 받아왔다. 그 중요성이 인정되어, 모국어와 제2언어 교육에서 다양한 수업 방법이 개발되고 수업에 이용되었으며, 읽기 유창성을 측정하기 위한 다양한 평가 도구가 개발되었다. 그러나, 이러한 평가도구들은 읽기 속도와 중요성만을 측정하고, 읽기 유창성의 중요한 요인인 운율적 특성을 제외한 것에 대해 끊임없는 비판의 대상이 되어왔다. 읽기의 운율적 특성은 휴지, 억양, 리듬 등과 같이 읽기 낭독의 음악적 특성을 일컫는다. 선행연구들은 읽기에 능숙하고 유창할수록 읽기 낭독이 좀 더 부드럽고 구어와 비슷하며, 단어를 더듬거리며 읽지 않게 된다는 것을 보여주었다. 또한, 읽기의 운율적 특성은 처리되는 정보를 작동 기억에 저장하는 역할을 하거나, 의미 처리를 위한 인지적 비계 역할을 하며 읽기 이해에 있어 중요한 역할을 하는 것으로 알려져 있다 (Frazier et al., 2006). 비록 지금까지 읽기의 운율적 특성에 대해서 많은 연구가 행해지지는 않았지만, 모국어의 읽기에 관한 연구에서는 이러한 특성이 읽기 유창성과 이해에 있어 중요한 요인이라는 것이 점차 인정받고 있다. 제2언어 연구에서도 읽기 유창성은 읽기에 있어서 중요한 요소로 자리매김하고 있으며, 상당히 많은 연구로 인해 읽기 유창성과 읽기 이해의 관계도 밝혀지고 있다. 하지만, 여전히 운율적 특성은 읽기 연구에 있어서 간과되어 왔다. 따라서, 본 연구는 운율적 요소들이 제2언어 읽기에서 하는 다양한 역할을 탐구하였다. 첫째로, 학습자의 유창성 수준에 따라 운율적 특성이 어떻게 달라지는지를 탐구하였다. 둘째로, 모국어 읽기 연구에서 규정된 읽기 유창성의 정의가 제2언어 상황에도 적용되는지, 즉, 읽기 유창성이 읽기 속도와 정확성 그리고 운율적 특성으로 구성된 단일한 구인인지를 검증하고자 하였다. 마지막으로, 읽기의 운율적 특성과 이해 능력 간의 관계를 고찰하였다. 영어를 외국어로 사용하는 총 90명의 한국 고등학교 학생들이 이 연구에 참여하였다. 참여자들은 단어 읽기 능력, 텍스트 읽기 능력, 그리고 읽기 이해 평가를 받았으며, 운율적 요소들은 학생들이 읽기 낭독을 녹음한 후, 이를 스펙트로그래프 분석을 통해 추출하였다. Praat과 같은 음성분석 도구를 사용한 스펙트로그램의 분석은, 소리 파형의 시각 그래프를 만들어 다양한 운율적 특성의 식별과 측정이 가능하며, 정확하고 객관적인 측정이 가능하다는 장점이 있다. 이러한 분석의 결과로 문장 내 휴지의 빈도, 문장 내 휴지의 총길이, 비문법적 휴지의 빈도, 문장 사이의 휴지 길이, 전반적인 억양 곡선, 문장 말미에서 억양의 변화, 이렇게 총 6개의 운율적 특성이 추출되었으며 추후 분석의 대상이 되었다. 분석 방법으로 일원 분산분석, 확인적 요인분석, 위계적 회귀분석이 사용되었다. 본 연구의 결과는 다음과 같다. 첫째로, 휴지와 관련된 변인, 즉, 문장 내 휴지 빈도, 문장 내 휴지 길이, 비문법적 휴지의 빈도는 유창성의 정도에 따라 두드러진 차이를 보였다. 그러나, 전반적인 억양곡선은 유창성의 수준에 따라 유의미한 차이를 보이지 않았으며, 이는 억양곡선은 한국인 제2 언어 학습자들의 유창성과는 관계없이 큰 차이가 없다는 것을 보여주었다. 또한 문장 말미에서의 억양 변화와 문장 간 휴지의 길이는 상위 학습자만 유의미하게 변별되어, 이러한 차이는 단어와 문장의 읽기 유창성이 충분히 발달해야 분명해진다는 사실을 나타냈다. 읽기 유창성의 정의에 대한 가설을 검증한 결과, 영어를 모국어로 사용하는 맥락과 마찬가지로 제2 언어 읽기 상황에서도 이 구인이 정확성, 속도, 운율적 특성을 하위 요인으로 가지는 다면적이지만 단일한 속성을 가지고 있다는 사실이 밝혀졌다. 마지막으로 본 연구는 운율적 요소들이 단어 읽기 능력과 읽기 이해에서 매개 역할을 하며, 읽기 이해에 중요한 역할을 한다는 것을 발견하였다. 하지만, 위계적 회귀분석에서 텍스트 읽기 효율성이 먼저 분석에 투입될 시 운율적 요소는 읽기 이해에 있어서 의미 있는 예측력은 없는 것으로 나타났으나, 이는 텍스트 읽기 효율성과 운율적 요소가 공유하는 분산이 크기 때문이었다. 따라서, 이들 변수의 투입 순서를 바꾸어 다시 위계적 회귀 분석을 한 결과 텍스트 읽기 효율성과 운율적 요소 모두 읽기 이해를 설명하는 유의미한 변수임을 발견하였다. 본 논문은 제2 언어 읽기 수업에 있어서 중요한 교육적 함의를 지닌다. 연구의 결과는 운율적 요인의 발달이 제2 언어 읽기 능을 향상시키는 데 있어서 중요하다는 것을 시사한다. 교사들은 함께 소리내어 읽기나, 반복 읽기와 같은 방법을 수업에 적용하여 제2 언어 학습자들이 읽기 유창성을 도모해야 한다. 또한 운율적 요인들이 단어 읽기 능력과 읽기 이해에서 매개 역할을 한다는 사실을 고려하면, 읽기 유창성 척도를 사용하여 학생들의 발달을 측정하고 이를 평가에 반영할 방법을 고안해야 한다. 선행연구처럼, 본 연구의 결과는 타당하고 신뢰로운 읽기 유창성 척도를 개발하는 데 이용될 수 있을 것이다. 전반적으로 본 연구의 결과는 제2 언어 학습자들의 읽기 이해 능력을 촉진하기 위해 읽기 유창성, 특히 운율적 요소를 수업과 평가에 통합하는 더 포괄적인 접근을 재고해야 할 것을 시사한다.
The demand for test-taking has become an integral part of the academic experience for Korean secondary EFL learners, who aim to excel in a highly competitive, exam-oriented environment. At the center of high-stakes exams lies the College Scholastic Ability Test (CSAT). Gap-filling inference items in the CSAT English section have historically been the most difficult and discriminatory, posing significant challenges for test-takers. However, these gap-filling inference items have faced many criticisms for being susceptible to test-wiseness—the ability of test-takers to use cues independently of the knowledge or skills being assessed. Many practitioners, including teachers and administrators, question whether such items are sufficient for determining the anticipated test-taking process, which involves drawing logical inferences based on contextual understanding. The purpose of the present study is to examine the test-taking strategies used by test-takers while processing these gap-filling inference items. Additionally, the study will discuss whether these test-taking processes align with the assessment's goals, to determine if these items can legitimately claim cognitive validity—defined as the extent to which a test accurately engages the theoretical cognitive processes necessary to complete the task as designed. The present study explored 20 Korean high school senior EFL test-takers’ test-taking processes for six gap-filling inference items of CSAT English section, inferencing tasks that require test-takers to draw on relevant textual information to infer missing information, ensuring a coherent understanding of the text as a whole. The process of test performance was tracked via web-based eye-tracking measures and posterior stimulated recall interviews were conducted to verify the types of test-taking strategies involved and describe how they used them and why. Based on the predesigned coding scheme, which was later revised and refined through analysis of the transcribed interview data, the frequency of each test-taking strategy was recorded and visualized in 9-Quadrant Matrix, with the horizontal axis representing construct-inappropriate strategies (IA) and the vertical axis representing construct appropriate strategies (A), illustrating the interplay between the two types of strategies across test-taking instances. Among the 9 possible cases, three scenarios that challenge the validity of gap-filling inference items were identified. Case 1 (High IA x Medium A) represents overuse of IA, involving successful instances where test-takers relied heavily on IA despite limited use of A. Case 2 (Medium A x Low IA) represents underuse of IA, revealing that insufficient use of IA led to failure. Case 3 (High A x High IA) highlights unnecessary use of IA, signaling successful instances where test-takers with High A, who should theoretically not depend on IA, still relied on it to answer correctly. These cases were investigated by utilizing verbal reports from stimulated recall interviews and visualized eye-tracking data, such as gaze plots and heatmaps. The findings reveal that each scenario, overuse, underuse, or retreating use of IA, undermine the cognitive validity of these items. Case 1 participants relied heavily on IA by bringing in preconceptions as to where the sentence containing the test-wise cues typically lie, which acted as shortcuts to locate stem-specific or central information, after which they specifically adhered to the content of those sentences to match the option. Case 2 participants employed IA by activating prior knowledge to compensate for their lack of higher-order strategies, particularly when text cohesion was insufficient or inference using the implicit contextual coherence was required. Case 3 participants relied on IA by combining preconceived test-wise cues and prior knowledge to either guide their approach or compensate for their inability to make precise text-based inferences. In all cases, the test-taking processes raised concerns about cognitive validity. Overuse of unrequired skills led to item success, underuse resulted in failure, and the assessment of constructs independently of test-wiseness proved unfeasible. The findings emphasize the need for pedagogical approaches that address the overreliance on IA strategies. Educators should focus on fostering higher-order reading skills, such as contextual understanding and text-based inferencing, to reduce dependence on construct-inappropriate strategies and enhance the cognitive validity of gap-filling inference items. 한국의 중등 EFL 학습자들은 치열한 경쟁 속에서 뛰어난 학업적 성과를 거두기 위해 끊임없이 시험에 대비하는 시험 중심적 환경에 처해 있다. 특히, 수능 영어 영역의 문항 중에서 주어진 텍스트의 대의적 함의와 일관된 이해를 통해 누락된 정보를 추론하도록 하는 독해 문항인 빈칸추론은 가장 어렵고 변별력이 높은 유형으로 알려져 있다. 그러나, 빈칸추론 문항은 수험생이 시험 응시자가 자신의 지식이나 능력과 관계없이 단서를 활용하는 ‘시험 요령(test-wiseness)’에 취약하다는 비판을 받아왔다. 이에 대해 교육 전문가들, 특히 교사와 현장 전문가들은 빈칸 추론 문제가 실제로 시험 응시자가 문맥적 이해를 바탕으로 합리적인 추론을 도출할 수 있는 능력을 평가하는 데 충분한지에 대해 의문을 제기한다. 본 연구는 수험자가 빈칸 추론 문항을 처리하는 과정에서 사용하는 시험 전략, 즉 인지적 과정을 추적하고, 이러한 전략이 평가의 목표와 얼마나 일치하는지 분석하여 빈칸 추론 문항의 인지적 타당성(cognitive validity)에 대한 시사점을 제시하는 것을 목적으로 한다. 인지적 타당성이란 시험이 설계된 대로 과제를 완수하기 위해 요구되는 이론적 인지 과정을 얼마나 정확히 반영하는지를 의미한다. 본 연구는 20명의 고등학교 3학년 EFL 학습자들을 대상으로 빈칸 추론 문항 6개에 대한 시험 과정을 분석하였다. 웹캠 기반 웹 시선 추적 기법을 활용하여 수험자의 시선 경로를 기록하였으며, 이후 자극 회상 인터뷰(stimulated recall interviews)를 통해 수험자가 사용한 시험 전략의 유형, 사용 방식, 그리고 활용 이유를 구체적으로 확인하였다. 시험 전략의 종류와 사용 양상은 시험 전략 관련 선행 연구의 분류 체계를 바탕으로 코딩표를 구축하여 빈도와 패턴을 분석하였으며, 이를 9분할 행렬로 시각화하였다. 행렬의 가로축은 구성 부적합(construct-inappropriate) 전략을, 세로축은 구성 적합(construct-appropriate) 전략을 나타내어 두 전략 간 상호작용을 시각적으로 제시하였다. 행렬 가운데 시험 타당도를 낮추는 3개의 결합을 찾아내, 해당 사례들의 공통성을 추려 해당 집단의 시험 응시 방법을 분석하였다. 빈칸 추론 항목의 시험 타당도를 저해하는 세 가지 사례는 다음과 같다. 사례 1은 높은 수준의 구성 부적합 전략과 중간수준의 구성 적합 전략을 사용하여 문항을 맞춘 경우, 사례 2는 중간수준의 구성 적합 전략과 낮은 수준의 구성 부적합 전략을 사용하여 문항을 틀린 경우, 사례 3은 높은 수준의 구성 부적합 전략과 구성 적합 전략을 사용하여 문항을 맞춘 경우를 나타낸다. 사례 1의 경우 구성 부적합 전략에 의존하여 문항을 맞췄으며, 사례 2는 구성 적합한 전략에 의존하였지만 문항을 틀렸고, 사례 3은 충분한 구성 적합 전략을 활용할 수 있음에도 구성 부적합 전략을 사용하여 문항을 맞췄다는 측면에서 시험 타당도를 저해하고 있다. 회상 인터뷰를 통해 수집된 언어 보고와 시선 추적 데이터를 바탕으로, 수험자들이 구성 적합 및 구성 부적합 전략을 활용하여 빈칸 추론 문항을 처리하는 방식을 심층적으로 분석하였으며, 각각의 사례가 문항의 인지적 타당성을 어떻게 저해하는지 논의한다. 본 연구는 시험 요령에 대한 과도한 의존을 줄이고, 수험자가 문맥적 이해와 텍스트 기반 추론과 같은 고차원적인 읽기 능력을 강화할 필요성을 강조한다. 나아가, 교사들로 하여금 수험자들이 구성 부적합 전략에 의존하지 않고도 성공적으로 문제를 해결할 수 있도록 지도해야 한다는 교육적 함의를 제시한다.
본 연구는 모의고사 영어 등급, 지문 정보의 양, 빈칸의 종류에 따른 한국 EFL 고등학생 학습자들의 빈칸추론문항 수행을 탐구하였다. 모의고사 등급에 따라 네 그룹으로 나누어진 279 명의 고등학교 2학년 학생들이 대학수학능력시험과 평가원 모의고사 기출에서 선택한 18 개의 빈칸추론문항에 응답하였다. 문항들을 각각 다른 지문 정보의 양을 포함하도록 빈칸을 포함한 문장 (Sentence-with-a-blank), 문장을 포함한 문장과 그 앞뒤문장 (Left-and-right Passage), 빈 칸을 포함한 문장과 그 앞뒤 문장 그리고 글의 가장 처음과 마지막 문장 (First-and-final Passage), 글 전체 (Original Passage)로 구성된 네 가지 양식으로 나누었다. 또한 빈칸에 들어갈 말의 종류에 따라 문항들을 한 단어, 구, 절의 세 가지 빈칸유형으로 나누었다. 이 연구는 학습자들의 빈칸추론문항 수행에 대한 두 가지 발견점을 시사한다. 첫 번째, 글 전체를 읽는 것은 모든 학습자들에게 추가적인 도움이되지 않았지만 중요한 세 문장만을 읽었을 때 모든 학습자들은 가장 높은 수행을 보였다. 학습자들은 모의고사 등급에 따라 반대의 수행을 보였는데 가장 낮은 수준의 학습자가 가장 긴 글에서 가장 낮은 정답을 맞출 확률을 보인 반면, 가장 높은 수준의 학습자들은 가장 긴 글에서 가장 높은 정답을 맞출 확률 보였다. 두 번째로, 낮은 수준의 학습자들은 빈칸에 들어갈 말의 종류에 따라 어려움을 느끼는 정도가 다른 반면 높은 수준의 학습자들은 빈칸종류의 효과에 덜 민감하다. 빈칸에 절이 들어가는 문항은 한 단어가 들어가는 문항보다 더 많은 읽기를 요구하기 때문에 더 어렵고 구가 들어가는 문항은 문맥에 더 영향을 많이 받기 때문에 가장 어렵다. 가장 낮은 수준의 학습자들은 빈칸에 들어갈 정보를 찾기 위해 긴 선택지를 읽고 완전히 이해하는데 실패하기 쉽다. 결론적으로 고등학교 학생들은 빈칸추론문항에서 주요한 세 문장을 읽었을 때에도 지문 전체를 읽었을 때만큼의 정답을 맞출 확률을 보일 수 있다. 하지만 그 주요 세 문장과 지문 전체를 읽는 것이 같은 읽기 능력을 측정하는지는 재고해보아야 한다. The fill-in-the-blank question is one of the most significant question types in Korean CSAT. The present study explored Korean EFL high school learners’ performance on the fill-in-the-blank questions in Korean CSAT depending on the amount of textual information, blank type, and the English proficiency level (mock CSAT English level). 279 high school students with four English proficiency levels were provided with eighteen fill-in-the-blank questions from previous tests. The original texts were modified into four versions with different amount of textual information: a sentence with a blank (Sentence-with-a-blank), the Sentence-with-a-blank and its preceding and following sentences (Left-and-right Passage), the Left-and-right Passage and the first and final sentences of the original passage (First-and-final Passage), and Original Passage. The questions also differed in the types of words fit in the blank: One-word, Phrase, and Clause Blank. This study suggested learners’ performance on the fill-in-the-blank questions with two major findings. First, reading the full text didn’t provide the additional benefit, while reading the three core sentences led to the highest probability for correct answer for all learner groups. The lowest ability learners are predicted to perform the worst on the longest text, on which the highest ability learners displayed the highest probability for correct answer. Second, the learners with lower ability might experience stratified difficulty depending on the blank type while the learners with higher ability are less sensitive to the effects of blank type. The low-ability learners easily fail to read longer words required in the blank and fully comprehend the text to find the missing information whereas the high ability learners manage to do so. To get the high score on the fill-in-the-blank question, not all the testtakers should read the whole passage; reading the three core sentences rather predict the highest probability for correct answer for all levels of learners and save time to read other questions. Although the probabilities for the correct answer on the full text and the three core sentences are not significantly different, it might be absurd to conclude that those two texts measure the same reading ability.
Jeon, Jaeho Indiana University ProQuest Dissertations & Theses 2025 해외박사(DDOD)
소속기관이 구독 중이 아닌 경우 오후 4시부터 익일 오전 9시까지 원문보기가 가능합니다.
L2 reading has traditionally relied on summative assessments using existing texts and multiple-choice questions with limited reading guidance. This study explores how Generative AI (GenAI)-powered chatbots can offer alternative assessment tools by automating tasks such as text creation and reading guidance. Meanwhile, research also indicates that GenAI's reliance on statistical patterns often reproduces social biases in its output. Rather than viewing this as a limitation, this study uses GenAI's biased texts to promote literal and critical L2 comprehension. It introduces a Teacher-AI Collaborative Assessment model based on Dynamic Assessment (DA), which integrates instruction and assessment within Vygotsky's Sociocultural Theory.In the proposed model, teachers use AI-generated biased texts produced for educational purposes to support L2 learners' development of literal and critical reading performance. Forty-one elementary L2 learners were assigned to experimental (n = 21) and control (n = 20) groups and the students participated in a sequence of "Chatbot-assisted DA 1-Teacher Enrichment-Chatbot-assisted DA 2", where they engaged in reading comprehension activities mediated by AI in collaboration with a teacher. The two groups followed the same sequence mediated by the same AI, while at the teacher enrichment stage, the experimental group was consistently mediated by the teacher using biased texts, and the control group was taught using a textbook.Five types of scores produced through the two chatbot-assisted DA sessions (unmediated, mediated, gain, learning potential, and transfer scores) were quantitatively analyzed, and this analysis was supplemented with a qualitative analysis of scores from select students. The findings show how chatbot-assisted DA can be used to generate diagnostic information about reading performance. This study also demonstrates the effectiveness of the proposed model on literal and critical reading comprehension, as evidenced by a growth in the two groups' reading scores. The introduction of critical comprehension using AI-produced biased texts was found to better facilitate the experimental group's literal comprehension, demonstrating the utility of employing anti-bias texts as part of chatbot-assisted DA. Last, detailed discussions and implications are provided in relation to the roles of AI and critical thinking in the fields of reading education, educational technology, AI ethics, and language assessment.