RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 학위유형
        • 주제분류
          펼치기
        • 수여기관
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 지도교수
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 교육과정 기반 자연어처리 교육 프로그램 개발

        임새이 경인교육대학교 교육전문대학원 2023 국내석사

        RANK : 248702

        본 연구는 교육과정 속의 자연어처리 관련 내용을 분석한 뒤, 자연어처리 개념을 이해하고 체험, 활용해보며 관련 윤리적 문제를 고민해보는 자연어처리 전반에 관한 교육 프로그램을 개발하는 것을 목적으로 한다. 인공지능 교육의 핵심 학습 내용 요소로 자연어처리가 포함되어 있지만, 자연어처리 교육과 관련하여 연구된 교육 프로그램은 많지 않다. 이에 먼저 자연어처리 내용에 집중하여 소프트웨어 교육과정을 분석하였다. 그 후 관련 문헌과 소프트웨어 교과서를 참고해 자연어처리 교육 프로그램의 개발 기준을 설계하였다. 개발 기준은 개발 방향, 학습 수준, 교수·학습 내용으로 구성하였으며, 관련 내용을 1차 전문가 타당도 검사를 통해 타당도를 검증받았다. 1차 전문가 타당도 검사를 반영하여 수정·보완한 개발 기준에 따라 22차시의 인공지능 자연어처리 교육 프로그램과 자료를 설계하였다. 교육 프로그램은 자연어처리 필요성, 원리 이해, 체험·실습, 윤리의 총 4가지 대주제로 구성하였다. ‘필요성’은 2차시로 에서는 자연어처리의 개념과 필요성을 언플러그드 활동으로 학습한다. ‘원리 이해’는 6차시로 자연어처리의 세부 작동 원리를 이해하기 위해 형태소, 구문, 의미, 담화 분석을 차례로 학습한다. ‘체험·실습’은 12차시로 자연어처리의 여러 활용 분야를 실습하고 체험한다. 챗봇, 텍스트마이닝, 기계번역, 감정분석, 음성인식 분야의 자연어처리 작동 원리를 알아보고, 직접 경험하며 제작하는 학습을 진행한다. ‘윤리’는 총 2차시로 자연어처리 기술과 관련된 여러 윤리적 문제를 탐색하고 해결책을 고민해본다. 최종적으로 내용을 구축한 프로그램은 2차 전문가 타당도 검사로 교육 내용의 적절성, 학습 수준의 적절성, 학습 내용의 적절성, 현장 수업 적용의 적절성을 검증받았다. 그 결과 모든 문항에서 타당도를 확보하였으나, 전문가의 의견을 반영하여 세부 교육 프로그램 내용을 수정·보완하였다. 본 연구의 결과를 바탕으로 다양한 인공지능 세부 기술을 다른 교육 프로그램에 대한 많은 연구가 진행되기를 바라며, 개발된 교육과정 기반 자연어처리 교육 프로그램이 학교 현장에서 인공지능교육 실현을 위한 자료로 활용되기를 기대한다.

      • 자연어 저장소를 이용한 자연어 질의처리에 관한 연구

        전익진 한국방송통신대학교 2012 국내석사

        RANK : 248687

        최근 쏟아지는 정보의 양만큼 사용자들은 단순한 자료의 수준을 넘어 다양하고 매우 광범위한 정보를 요구하고 있다. 사용자마다 원하는 데이터의 유형과 처리된 결과가 상이하기 때문에 모든 사용자를 충족시킬 수 있는 질의처리 시스템이 필요한 것이다. 이에 따라 본 논문에서는 데이터베이스에 대한 전문적인 지식이 없는 일반인이 필요한 정보를 추출할 수 있도록 하기 위해 자연어를 이용한 데이터베이스를 검색하는 기술을 제안한다. 기존의 자연어 질의처리 연구는 구문분석에 따른 패턴분석이 주를 이루었다. 기존 연구는 질의문의 형식이 복잡하고 정해진 규칙에 따른 정형성이 부족하다면 사용자가 원하는 결과를 기대하기 어려웠다. 이를 극복하기 위하여 자연어 저장소라는 새로운 개념을 도입하여 자연어 검색을 위해 검색 예측, 연관 검색, 시각화 기법을 제안한다. 세 가지 방법에 대한 구체적인 연구는 다음과 같다. 첫째, 사용자가 입력한 질의문과 부가적인 정보를 분석하여 사용자가 이후 진행할 검색을 미리 발견하는 검색 예측을 제안한다. 검색 예측에 사용되는 부가적인 정보는 질의문을 입력하는 사용자, 질의문이 반복적으로 입력되는 주기, 자연어 속에 사용되는 시간과 문구 등이다. 검색 예측은 이러한 부가적인 정보를 통해 질의를 예측하는 과정을 의미한다. 둘째, 사용자가 검색을 위해 질의에 사용한 단어간 연관관계를 설정하고 사용자에게 관련된 질의문을 미리 제시하는 연관 검색 기법을 제안한다. 연관 검색은 일정한 규칙을 바탕으로 검색어 조합을 정의하는 것을 의미하는데, 사용자가 검색을 요청한 시간과 질의 이력을 활용하여 설정된 연관관계를 데이터베이스에 저장하는 것이다. 이를 위해 반복적으로 입력되는 질의어를 분석하여 일정한 검색어 조합을 생성하는 방법을 제안한다. 셋째, 데이터베이스 스키마정보를 이용하여 사용자가 단계적 선택을 통해 질의문을 생성할 수 있도록 하는 시각화를 제안한다. 시각화에서 포함되는 스키마정보는 시스템레벨을 비롯하여, 파일, 테이블, 필드, 인덱스, 기본 키, 뷰, 정의된 함수의 등이다. 시각화에서는 이들 정보를 자연어 형태로 표현하고 사용자는 단계적으로 해당 정보를 선택한 후 선택된 정보를 바탕으로 자동 질의문이 생성되는 것이다. 자연어 저장소의 세 가지 기법을 검증하기 위하여 최근 가장 많이 활용되고 있는 프로그램 형태인 웹을 기반으로 보편적이고 기본적인 환경에서 검증을 진행 하였다. 자연어 저장소를 이용하여 생성된 질의를 통해 실험 환경에서 저비용으로 처리가 되는 결과를 확인 하였다. 자연어 저장소를 이용한 검색은 의사결정을 필요로 하는 여러 기관과 단체에서 활용될 것이다. 자연어 저장소를 통해서 사용자는 다양한 자연어를 보다 유연하게 검색에 사용할 수 있다. 또한 자연어 저장소는 사용자로 하여금 제안된 자연어로 검색을 진행하게 하므로 시스템성능을 향상시킨다.

      • 자연어 처리 기술을 활용한 문제행동 유형 분석 연구

        강정배 대구대학교 2013 국내박사

        RANK : 248687

        Behavior problems of teenagers and children create side effects not only in the family but also in the community and society as a whole; and while the total number of school-age children is decreasing, the number of children with behavior problems is increasing. To support these maladjusted children, new ways of identifying behavior problems and reducing the number of their occurrences is required. In this research, natural language processing technology from the information technology (IT) field was employed to reduce instances of mediating problematic behaviors. To automatically analyze behavior problem patterns using natural language processing technology, behavior problem area analysis methods were developed, and the efficacy of the pattern analysis methods were evaluated. For the 86,911 sentences that indicated behavior problem tendencies and 192,021 occurrences that were recorded from 2001 to 2012 in the behavior problem recording system, Homi.Info was used for the behavior problem pattern analysis by applying natural language processing technology. The following types of behavior problems were categorized: aggression, depression–anxiety, self-mutilation, antisocial behavior, stereotyped behavior, sexually abnormal behavior, physical symptoms, abnormal feeding behavior, abnormal excretion behavior, abnormal sleep behavior, and problems with concentration. Results showed the behavior problem sentences consisted of 4.3 words and 9.3 morphemes. Regarding the top ten sentences with the highest repetition rates by type, antisocial behavior showed 14.3%, while abnormal excretion behavior showed the highest rate at 55.4%. The top ten behaviors with rates over 50% were stereotyped behavior, physical symptoms, and abnormal excretion behaviors. In order to resolve the problematic behaviors, an intervention effect can be achieved first by mediating selected problematic behaviors. Types with rates over 40% were aggression, depression–anxiety, self-mutilation, and problems with concentration and attention. On the other hand, antisocial behavior appeared at 14.3%, which indicates its need for detailed classification. Moreover, in terms of behavior support, various types of support—depending on the situation—are required instead of support based on selected methods. Characteristics of each behavior problem type were analyzed to establish an electronic dictionary of behavior problem that was required for the natural language processing technology. As a result of developing a behavior problem type analysis method that used six natural language processing technologies by using the electronic dictionary, “analysis method 6” displayed an 84% match with experts’ classification results. Analysis method 6 decreased the time-demand by 9.9% compared with the existing analysis conducted manually. After experiencing the analysis system developed in this study, all educators who participated in the survey commented that if an online service for mediating behavior problems was developed, they would use it. 아동 및 청소년의 문제행동은 본인뿐만 아니라 가족, 지역사회에 이르기까지 많은 사회적 부작용을 만들어 내고 있으며, 학령기 전체 아동수는 줄어드는 반면 부적응 문제를 보이는 아동은 지속적 증가하고 있다. 이러한 부적응 아동 지원을 위해, 새로운 문제행동 지원 방안을 수립하는 방법과 기존 문제행동 지원 방안의 업무를 대폭 줄이도록 하는 방법 등이 모색 되어야 한다. 본 연구에서는 기존 문제행동 지원방안의 업무를 줄일 수 있도록 IT 기술 분야인 자연어 처리 기술을 사용한다. 자연어 처리 기술을 활용해 문제행동 유형을 자동으로 분석하기 위해 문제행동 영역 분석 방법을 개발하고, 개발된 유형분석 방법의 효용성을 검증하였다. 자연어 처리 기술을 활용한 문제행동 유형 분석을 위해 문제행동 기록 시스템인 Homi.Info에 기록된 2001년부터 2012년까지의 86,911개 문제행동 문장과 192,021번의 발생기록을 사용하였다. 문제행동 유형은 12개 분류로 공격 행동, 우울·불안 행동, 자해 행동, 반사회적 행동, 상동 행동, 성적 이상행동, 신체증상, 섭식 이상행동, 배설 이상행동, 수면 이상행동, 주의집중문제, 기타영역을 사용하였다. 연구결과 문제행동 문장은 4.3개의 단어와 9.3개의 형태소로 구성되어 있었으며, 영역별 발생빈도가 높은 10개 문장의 비율을 보면 반사회적 행동은 14.3%이지만, 배설 행동은 55.4%로 가장 높은 비율을 보였다. 상위 10개 행동이 50%를 넘는 영역은 상동 행동, 신체증상, 배설 이상 행동으로, 문제행동을 지원하기 위해 몇 개의 특정적 문제행동을 우선 지원하여 중재 효과를 나타낼 수 있다. 40% 이상의 비율을 보인 영역은 공격 행동, 우울·불안 행동, 자해 행동, 주의집중문제 영역이다. 반면 반사회적 행동은 14.3%로 나타나 상세 분류가 필요한 영역임을 알 수 있다. 또한, 행동지원에서는 특정 방법 중심의 지원보다는 상황에 따른 다양한 지원이 필요한 영역이다. 문제행동 영역별 특성을 분석하여 자연어 처리기술에 필요한 문제행동 전자사전을 구축하였다. 구축된 전자사전을 활용하여 6개의 자연어 처리 기술을 활용한 문제행동 유형분석 방법을 개발한 결과 분석방법 6이 전문가 분류결과와 84% 일치하는 결과를 나타냈다. 분석방법6은 기존에 수기로 진행하던 행동분석에 비해 9.9%의 시간절감 효과가 있었으며, 분석시스템을 사용한 후 설문에 참여한 모든 교사가 문제행동을 지원하는 온라인 서비스가 개발되면 사용하겠다는 의견을 밝혔다.

      • 미등록단어 문제와 데이터 부족 현상을 해결하기 위한 비지도학습 토크나이저와 추출 기반 문서 요약 기법

        김현중 서울대학교 대학원 2019 국내박사

        RANK : 248686

        Natural language processing is interested in converting a human language into computer-usable information to solve real problems. Among its various sub-tasks, tokenization is a fundamental data pre-processing task that aims to detect words or morphemes from its input sentence. Therefore, ineffective tokenization degrades the quality of other subsequent natural language processing tasks such as document summarization, in which documents are condensed into several key words or sentences. All of these various natural language processing tasks share common intrinsic challenges such as out-of-vocabulary problem, lack of labeled training data and inevitable grammatical or spelling errors within the input texts. Among these various issues, grammatical or spelling errors are especially fatal for natural language processing for Korean. As the readability of the Korean texts are not significantly affected by these errors, these errors are simply overlooked in the training data, thereby causing tokenization to be increasingly difficult. Furthermore, these overlooked grammatical or spelling errors are one of the main reasons behind the out-of-vocabulary problem in Korean. Unfortunately, there is simply not enough training data to resolve these errors. In this paper, I propose various unsupervised Korean natural language processing methods to overcome these issues. Due to its unsupervised nature, it can be easily applied to various domains that lack labeled training data. Instead of relying on labeled data, I utilize the structures of Eojeol, a basic unit of a Korean word, as a prior knowledge for capturing the patterns in the Korean language. Based on dividing Eojeol into a L + [R] structure, I propose four new unsupervised natural language processing methods for Korean. To overcome the out-of-vocabulary problem, I create two Eojeol based unsupervised Korean tokenizers that not only outperforms Word Piece Model but also performs at a similar level as supervised Korean tokenizers that are trained on labeled datasets and dictionaries. Furthermore, I devise a novel noun extraction method that is superior than the trained Korean morpheme analyzers. Beside these pre-processing tasks, I also propose key words and sentences selection method that removes redundant sentences and summarizes a set of Korean documents without relying on any tokenizer. For summarizing a document set that consists of documents with various topics, I additionally propose an improved document clustering method and effective cluster labeling method. It is up to several thousand times than existing k-means clustering algorithm during initialization. Finally, I propose summarization method for time series formed document set. It first devides the data it into several segments based on time point of topic change, then the keyword and keysentence extraction methods proposed in previous chapter are applied to summarize each segment. Our improved clustering and time-series formed documents summarization methods can be applied to different languages not only Korean. Supervised machine learning approaches are inevitable in natural language processing. However, unsupervised methods offer additional insight into Korean language that supervised methods fail to capture.As our unsupervised methods perform at a similar level as their supervised counterparts, integrating both approaches will provide unprecedented improvement in the world of Korean natural language processing. 자연어처리는 사람의 언어를 컴퓨터가 이용할 수 있는 형태의 정보로 변환하거나 이를 이용하는 과업들로 이뤄진 분야이다. 토크나이징은 문장을 단어나 형태소와 같이 분석의 단위로 분해하는 과업으로, 다른 자연어처리 과업의 입력 데이터를 처리하는 기초 과업이다. 토크나이저의 성능이 좋지 않을 경우 문서 요약이나 토픽 모델링과 같은 다른 자연어처리 과업의 품질이 저하된다. 문서 요약 과업은 키워드나 핵심 문장을 통하여 문서 집합의 내용을 요약하는 과업으로, 대량의 문서 집합에 대한 탐색을 편리하게 도와주거나 문서를 인덱싱 하는데 이용될 수 있다. 그러나 자연어처리 과업은 다음의 어려움을 지닌다. 첫째, 미등록단어 문제라 불리는 현상으로, 학습 데이터에 등장하지 않은 단어를 제대로 인식하지 못할 수 있다. 둘째, 각 과업에 적합한 학습 데이터를 마련하기 어렵다. 셋째, 텍스트 데이터에는 띄어쓰기 오류 및 철자법 오류에 의하여 잘못된 자연어처리 결과가 야기될 수 있다. 영어와 달리 한국어에는 띄어쓰기와 철자법 오류가 빈번하며, 이로 인하여 단어의 경계 구분이 어려운 경우가 발생한다. 위의 어려움들은 서로가 연결되어 있다. 데이터 내 오류는 미등록단어 문제를 발생시키며 이를 해결하는 모델을 구축하기 위해서는 추가적인 학습 데이터가 필요하다. 이러한 어려움은 토크나이저와 문서 요약 외 다른 자연어처리 과업들에서도 공통적으로 발생한다. 이 논문에서는 한국어 자연어처리 과업에서 발생하는 어려움을 해결하기 위하여 한국어의 구조적 특징을 이용하는 비지도학습 자연어처리 방법들을 제안한다. 비지도학습 방법은 학습 데이터를 이용하지 않기 때문에 다양한 도메인의 자연어처리 과업에 적용하기 용이하다. 또한 한국어의 구조적 특징은 비지도학습 기반 모델의 사전 지식 역할을 하여, 데이터로부터 효율적으로 정보를 학습할 수 있도록 도와준다. 이 논문에서는 비지도학습 한국어 자연어처리에 적합한 어절 구조인 L + [R] 와 이를 이용하는 다섯 가지 비지도학습 자연어처리 방법을 제안한다. 첫째, 미등록단어 문제를 해결하기 위하여 한국어 어절의 구조를 기반으로 작동하는 비지도학습 기반 한국어 토크나이저를 제안한다. 제안한 토크나이저는 Word Piece Model 보다 좋은 분류 성능과 학습 데이터를 이용하는 형태소 분석기와 비슷한 단어 인식 성능을 보였다. 둘째, L + [R] 구조를 기반으로 명사를 추출하는 방법을 제안하였으며, 이 역시 학습 말뭉치와 단어 사전을 이용하는 형태소 분석기보다도 뛰어난 명사 인식 능력을 보였다. 셋째, 단일 주제의 문서 집합 요약을 위한 키워드 및 핵심 문장 추출 방법을 제안하였다. 이 방법은 단어 추출 과정이 내제되어 있으며 키워드의 미등록단어 문제에 강건하다. 또한 중복되지 않는 문장들로 핵심 문장을 구성할 수 있다. 넷째, 다양한 주제로 구성된 문서 집합을 요약하기 위한 문서 군집화 기반 키워드 추출 방법을 제안하였다. 이 방법은 효율적인 문서 군집화를 위하여 초기화 과정을 개선하였으며, 개선된 Spherical k-means 방법은 기존의 알고리즘보다 수천배 빠른 초기화 계산 속도를 보였다. 또한 군집화 결과인 군집 중심값만을 이용하여 각 군집의 키워드를 추출하기 때문에 추가의 문서 요약 모델을 학습할 필요가 없다. 다섯째, 뉴스와 같이 시계열 형식으로 발생하는 문서 집합을 요약하는 방법을 제안하였다. 이 방법은 시계열 구분 방법을 이용하여 문서 집합의 주제가 변하는 시점을 기준으로 구간을 분리하며, 구간 별 키워드와 핵심 문장을 추출하여 구간 내 문서 집합을 요약한다. 제안된 문서 군집화 기반 키워드 추출 방법과 시계열 형식의 문서 집합 요약 방법은 한국어가 아닌 다른 언어에도 적용될 수 있다. 지도학습 기반 머신러닝 모델들은 다양한 과업에서 높은 정확도를 보여주지만, 학습 데이터에 대한 편향성 때문에 모델이 적용될 데이터에 적합하도록 조정이 필요하다. 이와 반대로 비지도학습 기반 방법은 모델이 적용될 데이터로부터 정보를 추출하며, 지도기반 모델들의 편향성 문제를 완화하는데 이용될 수 있다. 이 논문에서 제안하는 방법들은 비지도학습 기반으로만 작동함에도 불구하고 지도학습 기반 방법보다 좋거나 비슷한 성능을 보인다. 그러므로 제안한 방법과 지도학습 기반 방법을 상호 보완적으로 이용된다면 높은 정확도와 학습 데이터에 대한 편향성이 적은 모델로 발전할 수 있다.

      • 딥러닝 자연어처리 기법을 활용한 논증적 글쓰기 자동 채점 방안 연구 : 교사 채점자와 기계 채점자의 협업적 채점 수행 모델을 기반으로

        김승주 한국교원대학교 대학원 2022 국내박사

        RANK : 248686

        학생 필자에게 양질의 논증 피드백을 제공하는 것은 매우 중요하다. 그러나 우리의 교육 여건 상, 학생 필자가 자신의 글쓰기 결과물에 대해 충분한 피드백을 제공받기는 매우 어렵다. 이에 대한 대안으로 국외에서는 일찍이 논증적 글쓰기 과제를 비롯한 글쓰기 자동 채점 시스템 개발을 위한 연구가 이루어져왔다. 그러나 교사 채점자를 대체하려는 목적에 따라 설계된 이들 시스템은 교사 채점자와 협업하여 채점을 수행해야 하는 일반의 교실 상황에서는 효과적으로 기능하기 어렵다는 한계가 있다. 이러한 문제 인식에 기초하여 본 연구에서는 논증적 글쓰기 채점 과제를 대상으로 교사 채점자와 기계 채점자의 협업적 채점 수행 모델을 기반으로한 새로운 형태의 자동 채점 방안을 제안하고 효과성을 검증하고자 하였다. 연구는 크게 세 단계로 이루어져 있다. 첫 번째 단계에서는 논증적 글쓰기 채점 과정에서 교사 채점자가 경험하는 인지 부하 요인을 도출하고 이를 바탕으로 한 협업적 채점 수행 모델을 제안하였다. 이에 경력 10년차 내외의 현직 국어교사 10인을 대상으로 고등학생 2학년이 작성한 논증문 20편을 컴퓨터 기반의 채점 프로그램을 활용하여 채점하도록 한 뒤, 사후 설문조사와 인터뷰를 통해 논증적 글쓰기 채점 과정의 인지 부하 요인과 인지적 보조 요구를 도출하였다. 연구 결과, 논증적 글쓰기 채점 과정에서 채점자의 인지 부하 요인은 총 5가지로 (1)‘채점 기준 재확인 과정에서의 인지 부하’, (2)‘이전 채점 결과의 확인 및 비교 과정에서의 인지 부하’, (3)‘유사한 내용(핵심주장, 주장, 근거)의 반복적인 읽기 상황에서의 인지 부하’, (4)‘자료 글과 학생 글의 대조 과정에서의 인지 부하’, (5)‘글의 표현 측면에 대한 동시적 평가 요구로 인한 인지 부하’ 등이다. 이후 도출된 인지 부하 요인을 경감시키기 위해 제안된 자동 채점 기능은 총 9가지로 (1)‘채점 중 수준 진술문 동시 노출 기능’과 (2)‘비슷한 수준의 글 검색 기능’, (3)‘핵심 주장 탐지 기능’, (4)‘주요 근거 탐지 기능’, (5)‘자료 글 활용 탐지 기능’, (6)‘어휘 다양성 지수 산출 기능’, (7)‘중복 표현 탐지 기능’, (8)‘맞춤법 등 어문 규범에 어긋난 표현 탐지 기능’, (9)‘맞춤법 등 어문 규범에 어긋난 표현 교정 기능’ 등이다. 이후 이상의 자동 채점 기능을 바탕으로 논증적 글쓰기 과제에 대한 교사 채점자와 기계 채점자의 협업적 채점 수행 모델을 도출하였다. 두 번째 단계에서는 앞서 제안된 자동 채점 기능을 딥러닝 자연어 처리 기법 등의 알고리즘을 활용하여 구현하였다. 이에 (1)‘채점 중 수준 진술문 동시 노출 기능’은 관련 평가 기준의 수준 진술문 데이터를 조회하여 노출하도록 하는 알고리즘으로 구현되었으며, (2)‘비슷한 수준 글 검색 기능’의 경우, 동일한 수준으로 평가했던 글을 찾아 보여주도록 하는 알고리즘으로 구현되었으며, (3)‘핵심 주장 탐지 기능’은 CNN 모델을 기반으로 핵심 주장과 주요 근거에 해당하는 문장을 탐지하고 학생 글 노출 영역에 해당 문장을 별도의 색상으로 강조 표시하도록, (4)'주요 근거 탐지 기능'은 BERT를 기반으로 핵심 주장과 주요 근거에 해당하는 문장을 탐지하고 해당 문장을 별도의 색상으로 강조 표시하도록, (5)‘자료 글 활용 탐지 기능’은 3-gram 분석 및 pororo의 개체명 인식 모듈을 활용하여 주어진 자료 글을 그대로 가져온 부분을 탐지하여 강조 표시하도록, (6)‘어휘 다양성 지수 산출 기능’은 TTR(Type-Token Ratio) 지수를 노출하도록, (7)‘중복 표현 탐지 기능’은 mecab 형태소 분석기와 6-gram 분석을 통해 학생 글 내에서 중복되어 사용된 표현을 탐지하여 강조 표시하도록, (8)‘맞춤법 등 어문 규범에 어긋난 표현 교정 기능’은 네이버 맞춤법 검사기를 활용하여 학생 글에서 표현 오류를 교정하도록, (9)‘맞춤법 등 어문 규범에 어긋난 표현 탐지 기능’ 교정이 이루어진 영역을 오류 유형에 따라 별도의 색상으로 강조 표시하도록 하는 알고리즘으로 구현되었다. 세 번째 단계는 협업적 채점 수행 모델의 효과성을 검증하는 단계이다. 이 단계에서는 구현한 자동 채점 기능을 활용하여 교사 채점자가 채점을 수행하도록 하고 자동 채점 기능의 활용도와 더불어 교사 채점자의 채점 수행의 향상도를 확인한다. 이를 위해 앞서 사용한 것과 동일한 컴퓨터 기반의 채점 프로그램에 9가지 자동 채점 기능을 탑재하여, 현직 국어교사 8인을 대상으로 해당 채점 프로그램을 활용하여 채점을 수행(협업 채점)하도록 했다. 이전 연구 단계에서 교사 채점자가 단독으로 채점을 수행(단독 채점)했을 때와 같은 종류의 채점 과제를 제시하고 이 둘을 비교 분석하였다. 분석 대상은 채점 프로그램 상의 로그(log) 기록과 교사 채점자의 평정 점수, 교사 채점자가 기록한 채점 근거, 설문 및 인터뷰 결과 등이다. 자동 채점 기능의 활용도를 분석한 결과, (1)‘채점 중 수준 진술문 동시 노출 기능’의 경우, 채점자들은 해당 기능을 유용하게 활용한 것으로 나타났으며, 대체로 ‘매우 유용하다’(M=4.9, SD=0.3)고 평가하였다, (2)‘비슷한 수준 글 찾기 기능’의 경우, 채점자들은 대체로 ‘유용하다’(M=3.8, SD=0.3)고 평가하였다. (3)‘핵심 주장 탐지 기능’의 경우, 다수 채점자들은 해당 기능을 ‘주장의 명료성’ 기준을 채점하는 과정에 활용하였으며 대체로 ‘매우 유용하다’(M=4.9, SD=0.3)고 평가하였다. (4)‘주요 근거 탐지 기능’의 경우, 채점자들은 해당 기능을 ‘근거의 관련성’ 기준과 ‘논증의 타당성’ 기준을 채점하는 데에 활용하였으며 대체로 ‘매우 유용하다’(M=4.3, SD=1.1)고 평가하였다. (5)‘자료 글 활용 탐지 기능’의 경우, 다수 채점자들은 해당 기능을 ‘자료 활용의 효과성’ 기준을 채점하는 데에 활용하였으며 대체로 ‘유용하다’(M=3.9, SD=1.8)고 평가하였다. (6)‘어휘 다양성 지수 산출 기능’의 경우 다수 채점자들은 해당 기능을 ‘어휘의 다양성’ 기준을 채점하는 과정에서 활용하였으며 대체로 ‘매우 유용하다’(M=4.4, SD=1.4)고 평가하였다. (7)‘중복 표현 탐지 기능’의 경우, 다수 채점자들은 해당 기능을 ‘어휘의 다양성’ 기준의 채점 과정에서 활용하였고, 대체로 ‘매우 유용하다’(M=4.5, SD=1.4)고 평가하였다. (8)‘맞춤법 등 어문 규범에 어긋난 표현 탐지 기능’의 경우, 다수 채점자들은 해당 기능을 ‘어법의 정확성’ 기준을 채점하는 과정에서 활용하였으며 평균적으로 ‘매우 유용하다’(M=4.3, SD=1.0)고 평가하였다. (9)‘맞춤법 등 어문 규범에 어긋난 표현 교정 기능’의 경우, 다수 채점자들은 해당 기능을 활용하였으며 평균적으로 ‘매우 유용하다’(M=3.9, SD=1.2)고 평가하였다. 다음으로는 협업 채점 상황에서 교사 채점자의 채점 수행 향상도를 분석하였다. 채점 수행 향상도는 채점 신뢰도, 채점 시간, 채점 근거의 양적 질적 수준 측면 등을 비교 분석하였다. 먼저, 채점 신뢰도를 분석한 결과, 부분 일치도는 소폭 감소하였음에도 불구하고 Fleiss Kappa 계수와 완전 일치도를 기준으로 신뢰도가 향상되어 자동 채점 기능이 교사 채점자의 채점 신뢰도 향상에 효과적인 것으로 나타났다. 채점 시간을 분석한 결과, 협업 채점 상황에서 채점에 소요된 시간이 유의한 수준에서 단축된 것으로 나타났으며, 평균 34.2분, 많게는 90.2분까지 채점 시간이 단축되었다. 채점 기준별로는 ‘주장의 명료성’ 기준과 ‘자료 활용의 효과성’ 기준에서 유의한 수준의 단축이 관찰되었다. 채점 근거의 양적 수준을 분석한 결과, 협업 채점 상황에서 채점 근거의 양적 수준이 유의한 수준에서 향상되었다. 채점 기준별로는 ‘근거의 관련성’, ‘논증의 타당성’, ‘자료 활용의 효과성’, ‘어휘 사용의 다양성’, ‘어법의 정확성’에서 유의한 상승이 나타났으며 이들은 채점자들이 자동 텍스트 분석 기능을 활용한 채점 기준이었다는 점에서 주목할 만하다. 채점 근거의 양적 수준을 분석한 결과, 협업 채점 상황에서 채점 근거의 질적 수준이 유의한 수준에서 향상되었다. 전반적으로 상 수준의 채점 근거에 유의한 수준으로 증가하였고, 하 수준의 채점 근거는 유의한 수준에서 감소하거나 유의한 차이가 없었다. 이는 교사 채점자가 하 수준 보다는 상 수준의 채점 근거를 토대로 채점을 수행하게 되었음을 의미한다. 이상의 내용을 종합해볼 때 본 연구에서 설계한 협업적 채점 수행 모델을 기반으로한 자동 채점 방안은 타당한 것으로 나타났다. 이 연구는 논증적 글쓰기 과제라는 구체적인 글쓰기 과제를 대상으로 대안적 형태의 자동 채점 방안을 제안하고 효과성을 검증했다는 점, 교사 채점자의 채점 과정을 효과적으로 지원하는 협업적 채점 수행 모델을 제안했다는 점, 향후 교실 단위의 글쓰기 평가 상황에서 활용 가능한 자동 채점 모델의 일부를 검증했다는 점에서 의의가 있다.

      • 인공지능 기반 자연어 처리 기술의 현황 및 서비스 연구 : 3종류의 기계통번역 장치 정확도 분석

        맹혜련 호서대학교 대학원 2019 국내석사

        RANK : 248685

        본 연구는 기계와 인간이 소통할 수 있는 주요 수단인 자연어처리의 기술과 서비스에 관한 연구이다. '초시대'라고 불려지는 초연결·초지능·초실감의 기술로 변화하는 미래 사회에도 자연어처리는 필수적이기 때문이다. 그 중에서도 다양한 서비스와 응용될 수 있는 번역분야의 현재 정확도 수준을 함께 분석하였다. 먼저, 미래 기술의 배경이 되는 초연결·초지능·초실감에 대해 알아보았다. 이에 따라 함께 발전하는 자연어 처리 기술을 알기 위해 기본 자연어 처리 딥러닝 기법인 단어 임베딩, word2Vec, CNN, RNN에 대하여 살펴 보았다. 그리고 이를 바탕으로 제공되는 음성인식, 번역, 챗봇 서비스와 각 딥러닝 기법에 대해 기술하였다. 그 중 번역분야의 현재 수준을 파악하기 위해 연구자의 모국어인 한국어와 세계 공통어인 영어를 이용해 문장 샘플을 만들었다. 문장은 번역이 어려운 동음이의어와 다의어로 구성되었다. 각 문장은 표준문장과 3가지 번역 사이트의 번역 결과의 비교로 분석되었다. 그 결과 성능이 발전하고 있지만 아직 한-영번역에 개선할 부분이 많다는 점을 알 수 있었다. 나아가 초시대의 기술과 자연어 처리 딥러닝 기술이 연결되고 융합되어 사용될 미래의 인공지능 가상 비서와 커넥티드카, 그 외 번역, 감성분석, 가상현실 내의 자연어처리 기반 고객서비스들을 알아보았다. 이 때 현재의 기술과 앞으로의 발전에 고려되어야 할 점들을 살펴보았다. 이를 통해 새로운 서비스에 대한 기술 예측과 급변하는 미래 환경에 사람들이 거부감이 들지 않게 조율하여 편리하고 만족감을 주는 서비스, 그리고 편향없는 데이터셋 구축을 기대했다.

      • 자연어처리 및 심층학습 기반 아동의 언어발달 자동 판별 연구

        오병두 한림대학교 대학원 2022 국내박사

        RANK : 248671

        언어발달은 타인과의 상호작용과 같은 경험 등의 환경적인 요인에 영향을 받으며, 인지 지능 등 다양한 영역의 지능과 사회성 등에 대한 발달과 밀접한 연관성을 가진다. 아동의 언어지연은 언어장애로 발전할 수 있을 가능성이 높고, 이는 향후 아동의 학업 성취와 사회성, 그리고 경제 활동 능력 등 인생의 전반적인 부분에 부정적인 영향을 주어 아동이 가진 다양한 잠재력을 제한할 수 있다. 그래서 아동의 언어지연 또는 언어장애는 조기 진단 및 치료가 매우 중요하다. 하지만 보호자가 아동의 상태를 정확하게 인지하기 어려워서 적절한 평가 또는 진단과 치료 시기를 놓치는 경우도 많이 존재하다. 그리고 언어검사에 대한 정보가 부족하여 접근성이 낮고, 검사 과정 중 전문가에게 많은 시간과 노력이 요구된다. 또한, 기존에 개발된 언어검사들은 언어마다 언어학적 특징과 사용 양상, 그리고 문화 등이 달라서 다른 언어를 대상으로 활용하기 어렵다. 따라서 전문가가 언어검사 수행 시 아동의 언어발달 수준을 객관적이고 신속하게 판별하여 보호자의 언어검사에 대한 접근성과 전문가의 평가에 대한 편의성을 개선할 수 있는 방법이 필요하다. 또한, 이를 광범위하게 사용하기 위해서는 다양한 언어에서 쉽게 적용될 수 있는 방법도 필요하다. 따라서 본 연구에서는 아동의 언어발달 수준을 자동으로 판별할 수 있도록 자연어처리와 심층학습 기술의 활용 방법을 모색하였다. 본 연구에서는 2세~6세의 아동이 산출한 발화로 작성된 전사 자료를 사용하였다. 먼저, 지도학습 기반 판별 방법은 자연어 분석 단위 (문장 단위 처리, 문서 단위 처리, 문서 단위 처리와 품사 정보)에 따른 지도학습의 활용 방법을 모색하였다. 지도학습 기반 판별 방법은 문서 단위 처리와 품사 정보에서 약 74.55%의 정확도를 보여주었다. 그러나 더욱 성능을 개선하기 위해서는 여전히 많은 데이터를 요구하였고, 다른 언어에서 쉽게 활용하기 어려웠다. 이러한 한계들을 해결하고자, 사전 훈련된 언어모델의 문장 등장 확률을 활용한 비지도학습 기반 판별 방법을 개발하였다. KoGPT2-SKT에 기반한 비지도학습 기반 판별 방법은 한국어 수용·표현 어휘력 검사 (REVT) 규준과의 피어슨 상관계수가 약 0.9888 (REVT-R)과 0.9828 (REVT-E)로, 매우 높은 상관관계를 확인할 수 있었다. Language development is impacted by environmental factors like experiences such as social interactions with others, and has a tight connection to the variety of domains, including sociality and intelligence development such as cognitive intelligence. A child's language delay is quite likely to advance into a language impairment, which can negatively impact entire aspect of a child's life, such as academic achievement, sociality, and ability to perform economic activities in the future, limiting the child's various potentials. Therefore, it is important to evaluation or diagnosis and treat language impairments or delays in children as soon as possible. However, there are many cases when it is challenging for parents to precisely identify the child's state, causing them to miss the ideal window for an diagnosis and treatment. And parents lack knowledge of language tests, making them less accessible and requiring experts to put in a lot of time and effort throughout the testing process. Additionally, it is challenging to employ previously developed language tests for other languages since each language has unique linguistic characteristics, usage patterns, and cultures. As a result, there is a need for a technique that can objectively and quickly identify the child's language development level when the expert does the language test in order to increase the parent's accessibility of the language test and the expert's convenience of the evaluation. Additionally, a technique that can be used broadly and is simple to apply in other languages is required. In this paper, we looked for a way to use deep learning and natural language processing to automatically identify the children's language development levels. At this time, We used transcription data created from utterances made by children between the ages of 2 and 6. To begin with, a supervised learning-based identification method was explored to applying the supervised learning in accordance with the processing unit of natural language (sentence-level, document-level, document-level with part-of-speech information). When processing document-level and employing part of speech information, the supervised learning-based identification method showed an accuracy of about 74.55%. However, it couldn't address the usability for other languages and still needed a lot of data to improve performance. To solve these limitations, an unsupervised learning-based identification method using a pretrained language model that assigns probabilities to sentences was developed. The Pearson's correlation coefficients for the unsupervised learning-based identification method based on KoGPT2-SKT showed a very high correlation with the REVT norm, at about 0.9888 (REVT-R) and 0.9828 (REVT-E), respectively.

      • 데이터 전처리 간소화를 적용한 트랜스포머 모델 기반의 악성코드 탐지

        신동환 국방대학교 2024 국내석사

        RANK : 248671

        메타데이터를 기반으로 머신러닝 혹은 딥러닝 모델을 학습시켜 악성코드 탐지에 활용하기 위해서는 모델 학습을 수행하기 이전에 데이터 전처리가 필수적이다. 메타데이터는 이미 정제된 데이터이기는 하지만, 모델 학습을 위해서는 범주형 데이터를 수치형 데이터로 변환하는 원-핫-인코딩(One Hot Encoding)이나 학습 속성의 범위가 달라 학습과정에서 왜곡이 발생하는 것을 방지하기 위한 정규화(normalization) 또는 표준화 등을 수행해 주어야 한다. 그리고 이러한 전처리는 데이터에 종속적이기 때문에, 추가로 새로운 악성코드가 나타나면 전처리 과정을 반복하여 학습 데이터를 업데이트한 후 다시 모델에 적용해야 한다. 본 논문에서는 메타데이터를 활용하여 악성코드 탐지모델을 구축하는 과정에서 전처리로 인해 발생하는 비효율적인 문제를 해결하기 위해 자연어처리(Natural Language Processing) 기법을 적용하여 트랜스포머(Transformer) 기반의 악성코드 탐지모델을 제안하였다. 제안하는 탐지모델은 메타데이터가 가지는 여러 개의 학습 속성(feature)을 하나의 문장으로 병합한 후 언어모델을 통해 학습한다. 제안하는 접근방법의 성능 평가를 위해 활용한 CIC-MalMem-2022 데이터세트의 메타데이터는 총 55개 속성을 가지고 있으며, 파이썬 코드를 활용하여 55개의 속성을 공백 문자로 구분된 하나의 문장으로 병합하였다. 그리고 병합된 메타데이터를 Hugging Face에서 개발한 대표적인 Transformer 모델 2종(BERT, Distil BERT)과 Facebook의 BART에 학습시킨 후 분류성능을 분석하였다. 실험 결과 이진 분류에서는 BERT가 99.85%, DistilBERT가 99.90%, 그리 고 BART가 99.93%의 정확도를 달성하였으며, 기존 연구인 100%와 유사한 탐지성능을 보였다. 그러나 다중 분류에서는 각각 84.69%, 85.10% 및 84.44%의 정확도를 달성하여 기존의 연구보다 0.54% 더 우수한 결과를 나타 내었다. 복잡하고 시간이 많이 소요되는 데이터 전처리 과정을 간소화하였음 에도 불구하고 이진 분류에서는 기존 연구들과 유사한 수준의 탐지성능을 달성하였고, 다중 분류에서는 훨씬 우수한 성능을 달성하였다는 점에서 제안 하는 접근방법이 효과적인 접근방법이 될 수 있음을 확인하였다. 한편 CIC-MalMem-2022 데이터세트는 범주형 데이터를 포함하고 있지 않 아 범주형 데이터를 가지는 데이터세트에 대해서는 제안하는 접근방법이 어 떤 성능을 보여주는지를 확인하기 위해 UNSW-NB15 데이터세트에 대해서 도 성능 분석을 실시하였다. 그 결과 이진 분류 정확도는 각각 95.35%, 95.22.%로 기존 연구인 96.76%보다 1.41% 낮게 나타났고, 다중 분류 정확도 는 각각 82.95%, 82.4346%로 기존 연구인 83.07%보다 0.12% 낮은 성능을 보였다. 데이터 전처리가 필수적이라고 할 수 있는 메타데이터를 하나의 문장으로 병합하여 트랜스포머 기반 모델에 학습시켰을 때, 범주형 데이터를 포함하지 않는 메타데이터에 대해서는 기존 연구보다 우수한 성과를 달성할 수 있었 지만 범주형 데이터를 포함하는 경우에는 성능이 미세하게 낮아지는 것도 확인하였다. 이상과 같은 결과를 통해 자연어 처리가 메타데이터 학습 기반 의 침입탐지 모델을 구축할 때 충분하게 활용 가능할 것으로 판단되며, 향후 자연어처리 연구에 좀 더 노력을 기울인다면 정확도를 보다 향상시킬 수 있 는 가능성도 높을 것으로 판단된다. 또한, 데이터 전처리에 필요한 전문지식 없이도 침입탐지 모델 구축을 가능하게 해 주며, 지속적으로 진화하고 정교 해지는 악성코드의 출현에도 적극적으로 대응할 수 있는 방안을 제공하는 기반이 될 것이다. 주요어 : 전처리, 트랜스포머, BERT, DistilBERT, BART, CIC-MalMem-2022, UNSW-NB15, 자연어처리

      • 자연어처리 모델을 이용한 이커머스 데이터 기반 감성 분석 모델 구축(6가지 자연어처리 모델 구현을 통한 이커머스 상품평 감성 분석 결과 비교)

        최준영 고려대학교 컴퓨터정보통신대학원 2021 국내석사

        RANK : 248671

        자연어 처리 분야에서 번역, 형태소 태깅, 질의응답, 감성 분석등 다양한 영역의 연구가 활발히 진행되고 있다. 감성 분석 분야는 Pretrained Model을 전이 학습하여 단일 도메인 영어 데이터셋에 대해 높은 분류 정확도를 보여주고 있다. 본 연구에서는 다양한 도메인 속성을 가지고 있는 이커머스 한글 상품평 데이터를 이용하고 단어 빈도 기반의 BOW(Bag Of Word), LSTM[1], Attention, CNN[2], ELMo[3], KoBERT[4] 모델을 구현하여 분류 성능을 비교하였다. 같은 단어를 동일하게 임베딩하는 모델에 비해 문맥에 따라 다르게 임베딩하는 전이학습 모델이 높은 정확도를 낸다는 것을 확인하였고, 17개 카테고리 별, 모델 성능 결과를 분석하여 실제 이커머스 산업에서 적용할 수 있는 감성 분석 모델 구성을 제안한다. 그리고 모델별, 용량에 따른 추론 속도를 비교하여 실시간 서비스가 가능할 수 있는 모델 연구 방향을 제시한다.

      • 자연어 처리를 이용한 수학 인지요소 자동 분류 모델 개발 : 문자와 식 영역을 중심으로

        안영석 서울대학교 대학원 2024 국내석사

        RANK : 248671

        과정중심평가는 학습 과정에서 학생의 변화와 성장을 다각도로 평가 하고 적절한 피드백을 제공하는 방식이다. 이는 학생이 자신의 학습을 성찰하고 교사가 교수·학습의 질을 개선하도록 유도하는 2015개정교육과 정의 핵심 요소다. 과정중심평가는 즉각적이고 실제적인 피드백을 통해 학습이 일어나도록 설계되어야 하며, 학생들의 학습상태를 파악할 수 있 는 과제 설계가 필요하다. 인지 진단 이론에 기반한 평가모형은 학생들의 지식과 기술을 세밀하 게 분석하는 것을 목표로 한다. 하지만 문항에 포함된 지식 구조를 통해 인지요소를 결정하는 것은 전문가의 능력에 의존하기 때문에 많은 시간 과 노력, 그리고 교후삭적 지식이 요구된다. 최근 자연어 처리(NLP) 기술의 발전은 평가 문항 개발과 학생 성취 분석에 새로운 가능성을 제시하고 있으며, 인공지능을 활용한 개인화된 학습 지원과 평가 문항 태깅의 자동화가 교육 현장에 혁신을 가져올 것 으로 기대된다. 이에 본 연구에서는 자연어 처리(NLP) 기술을 이용하여 수학 문항의 인지요소를 예측하고, 이를 통해 모델의 성능을 개선하는 방법에 대해 탐구하였다. 연구는 문항 데이터의 불균형 해소, 단원별 분류 성능의 차 이, 그리고 언어적 요인이 모델 성능에 미치는 영향을 중점적으로 분석 하였다. 데이터 불균형 문제에 대처하기 위해 문항을 추가하고 예측 가중치를 조정하였으며, 이를 통해 모델 성능의 소폭 개선을 확인하였다. 단원별로 는 인수분해 단원이 가장 높은 성능을, 단항식과 다항식 단원이 가장 낮 은 성능을 보였으며, 이는 학습 데이터의 차이와 단원의 특성에 따른 것 으로 분석되었다. 또한, 언어적 요인 분석을 통해 특정 단원에서 사용되 는 언어적 특성이 모델의 성능에 긍정적 영향을 줄 수 있음을 확인하였 다. 주요어 : 인지요소, 자연어처리, Q행렬, 자동분류, 수학 문항, 도메인 특화 사전학습 언어모델 학 번 : 2021-28064 Process-oriented assessment evaluates students' changes and growth from multiple perspectives during their learning process, providing appropriate feedback. This approach is a key element of the 2015 revised curriculum, designed to encourage students to reflect on their learning and teachers to improve the quality of teaching and learning. Process-oriented assessment must be designed to facilitate learning through immediate and practical feedback, necessitating the design of tasks that can assess students' learning states. Assessment models based on cognitive diagnostic theory aim to analyze students' knowledge and skills in detail. However, determining cognitive elements through the knowledge structures included in items depends on experts' abilities, requiring considerable time, effort, and pedagogical content knowledge. Recent advancements in Natural Language Processing (NLP) technology offer new possibilities for developing assessment items and analyzing student achievements. The use of artificial intelligence for personalized learning support and the automation of assessment item tagging are expected to bring innovation to the educational field. This study explores methods to improve model performance by predicting cognitive elements of mathematics items using NLP technology. It focuses on addressing data imbalance, differences in classification performance by chapter, and the impact of linguistic factors on model performance. To tackle data imbalance, the study adjusted prediction weights and added items, resulting in a slight improvement in model performance. Chapter-wise, the factorization chapter showed the highest performance, while the monomial and polynomial chapters showed the lowest, attributed to differences in learning data and chapter characteristics. Additionally, the analysis of linguistic factors revealed that the linguistic characteristics used in certain chapters could positively affect model performance.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼