RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
          펼치기
        • 등재정보
        • 학술지명
          펼치기
        • 주제분류
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        딥러닝 기반 언어모델을 이용한 한국어 학습자 쓰기 평가의 자동 점수 구간 분류 - KoBERT와 KoGPT2를 중심으로 -

        조희련,이유미,임현열,차준우,이찬규 국제한국언어문화학회 2021 한국언어문화학 Vol.18 No.1

        이 연구에서는 '한국어 딥러닝 모델'이 '한국어 학습자의 쓰기 자료에 대한 한국어 교사의 평가 점수'를 어느 정도 유사하게 예측할 수 있는지 살펴보았다. 구체적으로 이 연구에서는 304편의 한국어 쓰기 자료와 각각에 대한 평가 점수를 KoBERT와 KoGPT2로 학습시킨 후 그것이 인간 채점자(한국어 교사)의 평가 점수를 어느 정도 유사하게 예측하는지 실험하였다. 학습 데이터는 주제에 따라 '직업'과 '행복'으로 구분하였고, 점수에 따라 4종 레이블을 부착하였다. 7겹 교차 검증을 통한 실험 결과, KoBERT에서는 '직업' 데이터에서 48.8%, '행복' 데이터에서 65.2%의 분류 정확도를 나타냈다. KoGPT2에서는 같은 데이터에 대해 각각 50.6%와 58.9%의 분류 정확도를 나타냈다. 더불어, 모든 주제를 통합한 데이터에서는 KoBERT와 KoGPT2에 대해 각각 54.5%와 46.5%의 분류 정확도를 확인할 수 있었다. 이 연구를 통해 한국어 쓰기 자료에 대한 자동 채점 시스템의 가능성을 확인할 수 있었다. 향후 GPT-3의 한국어 모델이 개발되는 등의 기술 발전이 이루어진다면, 이 연구에서 시도한 한국어 자동 채점 시스템도 충분히 가능할 것으로 기대한다. Automatic Score Range Classification of Korean Essays Using Deep Learning-based Korean Language Models-The Case of KoBERT & KoGPT2-. We investigate the performance of deep learning-based Korean language models on a task of automatically classifying Korean essays written by foreign students. We construct an experimental data set containing a total of 304 essays, which include essays discussing the criteria for choosing a job (‘job’), conditions of a happy life (‘happiness’), relationship between money and happiness, and definition of success. These essays were divided into four scoring levels, and using this 4-class data set, we fine-tuned two Korean deep learning-based language models, namely, KoBERT and KoGPT2, to use them in the automatic essay classification experiment. The 7-fold cross validation classification accuracies of ‘job’ and ‘happiness’ essays were 48.8% and 65.2% respectively for KoBERT, and 50.6% and 58.9% respectively for KoGPT2. Furthermore, the 7-fold cross validation classification accuracies of the integrated dataset that combined all essays were 54.5% and 46.5% for KoBERT and KoGPT2 respectively.

      • KCI등재

        한국어 학습 모델별 한국어 쓰기 답안지점수 구간 예측 성능 비교

        조희련,임현열,이유미,차준우 한국정보처리학회 2022 정보처리학회논문지. 소프트웨어 및 데이터 공학 Vol.11 No.3

        We investigate the performance of deep learning-based Korean language models on a task of predicting the score range of Korean essayswritten by foreign students. We construct a data set containing a total of 304 essays, which include essays discussing the criteria for choosinga job (‘job’), conditions of a happy life (‘happ’), relationship between money and happiness (‘econ’), and definition of success (‘succ’). Theseessays were labeled according to four letter grades (A, B, C, and D), and a total of eleven essay score range prediction experiments wereconducted (i.e., five for predicting the score range of ‘job’ essays, five for predicting the score range of ‘happiness’ essays, and one forpredicting the score range of mixed topic essays). Three deep learning-based Korean language models, KoBERT, KcBERT, and KR-BERT,were fine-tuned using various training data. Moreover, two traditional probabilistic machine learning classifiers, naive Bayes and logisticregression, were also evaluated. Experiment results show that deep learning-based Korean language models performed better than the twotraditional classifiers, with KR-BERT performing the best with 55.83% overall average prediction accuracy. A close second was KcBERT (55.77%)followed by KoBERT (54.91%). The performances of naïve Bayes and logistic regression classifiers were 52.52% and 50.28% respectively. Dueto the scarcity of training data and the imbalance in class distribution, the overall prediction performance was not high for all classifiers. Moreover, the classifiers’ vocabulary did not explicitly capture the error features that were helpful in correctly grading the Korean essay. By overcoming these two limitations, we expect the score range prediction performance to improve. 우리는 유학생이 작성한 한국어 쓰기 답안지의 점수 구간을 예측하는 문제에서 세 개의 딥러닝 기반 한국어 언어모델의 예측 성능을 조사한다. 이를 위해 총 304편의 답안지로 구성된 실험 데이터 세트를 구축하였는데, 답안지의 주제는 직업 선택의 기준(‘직업’), 행복한 삶의 조건(‘행복’),돈과 행복(‘경제’), 성공의 정의(‘성공’)로 다양하다. 이들 답안지는 네 개의 점수 구간으로 구분되어 평어 레이블(A, B, C, D)이 매겨졌고, 총 11건의점수 구간 예측 실험이 시행되었다. 구체적으로는 5개의 ‘직업’ 답안지 점수 구간(평어) 예측 실험, 5개의 ‘행복’ 답안지 점수 구간 예측 실험, 1개의혼합 답안지 점수 구간 예측 실험이 시행되었다. 이들 실험에서 세 개의 딥러닝 기반 한국어 언어모델(KoBERT, KcBERT, KR-BERT)이 다양한훈련 데이터로 미세조정되었다. 또 두 개의 전통적인 확률적 기계학습 분류기(나이브 베이즈와 로지스틱 회귀)도 그 성능이 분석되었다. 실험 결과딥러닝 기반 한국어 언어모델이 전통적인 기계학습 분류기보다 우수한 성능을 보였으며, 특히 KR-BERT는 전반적인 평균 예측 정확도가 55.83%로가장 우수한 성능을 보였다. 그 다음은 KcBERT(55.77%)였고 KoBERT(54.91%)가 뒤를 이었다. 나이브 베이즈와 로지스틱 회귀 분류기의 성능은각각 52.52%와 50.28%였다. 학습된 분류기 모두 훈련 데이터의 부족과 데이터 분포의 불균형 때문에 예측 성능이 별로 높지 않았고, 분류기의어휘가 글쓰기 답안지의 오류를 제대로 포착하지 못하는 한계가 있었다. 이 두 가지 한계를 극복하면 분류기의 성능이 향상될 것으로 보인다.

      • 다양한 차원 축소 기법을 적용한 문서 군집화 성능 비교

        조희련 ( Heeryon Cho ) 한국정보처리학회 2018 한국정보처리학회 학술대회논문집 Vol.25 No.1

        문서 군집화 성능을 높이기 위한 한 방법으로 차원 축소를 적용한 문서 벡터로 군집화를 실시하는 방법이 있다. 본 발표에서는 특이값 분해(SVD), 커 널 주성분 분석 (Kernel PCA), Doc2Vec 등의 차원 죽소 기법을, K-평균 군집화(K-means clustering), 계층적 병합 군집화(hierarchical agglomerative clustering), 스펙트럼 군집화(spectral clustering)에 적용하고, 그 성능을 비교해 본다.

      • KoBERT, 나이브 베이즈, 로지스틱 회귀의 한국어 쓰기 답안지 점수 구간 예측 성능 비교

        조희련 ( Heeryon Cho ),임현열 ( Hyeonyeol Im ),차준우 ( Junwoo Cha ),이유미 ( Yumi Yi ) 한국정보처리학회 2021 한국정보처리학회 학술대회논문집 Vol.28 No.1

        한국어 심층학습 언어모델인 KoBERT와, 확률적 기계학습 분류기인 나이브 베이즈와 로지스틱 회귀를 이용하여 유학생이 작성한 한국어 쓰기 답안지의 점수 구간을 예측하는 실험을 진행하였다. 네가지 주제(‘직업’, ‘행복’, ‘경제’, ‘성공’)를 다룬 답안지와 점수 레이블(A, B, C, D)로 쌍을 이룬 학습데이터 총 304건으로 다양한 자동분류 모델을 구축하여 7-겹 교차검증을 시행한 결과 KoBERT가 나이브 베이즈나 로지스틱 회귀보다 약간 우세한 성능을 보였다.

      • Naive Bayes 와 SVM 을 이용한 트위터 데이터의 긍정/부정 의견 자동분류 결과 분석

        조희련 ( Heeryon Cho ),김성국 ( Songkuk Kim ) 한국정보처리학회 2012 한국정보처리학회 학술대회논문집 Vol.19 No.1

        나꼼수 비키니 시위’에 대한 긍정적(지지), 부정적(비판) 의견을 담은 트위터 데이터를, 단어의 출현에 주목하여 Naïve Bayes (NB)와 Support Vector Machine (SVM)을 적용하여 자동분류 한 결과, NB가 75.98%로, 73.65%인 SVM 보다 약간 더 나은 성능을 보였다. 본 실험을 통해, 기계학습을 이용한 대중의견(opinion) 자동분류 시스템을 실용화할 때의 고려사항에 대해 살펴 본다.

      • 영화도메인 한국어 감성사전의 자동구축과 평가

        조희련 ( Heeryon Cho ),최상현 ( Sang-hyun Choi ) 한국정보처리학회 2015 한국정보처리학회 학술대회논문집 Vol.22 No.1

        본 연구에서는 네이버 영화평을 학습데이터로 사용하여 영화평 감성분류에 필요한 감성사전을 자동으로 구축하는 방법에 대해 제안한다. 이 때 학습데이터의 분량과 긍정/부정 영화평의 비율을 달리하여 네 가지의 학습데이터를 마련하고, 각 경우에 대하여 감성사전과 나이브베이즈(이하, NB) 분류기를 구축한 후, 이 둘의 성능을 비교했다. 네 종류의 학습데이터로 구축한 감성사전과 NB 분류기를 이용하여 영화평 감성 자동분류 성능을 비교한 결과, 네 경우의 평균 균형정확도는 감성사전이 78.2%, NB 분류기가 66.1%였다.

      • 3축 가속도 센서 기반 인간 행동 인식을 위한 기계학습 분석

        이송미,조희련,윤상민,Lee, Song-Mi,Jo, Hui-Ryeon,Yun, Sang-Min 한국통신학회 2016 정보와 통신 Vol.33 No.10

        최근 스마트폰의 이용 사례가 증가함에 따라, 스마트폰에 내장되어 있는 다양한 센서를 이용하여 인간의 행동을 인식하기 위한 연구가 많은 각광을 받고 있다. 본고에서는 인간의 기본적인 행동 중에 앉기, 걷기, 달리기 등의 행동 특성을 스마트폰에 내장되어 있는 3축 가속도 센서를 통하여 분석하고 인간의 기본적 행동을 자동으로 인식하기 위한 방법에 대하여 비교 분석하는 것을 목적으로 한다. 구체적으로는 스마트폰에 내장되어 있는 3차원 가속도 센서로부터 추출된 데이터를 시간축에서 샘플링하여 인간의 행동을 인식하기 위한 기댓값 최대화 알고리즘, 랜덤 포레스트, 딥러닝 기반의 기계학습 방법을 비교하여 각 기계학습 알고리즘의 장단점을 분석한다.

      • 객체의 위치와 윤곽선 정보를 활용한 딥러닝 기반 영역 세분화 방법론에 관한 연구 : 건물 외벽 이미지를 중심으로

        박희성(Heesung Park),김덕우(Deuk-Woo Kim),김우주(Wooju Kim) 한국IT서비스학회 2021 한국IT서비스학회 학술대회 논문집 Vol.2021 No.-

        본 연구는 이미지 분석 딥러닝 기법을 이용하여, 건물 외피 이미지에 존재하는 객체의 영역을세분화(Segmentation)하는 방법론에 대해 제안하고자 한다. 기존의 영역 세분화 방법론은 이미지에 존재하는 객체의 위치와 윤곽선에 대한 정보를 직접 활용하지 않는 단점이 있다. 하지만, 건물의 경우 윤곽선 명확하게 구분되고 연결된다는 특징을 가진다. 따라서 본 연구에서는 건물 외피이미지를 효과적으로 분석하기 위해, 객체 위치 정보를 기반으로 프로세스를 세분화하고, 윤곽선정보를 효과적으로 반영할 수 있는 방법론을 제안한다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼