http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
Analysis of the Semantic Answer Types to Understand the Limitations of MRQA Models
Doyeon Lim(임도연),Haritz Puerto San Roman(아리츠 푸에르토 산 로만),Sung-Hyon Myaeng(맹성현) 한국정보과학회 2020 정보과학회논문지 Vol.47 No.3
최근 MRQA 모델들의 성능이 인간을 넘어섰다. 그리하여 MRQA 모델의 새로운 가능성들을 찾기 위해 새로운 데이터 셋들이 소개되고 있다. 하지만, 이전 MRQA모델들이 어떤 유형에서 문제를 잘풀고 어떤 한계점이 있는지 자세한 분석을 통해 새로운 데이터셋을 제시하는 경우는 거의 없었다. 이 연구에서는 MRQA가 극복했다고 여겨지는 SQuAD 데이터 셋을 분석하여 MRQA가 언어를 이해한 것이 아니라 특정한 패턴을 찾아냈다는 것을 밝혀낸다. 이 과정에서 기존 QA데이터 셋에서 주로 등장하는 wh-word와 Lexical Answer Type (LAT) 정보에 많은 모델들이 특히 집중하고 있다는 것을 밝히고, 그 때문에 질의와 문서의 정보를 충분히 이해하지 못하고 있다는 것을 정성, 정량적인 수치로 보였다. 이러한 분석을 바탕으로 앞으로 MRQA의 데이터셋의 방향과 모델들이 극복해야할 한계점을 제시하였다. Recently, the performance of Machine Reading Question Answering (MRQA) models has surpassed humans on datasets such as SQuAD. For further advances in MRQA techniques, new datasets are being introduced. However, they are rarely based on a deep understanding of the QA capabilities of the existing models tested on the previous datasets. In this study, we analyze the SQuAD dataset quantitatively and qualitatively to demonstrate how the MRQA models answer the questions. It turns out that the current MRQA models rely heavily on the use of wh-words and Lexical Answer Types (LAT) in the questions instead of using the meanings of the entire questions and the evidence documents. Based on this analysis, we present the directions for new datasets so that they can facilitate the advancement of current QA techniques centered around the MRQA models.
반도체 제조 과정에서의 수율 향상을 위한 이진 분류 모델 비교 분석
임도연(Doyeon Lim) 한국정보기술학회 2022 Proceedings of KIIT Conference Vol.2022 No.12
반도체 공정에서 효율성을 높이고자 하는 시도는 필수적이다. 따라서 본 연구에서는 UCI-SECOM 데이터에 전처리 및 스케일링을 적용하고, GridSearchCV를 통해 최적의 하이퍼 파라미터를 찾은 뒤, 이진 분류의 대표적인 5가지 모델로 학습시켰다. 이후 오차 행렬 기반의 평가 지표들을 통해 결과를 분석한 결과, GridSearchCV를 적용한 것이 더 높은 결과를 보이고 그 중 SVM 모델로 학습시킨 결과가 가장 뛰어남을 확인했다. Attempts to increase efficiency in semiconductor processes are essential. Therefore, in this work, we applied preprocessing and scaling to UCI-SECOM data, found the optimal hyperparameters through GridSearchCV, and then trained them into five representative models of binary classification. Afterwards, as a result of analyzing the results through the evaluation indicators based on the error matrix, it was confirmed that the application of GridSearchCV showed higher results, and among them, the results of learning with the SVM model were the best.