RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 학위유형
        • 주제분류
          펼치기
        • 수여기관
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 지도교수
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 하이브리드 실험 계획법을 응용한 하이퍼파라미터 최적화 알고리즘에 대한 연구

        남현우 가천대학교 일반대학원 2021 국내박사

        RANK : 248671

        With the development of Information Communication Technology (ICT), industry fields such as economy, society, education, and production try to make a fusion of ICT and their own technologies. Such technology makes it easy to deal with the various types of data more easily and quickly. Therefore, interest in data processing brought about an issue of Big Data, Machine Learning (ML), and Artificial Intelligence (AI) in the future. In order to implement the AI-based techniques, Big Data and ML are applied for the statistical methods and algorithms of data-based learning and automation. The algorithm-based models focus on the superior predictive power for the diverse and complex data types, whereas traditional statistical methods emphasize the possibility of interpreting phenomena under the assumption of a probabilistic model. Therefore, these pros and cons show that probabilistic and algorithm models play a complementary role. It is necessary to apply the models under the proper criteria. Statistical models have the disadvantage that it is difficult to directly apply a variety of complex forms of Big Data, while parameter estimation and model fit test are systematic. On the other hand, the algorithmic model has the disadvantage that it is impossible to estimate and interpret the parameters, and there is no proper model fit comparison method. However, the collected data is divided into training, validation, and test data for the learning algorithm model according to the purpose. The model is evaluated and selected based on predictive power to secure validity. The algorithmic model has a high preference compared to the statistical model in the analysis of continuous automatic measurement of Big Data. However, selecting the correct algorithmic model should enable the prior determination of hyperparameter that does not exist in the statistical model. Hyperparameter and/or combinations of hyperparameter determine the performance of the algorithmic model and therefore select a model suitable for the purpose. Hyperparameter Optimization is a technique that requires knowledge of the model, sufficient time, and resources for calculation. Comparing all possible hyperparameters takes a lot of time and cost, and the final model can be more complicated than necessary. Therefore, various algorithms were introduced to search for optimal hyperparameter within limited resources and time in practice. Examples of these are time-saving methods through parallel computation and applying a Surrogate Model to reduce the cost of calculation. However, these are also not the best solution due to practical limitations – the emergence of high-level hyperparameters, overfitting, and poor performance to new data. This paper proposes a novel hyperparameter optimization method by applying traditional statistical Design of Experiments and the latest Optimal Design to overcome the shortcomings. The existing statistical Design of Experiments is developed under the structure of (1) screening essential factors, (2) determining factor level ranges, (3) determining optimal conditions, and (4) checking counteraction in a way designed to obtain maximum information through minimal experiments for their purposes quickly. It also provides validated design and analysis methods for each critical stage. The recent emergence of computer-based Optimal Design provides various criteria and methods for optimizing specific purpose functions throughout the design area. Therefore, if this is applied to hyperparameter optimization, it will be possible to optimize through systematic hyperparameter area exploration and fewer combinations. We suggest an algorithm for the hybrid method that applies the existing and optimal method sequentially. 정보 통신 기술(Information Communication Technology; 이하 ICT)의 발전으로 경제, 사회, 교육, 생산 등 거의 모든 분야에서 ICT와 고유 기술의 융합을 시도하고 있다. 또한 새로운 데이터 분석 기술들이 지속적으로 개발되면서 그동안 활용되지 않았던 다양한 유형의 데이터들을 보다 쉽고 빠르게 처리할 수 있게 되었다. 이에 따라 Big Data, 기계 학습(Machine Learning; 이하 ML) 그리고 인공 지능(Artificial Intelligence; 이하 AI)에 대한 관심이 폭발적으로 증가하고 있다. AI의 구현을 위한 핵심 자원인 Big Data와 ML은 Data기반의 학습과 이의 자동화를 위하여 다양한 통계적 방법과 알고리즘을 적용한다. 전통적인 통계적 데이터 분석 방법은 확률적 모형의 가정 하에 현상의 해석 가능성에 중점을 두고 있는 반면 알고리즘 모형은 예측력 향상에 중점을 두면서 다양하고 복잡한 데이터를 적용하는 것을 목적으로 한다. 따라서 확률적 모형과 알고리즘 모형은 상호 보완적인 역할을 수행하므로 각 방법에 대한 장점과 단점을 사전에 이해하고 이를 올바로 적용할 수 있는 기준을 이해할 필요가 있다. 통계적 모형은 모수의 추정과 모형 적합도 방법이 체계화되어 있는 반면 다양하고 복잡한 형식의 Big Data를 직접 적용하기 어렵다는 단점을 갖는다. 또한 알고리즘 모형은 모수의 구체적 추정과 해석이 불가하고 적절한 모형 적합도 비교 방법이 존재하지 않는다는 단점을 갖지만 수집된 데이터를 분석 목적에 따른 학습(Training) 데이터, 검증(Validation) 그리고 학습된 알고리즘 모형에 대한 확인(Test) 데이터를 구분하여 예측력(Prediction) 중심으로 모형을 평가하고 선택하여 타당성을 확보한다. 알고리즘 모형은 지속적이고 연속적인 자동 측정되는 Big Data의 분석에서 통계적 모형과 비교하여 높은 선호도를 갖는다. 다만 올바른 알고리즘 모형의 선택에서는 통계적 모형에는 존재하지 않는 하이퍼파라미터를 사전에 결정할 수 있어야 한다. 하이퍼파라미터 그리고/또는 하이퍼파라미터의 조합은 알고리즘 모형의 성능을 결정하고 이에 따라 분석 목적에 적합한 모형을 선택하게 된다. 하이퍼파라미터 최적화(Hyperparameter Optimization)는 모형에 대한 지식, 충분한 시간 및 계산을 위한 자원을 필요로 하는 기술이다. 모든 가능한 하이퍼파라미터를 비교하고자 한다면 많은 계산 시간과 비용이 소요되며 최종 모형 역시 필요 이상으로 복잡해 질 수 있다. 따라서 실무적으로 제한된 자원과 시간 내에서 효율적으로 최적의 하이퍼파라미터를 탐색하기 위하여 다양한 알고리즘들이 소개되었다. 이 중에서 병렬 계산을 통하여 시간을 절약하는 방법과 대체 모형(Surrogate Model)을 적용하여 계산 비용을 감소시키는 방법이 대표적이다. 하지만 이들 방법 역시 현실적인 제약 – 고차원의 하이퍼파라미터 등장, 과적합, 최적화를 위한 알고리즘 최적화 등 – 으로 최선의 해결책이 되지 못한다. 본 논문에서는 이러한 기존의 단점을 보완하기 위하여 전통적인 통계적 실험 계획법(Statistical Design of Experiments)과 최신 최적 실험 계획법인 최적 설계(Optimal Design)를 응용하여 새로운 하이퍼파라미터 최적화 방법을 제안해 보고자 한다. 기존의 통계적 실험 계획법은 그 목적 상 최소의 실험을 통해 최대의 정보를 신속히 얻기 위해 고안된 방법으로 (1) 중요 인자 선별 (2) 인자 수준 범위의 결정 (3) 최적 조건의 결정 및 (4) 반작용 확인이라는 구조 하에서 진행된다. 또한 각 중요 단계에 대한 검증된 설계와 분석 방법을 제공한다. 또한 최근에 등장한 컴퓨터 기반 최적 실험 계획법은 설계 영역 전반에 대하여 특정 목적 함수를 최적화하는 다양한 기준과 방법을 제공한다. 따라서 이를 하이퍼파라미터 최적화에 응용하는 경우 체계적인 하이퍼파라미터 영역 탐색과 더 적은 조합을 통한 최적화가 가능할 것이라 판단되어 기존의 실험 계획법과 최적 설계를 순차적으로 적용하는 하이브리드(Hybrid) 방법에 대한 알고리즘을 제안해 보기로 한다.

      • 벌점추정법의 이해와 활용에 대한 요약 연구

        문혜성 건국대학교 대학원 2021 국내석사

        RANK : 248655

        The traditional statistical method, the variable selection method, resolves the limitations of OLS in high-dimensional. In comparison, the penalized estimation method was not only able to interpret the model, but also showed good performance in prediction, proving reliability of the model in many papers. Therefore, a number of papers on the penalized estimation method were summarized and explained according to the circumstances of the variable selection, group selection and trend filtering. In addition, the R package of the relevant penalized estimation was organized for the convenience of readers. Models of the methods were compared using simple data, and these processes made it easier to identify the characteristics of the methods. It is hoped that this paper will be helped understand the penalized estimation methods and serve as a foundation for utilizing various methods in addition to those introduced. 기존의 통계학적 방법인 변수선택법은 고차원 자료에서 가지는 OLS의 한계점을 해결하였다. 이와 비교하여 벌점추정법은 모형 해석뿐만 아니라 예측에서도 좋은 성능을 보이며 이미 많은 논문에서 모형에 대한 신뢰성이 증명된 바 있다. 따라서 벌점추정법에 대한 다수의 논문을 요약하고 변수선택, 그룹선택 그리고 추세분석의 상황에 따라 설명하였다. 또한, 독자의 사용 편의성을 위해 관련 벌점추정법의 R 패키지까지 정리하였다. 그리고 간단한 자료를 이용하여 요약한 방법에 대한 모형들을 서로 비교하였으며 이러한 과정을 통해 벌점함수에 대한 특징들을 쉽게 파악할 수 있도록 하였다. 본 논문을 통해 벌점추정법에 대한 이해에 도움이 되고, 소개된 방법들 외에 다양한 방법들을 활용할 수 있는 기반을 만들기 바란다.

      • 응용절사법에서 무응답에 따른 적정 전수층 표본규모 산정

        이가영 경기대학교 일반대학원 2010 국내석사

        RANK : 248655

        The modified cut-off sampling method are mostly used in Establishment survey in official statistics in many years. However environments of fields surveys are not same as always. Nonresponse rates are getting higher and contacting the proper respondents is getting hard. Therefore specially in sample survey using modified cut-off sampling method, if nonresponses are occured in take-all strata then substituting the samples?is ?the always problem, also imputations are not simple. So in this study,?the sample size in take-all strata is calculated?using MSE criterior instead of minimizing the total sample size which is used to use in general.

      • R과 Excel VBA를 응용한 군집분석 프로그램 개발

        이용진 건국대학교 대학원 2012 국내석사

        RANK : 248655

        데이터마이닝 방법은 대용량으로 축적된 자료를 바탕으로 사전에 파악되지 않은 유용한 정보와 지식을 탐색하는 기법이다. 그리고 대용량의 데이터를 분석할 수 있는 여러 가지의 분석 도구가 많이 개발되어 있고 컴퓨터 패키지로 프로그램화 되어있지만, 상용화하는 데는 비용이 많이 들고 분석기법의 복잡성 및 어려움 때문에 일반인들이 사용할 때 불편하고 어려움이 많을 수 있다. 본 논문에서는 데이터마이닝 분석 기법 중 많은 연구가 이루어져 있고 다양한 응용방법이 개발되어 있는 군집분석을 대상으로, 손쉽게 응용할 수 있는 컴퓨터 프로그램을 R, Excel VBA, 그리고 RExcel를 이용하여 개발하였다. 본 논문에서 개발하여 제시된 프로그램은 사용하는데 간편할 뿐만 아니라, 일반적으로 사용되는 범용프로그램인 Excel을 기반으로 하였으므로 일반인도 쉽게 사용하여 군집분석을 수행할 수 있는 장점이 있다. Data mining is a way of looking for useful information and knowledge based on huge accumulated data. A lot of analysis tools are developed and programmed as computer packages to analyze massive data. However, these programs cost too much to be run and make the users confused by the difficulty and inconvenience of use of those ones. This thesis deals with cluster analysis among many other subjects, because it has been studied abundantly and developed in various ways for many data mining applications. By exploiting R, Excel VBA and RExcel programs, an easy applied computer program of cluster analysis was developed in this study. Not only this analysis program is convenient to use for statisticians, but also the public can be accustomed to use this program based on Excel with which most people are familiar.

      • 설명가능한 인공지능 기반 샤플리값을 활용한 다변량 데이터 이상탐지 연구

        김주환 단국대학교 대학원 2025 국내석사

        RANK : 248639

        다변량 통계적 공정 관리(MSPC)에서 널리 사용되는 호텔링 t2 모니터링은 평균 벡터의 변화를 탐지하는 데 효과적인 방법이다. 그러나 이상상태가 발생했을 때, 이 를 유발한 원인변수를 해석하는 데에는 한계가 있다. 본 연구에서는 설명가능한 인 공지능 기법 중 딥러닝 모델의 예측값을 변수의 중요도로 설명하는 샤플리값을 활 용하여 이상상태의 원인변수를 탐지하는 새로운 접근법을 제안한다. 제안된 샤플리 값 기반 접근법은 호텔링 t2 분해 관점에서 기존의 사후절차와 비교한다. 모의실험 결과, 본 방법은 민감도와 특이도 측면에서 기존 절차를 능가하였으며, 특히 데이터 의 변화가 크진 않지만 유의미할 때 효과적임을 확인하였다. 이 연구를 통해 샤플 리값 기반 절차가 다변량 데이터의 이상상태 원인변수 탐지에 있어 효과적이고 신 뢰할 수 있는 방법임을 입증하며, 실제 산업 데이터에 대한 적용 가능성을 제시한다.

      • 단어선택과 SMOTE 알고리즘을 이용한 불균형 텍스트 데이터의 소수 범주 예측성능 향상기법

        김종찬 단국대학교 2025 국내석사

        RANK : 248639

        텍스트 데이터는 일반적으로 수많은 고유 단어들로 구성되어 있으며, 방대한 양 의 텍스트에서는 수십만 개의 단어가 포함되기도 한다. 이를 문서-단어 행렬로 변 환하면 각 단어가 하나의 변수로 간주되어 매우 많은 변수를 가진 고차원 데이터가 된다. 텍스트 분류 문제에서는 범주의 비중 차이가 큰 불균형 데이터가 자주 발생 하며, 이로 인해 일반적인 분류 모형의 성능이 크게 저하될 수 있다. 이를 개선하기 위해 소수 집단의 관측값을 합성하여 새로운 데이터를 생성하는 SMOTE와 같은 합 성과표집기법이 활용된다. SMOTE는 k-최근접이웃(kNN) 알고리즘을 기반으로 작동 하지만, 변수 수가 많은 경우 오차가 누적되어 성능이 저하될 수 있다. 본 논문에서 는 변수 선택을 통해 텍스트 데이터를 오차가 축소된 공간에 표현한 뒤, 이 공간에 서 합성 데이터를 생성하여 불균형 텍스트 데이터에서 소수 범주에 대한 SVM 분류 성능을 향상시키는 방법을 제안한다.

      • Nelson-Siegel 방법을 응용한 이자율 기간구조의 통계적 추정에 관한 연구

        김은선 건국대학교 대학원 2012 국내석사

        RANK : 248639

        이자율 기간구조는 일정한 시점 에서 다른 조건은 일정하고 단지 만기가 다른 채권의 수익률의 집합이다. 오늘날 파생상품을 비롯한 모든 금융상품의 가치를 산정하기 위해서는 산정시점에서 산출한 이자율 기간구조를 필요로 한다. Nelson-Siegel 모형은 이자율곡선을 모수절약적인 함수의 형태로 추정하는 방법으로 선도이자율의 함수를 장기수준(Level), 기울기(slope), 곡률(curvature) 세 가지의 요인으로 설명되는 함수로 가정하고 이를 추정하는 방법이다. 본 연구에서는 Nelson-Siegel 모형을 이용하여 국채수익률에 대한 이자율 기간 구조를 연구하였다. 다른 연구와 달리 본 연구는 비선형 최소제곱법(Nonlinear Least Square), 일반화적률법(Generalized Method of Moment), 선형 축차 회귀분석(Linear Recursuve OLS), 선형 상태공간모형(Linear State Space) 및 비선형 상태공간모형(Nonlinear State Space)의 세 가지 모형을 추정하였다. 또한 구축된 이자율 기간구조의 추정결과를 계량적 이자율 기간 추정 방법에 의해 추정된 결과 비교 분석함으로써 본 연구에서 추정된 모형의 결과를 실증분석을 통해 검증하였다

      • 토픽모델링과 Bass 확산모형을 통한 기본소득 정책의 이슈 분석 : 긴급재난지원금과 청년기본소득을 중심으로

        유정민 단국대학교 일반대학원 2022 국내석사

        RANK : 248639

        본 연구는 중앙정부의 긴급재난지원금과 지방정부의 청년기본소득이 언론매체와 여론에서 정책에 관한 관심이 어떻게 확산하는지 살펴보고 두 정책 간 차이가 있는지 비교하고자 하였다. 이를 위해 네이버 포털의 신문 기사와 댓글을 크롤링(crawling)하고 전처리하여 자료를 수집하였고 중요 키워드를 잠재디리클레할당 모형(Latent Dirichlet Allocation, LDA)을 통해 추출하였다. 이후 키워드의 양을 바탕으로 Bass 확산모형(Bass Diffusion Model)에 적용하여 각 정책에서 언론매체와 여론의 확산 차이와 과정을 분석하였다. 그 결과 언론매체보다 여론에서 정책에 관한 관심이 빠르고 가파르게 확산하였다. 또한, 중앙정부의 긴급재난지원금이 지방정부의 청년기본소득보다 관심의 정도가 높으며, 확산 속도도 빠른 것으로 나타났다. 본 연구를 통해 정부 정책에 대한 여론의 관심도와 확산과정을 이해하고, 텍스트 데이터를 이용한 증거기반 정책을 수립하는 데 근거 자료가 될 것으로 기대된다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼