RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
        • 등재정보
        • 학술지명
        • 주제분류
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        GPU를 이용한 범용 계산의 소개

        유동현,임요한,Yu, Donghyeon,Lim, Johan 한국데이터정보과학회 2013 한국데이터정보과학회지 Vol.24 No.5

        최근 과학 기술의 빠른 발전에 따라 대용량 자료가 출현하였고 이에 대한 분석의 중요도도 높아졌다. 대용량 자료의 분석에 가장 중요한 부분중 하나가 고성능 컴퓨팅 기법이고 본 논문에서는 최근 통계학계의 많은 관심을 받고 있는 GPU (graphics processing unit)기반 병렬 계산에 대한 기초적인 소개를 한다. Recent advances in computer technology introduce massive data and their analysis becomes important. The high performance computing is one of the most essential part in analysis of massive data. In this paper, we review the general purpose of the graphics processing unit and its application to parallel computing, which has been of great interest in statistics communities.

      • KCI등재

        모형 선택 기준들에 대한 LASSO 회귀 모형 편의의 영향 연구

        유동현,Yu, Donghyeon 한국통계학회 2016 응용통계연구 Vol.29 No.4

        고차원 자료(high dimensional data)는 변수의 수가 표본의 수보다 많은 자료로 다양한 분야에서 관측 또는 생성되고 있다. 일반적으로, 고차원 자료에 대한 회귀 모형에서는 모수의 추정과 과적합을 피하기 위하여 변수 선택이 이루어진다. 벌점화 회귀 모형(penalized regression model)은 변수 선택과 회귀 계수의 추정을 동시에 수행하는 장점으로 인하여 고차원 자료에 빈번하게 적용되고 있다. 하지만, 벌점화 회귀 모형에서도 여전히 조율 모수 선택(tuning parameter selection)을 통한 최적의 모형 선택이 요구된다. 본 논문에서는 벌점화 회귀 모형 중에서 대표적인 LASSO 회귀 모형을 기반으로 모형 선택의 기준들에 대한 LASSO 회귀 추정량의 편의가 어떠한 영향을 미치는지 모의실험을 통하여 수치적으로 연구하였고 편의의 보정의 필요성에 대하여 나타내었다. 실제 자료 분석에서의 영향을 나타내기 위하여, 폐암 환자의 유전자 발현량(gene expression) 자료를 기반으로 바이오마커 식별(biomarker identification) 문제에 적용하였다. High dimensional data are frequently encountered in various fields where the number of variables is greater than the number of samples. It is usually necessary to select variables to estimate regression coefficients and avoid overfitting in high dimensional data. A penalized regression model simultaneously obtains variable selection and estimation of coefficients which makes them frequently used for high dimensional data. However, the penalized regression model also needs to select the optimal model by choosing a tuning parameter based on the model selection criterion. This study deals with the bias effect of LASSO regression for model selection criteria. We numerically describes the bias effect to the model selection criteria and apply the proposed correction to the identification of biomarkers for lung cancer based on gene expression data.

      • KCI등재

        MDPDE의 조율모수 선택에 관한 연구

        유동현,김병수,Yu, Donghyeon,Kim, Byungsoo 한국데이터정보과학회 2015 한국데이터정보과학회지 Vol.26 No.3

        MDPDE는 이상치에 강건한 성질을 가진 추정량으로써 최대우도추정량의 대안으로 많은 연구자들에 의해 연구되어 왔다. MDPDE는 조율모수에 따라 성질이 변하게 되는데, 로버스트성과 점근효율성이 서로 상충하는 현상으로 인해 최적의 조율모수를 선택하는 것은 쉽지 않다. 본 연구에서는 MDPDE의 최적의 조율모수를 선택하는 방법으로 Fujisawa와 Eguchi (2006)가 제시한 방법과 Warwick (2006)이 제시한 방법을 소개하고, 모의실험을 통해 비교분석하였다. 연구 결과 Warwick (2006)의 방법은 특정한 경우 매우 작은 조율모수를 선택하게 될 수도 있다는 사실을 알 수 있었는데, 같은 경우에 Fujisawa와 Eguchi (2006)의 방법은 이러한 현상을 보이지 않았다. 따라서, Fujisawa와 Eguchi (2006)의 방법이 범용적으로 사용하기에 적절하다고 판단된다. The MDPDE is an attractive alternative to maximum likelihood estimator because of the strong robustness properties that it inherently possess. The characteristics of MDPDE can be varied with the tuning parameter, in general, there is a trade-off between robustness and asymptotic efficiency. Hence, selection of optimal tuning parameter is important but complicated task. In this study, we introduce two optimal tuning parameter selection methods proposed by Fujisawa and Eguchi (2005) and Warwick (2006). Through simulation study, we found out that Warwick's method yields excessively small optimal tuning parameter in certain cases while Fujisawa and Eguchi's method performs well. Therefore, we think Fujisawa and Eguchi's method can be used commonly for finding optimal tuning parameter of MDPDE.

      • KCI등재

        효율적인 통계 계산을 위한 파이썬 numba 라이브러리의 소개

        조윤상,유동현,손원,박선철,Cho, Younsang,Yu, Donghyeon,Son, Won,Park, Seoncheol 한국통계학회 2020 응용통계연구 Vol.33 No.6

        본 논문은 순수하게 파이썬 언어로 작성된 연산에 대하여 just-in-time (JIT) 컴파일을 적용하여 전체 계산 속도를 향상시킬 수 있는 numba 라이브러리에 대한 사용법과 응용에 대하여 소개한다. 실제 통계 계산 문제에 대한 numba 라이브러리의 적용에 대한 예제로 반복문 사용이 요구되는 통계 계산 문제들 중 순열 검정과 정규 혼합 분포의 모수 추정의 EM 알고리즘을 고려하였으며 순수한 파이썬 구문 및 반복문을 활용한 계산 시간과 numba를 활용한 계산 시간을 비교하여 numba 라이브러리 활용의 효율성을 수치적으로 제시하였다. This paper introduces numba library in Python, which improves computational efficiency of the provided implemented code written by naive Python language by applying just-in-time (JIT) compilation. To apply just-in-time compilation, the numba only needs to use a decorator on a target Python function. We provide implementation examples with numba for the permutation test and the parameter estimation for Gaussian mixture distribution. We also numerically show the efficiency of numba by comparing the total computation times of the implementation using naive python and the implementation using numba for each application.

      • KCI등재

        벌점-최소제곱법을 이용한 다중 변화점 탐색

        손원,임요한,유동현,Son, Won,Lim, Johan,Yu, Donghyeon 한국통계학회 2016 응용통계연구 Vol.29 No.6

        본 연구에서는 다중 변화점 탐색과 관련하여 최근 많은 관심을 받고 있는 ${\ell}_0$-벌점 최소제곱법과 fused-라쏘-회귀(fused lasso regression; FLR)방법을 모의 실험을 통하여 비교하였다. 모의 실험의 결과로 FLR방법은 비-변화점을 변화점으로 잘못 탐색하는 경향이 ${\ell}_0$-벌점 최소제곱법과 비교할 때 상대적으로 높게 나타났으며 ${\ell}_0$-벌점 최소제곱법이 전반적으로 FLR방법에 비하여 좋은 성능을 보였다. 더불어 ${\ell}_0$-벌점 최소제곱법은 동적프로그래밍을 통하여 FLR 방법과 유사하게 효율적인 계산이 가능하다. In this paper, we numerically compare two penalized least square methods, the ${\ell}_0$-penalized method and the fused lasso regression (FLR, ${\ell}_1$ penalization), in finding multiple change points of a signal. We find that the ${\ell}_0$-penalized method performs better than the FLR, which produces many false detections in some cases as the theory tells. In addition, the computation of ${\ell}_0$-penalized method relies on dynamic programming and is as efficient as the FLR.

      • KCI우수등재

        Fused lasso 회귀 모형 기반의 대학병원 수익성에 대한 요인 연구

        이지훈(Ji Hoon Lee),박진철(Jincheol Park),유동현(Donghyeon Yu) 한국데이터정보과학회 2018 한국데이터정보과학회지 Vol.29 No.1

        본 연구는 2013년에서 2015년까지의 국내 21개의 대학병원의 운영 자료를 기반으로 대학병원 수익성에 영향을 미치는 요인을 분석하기 위하여 fused lasso 회귀 모형을 고려하였다. 본 연구에서 적용한 fused lasso 회귀 모형은 변수 선택과 함께 양의 상관 관계가 높은 독립 변수들의 회귀 계수를 그룹화하여 추정하는 성질을 지닌다. 이러한 성질을 통하여 기존 연구에서 주로 적용되었던 분석 방법인 다중회귀분석의 다중공선성 문제점이 개선된 모형을 식별하였다. 또한 연도별 변수들의 평균 변화를 반영하기 위해서 연도별 평균이 보정된 fused lasso 회귀모형을 적합하였다. fused lasso 회귀모형을 이용한 결과, 종속 변수인 의료수익의료이익률에 통계적으로 유의한 영향을 주는 독립변수로 간호사당 환자수, 외래환자 1 인 1 일당 평균진료비, 평균재원일수, 인건비율, 재료비율, 관리비율이 선택되었으며, 모두 의료수익의료이익률에 음의 방향으로 영향을 주었다. This study considers the fused lasso regression model to identify the factors associated with the profitability of 21 university hospitals based on their management information from 2013 to 2015. The fused lasso regression has a grouping property that the coefficients of positively and highly correlated variables are estimated identically. With this property, the fused lasso regression identified several groups of variables and resolved the multicolinearity problem that occurred when we applied the multiple linear regression model. Moreover, we additionally consider three parameters of intercepts in the fused lasso regression model to take into account the changes in the means of yearly-observed variables for three years. From this study, we have identified the factors that negatively impact on medical income operating profit margin ratio: the number of patients treated per nurse, one-day average medical expenses per outpatient, length of stay, employment cost rate, material cost rate, and management expense rate.

      • KCI우수등재

        영화 평점 자료를 이용한 추천 시스템 성능 비교 연구

        이승환(Seunghwan Lee),조윤상(Youngsang Cho),이준석(Jun Seok Lee),유동현(Donghyeon Yu) 한국데이터정보과학회 2020 한국데이터정보과학회지 Vol.31 No.6

        최근 전자 상업, 영화, 음원 스트리밍 서비스 등 많은 분야에서 개인화 추천을 통한 매출 증진을 위하여 추천 시스템을 활용하고 있다. 추천 시스템의 일종인 협업 필터링은 사용자의 구매 이력에 기록된 평점과 같은 상호작용을 통해서 사용자의 선호나 취향을 학습하고, 학습된 사용자의 선호 구조에 따라 항목을 추천할 수 있는 특징을 가지고 있어 활발히 이용되고 있다. 본 논문은 대표적인 협업 필터링 기반 추천 시스템 모형과 추천 시스템의 추천 성능을 평가하기 위한 평가 방법을 소개한다. 유사도, 행렬 분해, 그리고 딥러닝 기반의 알고리즘 등을 고려하였으며, 영화 평점 자료인 MovieLens 100K 및 1M을 통해 평점 기반 및 순위 목록 기반의 평가를 수행하였다. Recommender systems have become commonplace in various fields such as e-commerce and VOD services. Collaborative filtering, one of the most popular recommender systems, learns user preferences from interactions between users and items such search, purchase and rating histories. After learning, the collaborative filtering suggests several items based on the learned user preference structure. In this paper, we introduce widely used collaborative filtering algorithms such as similarity-, matrix factorization- and deep learning-based algorithms. To compare performance of the algorithms, we introduce rating- and ranked list-based evaluation measures and conduct comparisons through MovieLens 100K and 1M datasets.

      • KCI우수등재

        CUSUM 통계량과 FLSA의 변화점 식별 성능에 대한 실증적 비교

        이가령(Garyeong Lee),손원(Won Son),이성임(Sungim Lee),유동현(Donghyeon Yu) 한국데이터정보과학회 2021 한국데이터정보과학회지 Vol.32 No.6

        CUSUM 통계량은 오차의 누적합을 기반으로 정의된 통계량으로 binary segmentation (BS), circular BS, wild BS 등의 알고리즘에 적용되어 변화점 식별을 위해 널리 사용되고 있다. Fused lasso signal approximator (FLSA)는 총변동 벌점이 부여된 최소제곱법을 사용하여 구간별 상수 구조를 구현하는 방법으로 다중변화점 식별을 위해 자주 활용되고 있다. 한편, FLSA는 변화점 식별에서의 점근적 일치성이 보장되지 않으므로 Son과 Lim (2019)은 FLSA을 변형한 modified FLSA (mFLSA)을 제안하고 점근적 일치성을 보인 바 있다. 이 연구에서는 서로 다른 관점에서 개발된 이 변화점 식별방법들이 실제로는 간단한 정리 과정을 통해 매우 비슷한 형태의 통계량으로 변환될 수 있음을 보였다. 또, 다중변화점 식별 문제에 있어서 CUSUM 통계량, FLSA, mFLSA의 특징을 살펴보고 모의실험을 통해 각 방법들의 성능을 실증적으로 비교보았다. 모의실험 결과, 세 변화점 식별 방법 중 어느 하나가 다른 방법보다 절대적으로 우월하다고 볼 수 없으며 오차항의 분산, 평균모형의 구조 등에 따라 변화점 식별 성능에 차이가 발생을 확인하였다. In this paper, we study the performance of the Cumulative Sum (CUSUM) and the Fused Lasso Signal Approximator (FLSA) for detecting change points in a mean model. The two methods are widely used for identifying change points. The CUSUM statistic is based on the cumulative sums over the two intervals separated by a candidate change point. On the other hand, the FLSA is a form of regularized method, a combination of the residual sum of squares and a total variation penalty term. Although the two methods are developed from quite a different motivation, these statistics can be expressed in very similar form. The FLSA statistics derived from the pathwise algorithm (Hoefling, 2010) and the modified FLSA statistics (Son and Lim, 2019) can be used for false change points elimination and eventually for change points detection. The modified FLSA statistics are equivalent to the CUSUM statistics divided by the standard error of the difference between the means of the neighboring two blocks. We compare the performance of these statistics in various situations and find that each method has its own advantage and disadvantage for change point detection.

      • KCI우수등재

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼