RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
          펼치기
        • 등재정보
          펼치기
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        교통통계를 활용한 서울 시내 도로의 군집화에 대한 연구

        이성건,박애란 한국자료분석학회 2010 Journal of the Korean Data Analysis Society Vol.12 No.6

        Nowadays, the motorway traffic of Seoul becomes more complex. The aim of this study is to cluster motorways using its traffic patterns data of Seoul to give useful informations to motorway drivers. Cluster analysis are performed for traffic data that are collected in the Olympic express way during the years 2005-2007. The k-means clustering method is applied the data so that the motorways are grouped in similar patterns, followed by the study of traffic pattern estimation(Choi, 2009). The optimal number of clusters through the Ward's method is yielded to nine clusters, and each cluster shows a different traffic patterns. 오늘날 우리나라의 도로이용자들에게 급증하는 교통 수요로 인한 실생활의 불편이 초래되고 있다. 현재 이러한 도로 교통 상황에 대해서 각 분야에서 축적해 온 도로 속도 정보를 이용하여 도로이용자들에게 보다 유익한 정보를 제공하고자 많은 연구 및 개발이 시도되고 있다. 본 연구에서는 서울시내 올림픽대로의 구간별 속도자료에 대한 군집분석을 통해 교통 정보를 제공하고자 한다. 선행연구인 도로의 시구간에 대한 평균속도 예측모형 개발(최보승 외, 2009)에 이어, 각 도로 구간의 평균속도 패턴이 유사한 것들끼리 군집화하는 군집분석을 수행하였다. 군집분석은 k-평균 군집화를 통해 24시간 동안의 교통속도 패턴이 비슷한 군집을 구축하였다. 생성된 군집의 특성분석을 통해 전반적인 교통속도 패턴을 이해하여, 도로사용자들에게 도움을 주고자 한다.

      • KCI등재

        의사결정나무를 이용한 요양등급판정모형 개선 연구

        이성건 한국자료분석학회 2015 Journal of the Korean Data Analysis Society Vol.17 No.5

        Long-term care insurance is social insurance system that provides services to the elderly who have difficulty taking care of themselves for a period of at least 6 months. It have been started in July, 2008. It is very important to set proper judgement ratings for the approval process. Nowadays, Korea is getting to an elderly society. The properties of elderly populations are also getting to be changed. Therefore the judgement rating model should be change to reflect their characteristics, such as an increasing population with dementia and Alzheimer's. In this study, we try to develop and improve the judgement rating system as decision tree using new time study data. We find that our tree model can includes the population with dementia Alzheimer's more than previous one and be stable and efficient. 노인장기요양보험은 고령이나 노인성질병 등으로 인하여 혼자서 일상 생활을 수행하기 어려운 노인 등에게 신체활동 또는 가사지원 등의 장기요양급여를 사회적 연대원리에 의해 제공하는 사회보험 제도로써, 우리나라에서는 2008년 7월부터 시행하고 있으며 국민들의 만족도가 높다. 제도의 시행에 가장 중요한 요소 중의 하나인 등급판정모형은 2008년에 의사결정나무를 이용하여 개발되었으며, 고령화가 급속하게 진행되고 있는 우리나라의 현실에 비추어 볼 때 모형의 갱신이 주기적으로 필요하다. 본 연구의 목적은 2008년에 개발되어 판정도구로 사용하고 있는 의사결정나무를 전반적으로 재검토하고, 추가적인 분석을 통해 요양인정점수의 산출 도구를 개선․보완하려는 것이다. 수발이 필요한 노인의 최근 경향을 반영하기 위하여, 재가 노인 및 시설 노인에 대해 가장 최근에 조사된 서비스시간을 분석자료에 추가하였으며, 다양한 분리기준, 정지규칙, 타당성 검증 방법들을 고려하여 의사결정나무를 이용한 등급판정모형을 새롭게 개발하였다. 새로운 판정모형은 기존의 모형과 비교해서, 청결서비스, 배설서비스의 평균서비스 시간은 증가시키고, 간접지원 서비스, 기능보조의 평균서비스 시간은 감소시키는 경향이 있는 것으로 나타났다.

      • KCI등재

        다변량 사각 의사결정나무에 관한 연구 - 이변량 분리기준을 중심으로 -

        이성건,이경혜 한국자료분석학회 2010 Journal of the Korean Data Analysis Society Vol.12 No.1

        A classification tree is a rule for predicting the class of an object from the values for its predictor variables. The common goal in CART, CHAID, C4.5 and QUEST is to obtain such that in each terminal node is quite pure and simple tree. Occasionally this cannot be achieved with standard algorithms can produce large tree structure because they use only single splits. This study introduce a classification tree split criterion that can improve class prediction using linear combination split. We focus on bivariate linear combination splits in this study. Our splits are simple bivariate linear combination split and golden section splits. Some simulation and real data experiments are performed to demonstrate the performance of the proposed approach. 분류나무는 예측변수의 값을 이용하여 개체들을 분류/예측하는 규칙을 만들어내는 데에 흔히 사용된다. Cart, CHAID, C4.5, Quest 등의 의사결정나무 알고리즘은 마지막 끝마디의 순수도를 높은 간단한 규칙을 찾는 것을 목적으로 한다. 그러나 이러한 알고리즘들은 매 단계마다 하나의 분기변수만을 이용하기 때문에 일반적으로 큰 나무의 구조를 생성하게 되는 단점이 있다. 본 논문에서는 이변량 선형결합을 통한 분리 방법을 제안하고자 한다. 단순 결합 이변량 분기와 황금비율을 이용한 이변량 분기를 제안하고 각 방법론들을 모의실험을 통한 효율을 오분류율의 관점과 실제 자료의 적용을 통하여 비교하였다. 비교결과 본 연구에서 제안한 단순 결합 분리기준이 예측의 정확성을 증가시킬 수 있음을 확인하였다.

      • KCI등재

        A Study on Optimal Tree using Advanced Bumping Procedure

        이성건 한국자료분석학회 2006 Journal of the Korean Data Analysis Society Vol.8 No.5

        Breiman(1996) showed how one can use the bootstrap for the more primary purpose of producing a better estimator in decision tree. Unfortunately, the averaging process that produces the bagged estimate theta

      • KCI등재

        로버스트 회귀모형을 이용한 노인요양등급 판정지표 연구

        이성건 한국자료분석학회 2016 Journal of the Korean Data Analysis Society Vol.18 No.3

        노인장기요양보험제도에서 등급판정은 2차에 걸쳐서 진행된다. 먼저 신청자의 자립도 조사결과에 의사결정나무 모형을 적용하여 판정점수(필요서비스시간)를 산출하고 이를 토대로 1차 등급을 결정한 후, 2차로 전문가들로 구성된 최종등급판정위원회에서 1차 등급의 조정하게 된다. 1차 등급판정 과정에서 통계적 모형의 특성상 일정 오류를 포함하고 있어 등급판정 결과에 대한 민원이 지속적으로 제기되므로 2차적으로 등급판정위원회를 설치하여 등급 조정을 심의하고 있다. 등급판정위원회에서 심의․판정하는 데 참고할 수 있도록 장기요양대상자의 요양필요도에 대한 이해를 돕는 다양한 심의지표를 제공하고 있으나, 심의 대상은 너무 많고 난해한 심의지표로 등급판정위원회의 기능이 축소되고 판정 편차가 발생하고 있어 개선이 필요한 상황이다. 본 연구에서는 1차 판정점수에 대한 등급별 로버스트 회귀모형의 표준화 잔차를 이용하여 등급의 상향/하향에 대한 심의지표를 제시하고자 한다. 잔차가 매우 크거나 작은 대상자들은 1차 등급에서 동일인 등급자와 비교해 특이한 판정점수를 받은 것으로 간주하고 추가적인 등급변경을 고려하는 것이다. 모의실험 결과 새롭게 제시하는 지표가 등급조정에 효과적으로 사용될 수 있음을 확인하였다. Grading in long-term care insurance proceeds over two steps. First, the primary determination score (service hours) should be calculated by applying a decision tree model to the independence score of the applicant, then it could be adjusted the primary scores in the final grading committee of experts. Primary scoring system including error the nature of the statistical model got complaints about the grading results consistently. It should be considered the adjusting score by installing the final grading committee secondarily. In the committee, a wide range of indexes are provided to help the decision of adjusting the primary score. However, due to the difficulties of review indexes and trends of the deviation of grading committees, it is needed to improve the quality of review indexes. In this study, we propose a new review index to help the decision using residuals of robust regression model. Subjects whose residuals are very large or small can be considered to have been an unusual decision points compared with the same person in the primary grade rating group, so the committee adjust their scores. Simulation results show the index presenting newly can be effectively used to adjust the grading scores.

      • KCI등재

        콜모고로프-스미르노프 통계량을 이용한 구간형 심볼릭 반응변수 의사결정나무 연구

        이성건 한국자료분석학회 2017 Journal of the Korean Data Analysis Society Vol.19 No.4

        심볼릭 데이터(symbolic data)는 의료, 기업, 사회과학, 정부 등 다양한 분야에서 나타나고 있다. 심볼릭 데이터 분석은 특히 빅데이터의 복잡하고 다양한 데이터에 대한 주요한 분석방법으로 주목받고 있다. 심볼릭 데이터에서 주로 다루는 데이터로는, 구간값(interval-valued) 데이터, 다중값(multi-valued) 데이터, 히스토그램(histogram) 데이터 등이 있다. 통계학에서 전통적으로 다루고 있는 데이터도 심볼릭 데이터로 변환이 가능하다. 이는 데이터의 크기를 줄이는 방법으로 사용되기도 한다. 본 연구에서는 K-S 통계량(Kolmogorov-Smirnov statistic)을 이용하여 구간형 반응변수를 갖는 의사결정나무를 제안하고자 한다. 기존의 심볼릭 데이터에 대한 의사결정나무는 독립변수가 심볼릭인 경우에 대한 것이 대부분이어서 반응변수가 심볼릭인 경우에는 적용할 수 없다. 본 연구의 의사결정나무는 구간형 반응변수에 대해 분리변수를 찾기 위한 분리기준으로 K-S 통계량을 이용하였으며, K-S 통계량은 구간형 데이터의 경험적분포함수를 이용하였다(Lee, 2016). 실제 적용 사례로 국내 A병원의 혈압데이터(이완기, 수축기)에 대해 제안된 방법으로 의사결정나무를 구축하고 해석하였다. 제안된 방법이 구간형 자료에 대해 효율적임을 확인하였다. Symbolic data are from various field of applications, such as medical, industry, social sciences, government experiment etc.. Symbolic data analysis is new methods that treat the underlying informations on the given raw data. It is crucial for the complex system of big data. Symbolic data cover interval-valued data, multi-valued data, histogram-valued data etc.. Classical data variables can be changed into symbolic data variables. It can be used to reduce the size of data. In this study, a decision tree for symbolic response using Kolmogorov-Smirnov statistics is considered. This can be extended to other type of symbolic data. We are interested in the selection of split variables to grow the tree having interval-valued response. We consider Kolmogorov-Smirnov (K-S) statistics as split criterion. To construct tree, we developed the empirical distributions of intervals (Lee, 2016) and put it in the decision tree building process. To compare the method with classical ones, blood pressure data (systolic, diastolic) is used as an applications. We can see that the proposed method is useful for an interval response.

      • KCI등재

        인자분석을 이용한 장기요양보험 보조판정지표 연구

        이성건 한국자료분석학회 2019 Journal of the Korean Data Analysis Society Vol.21 No.3

        Long-term care insurance is a public insurance system that is provided to people who have difficulty in daily life due to old or geriatric diseases regardless of income. One of the important factors in the implementation of the system is to distinguish between those who need help in daily life and those who do not. The score of the possibility of daily life is calculated by taking various factors into consideration, and the degree of need for assistance of the care insurance applicant is determined. The statistical model used to calculate the score is the decision tree. Decision trees are widely used because of the convenience of interpretation, but they have drawbacks such as the discontinuity of decision boundaries and relatively large prediction errors. In this study, we propose a supplementary index through factor analysis in order to overcome the problem of the rating decision tree model. That is, the initial decision is made by decision trees, and the final decision of the rating committee is further reviewed by plotting the results of the factor analysis, so that the rating committee members can select service subjects more accurate. As a result of applying it to the actual data, the efficiency was confirmed. 장기요양보험은 소득에 상관없이 고령이거나 노인성질환으로 일상에서의 생활이 어려운 사람에게 지원하는 공적보험제도이다. 제도의 시행에서 중요한 요소 중의 하나는 일상생활에서 도움이 필요한 대상자와 그렇지 않은 대상자를 구별해내는 것이다. 즉, 나이가 100세에 가까운 고령자 중에서도 일상생활이 가능한 사람이 있는 반면, 65세 이하에서 노인성 질환으로 인해 일상생활이 불가능한 사람이 존재하게 된다. 이에 일상생활 가능성의 점수를 다양한 요소들을 고려하여 산출하고 이를 통해 요양보험 신청자의 도움필요 정도를 판정하게 된다. 현재 점수 산정에 사용하고 있는 통계적 모형은 의사결정나무(decision tree)다. 이 모형은 해석의 편리성 때문에 널리 활용되고 있지만, 의사결정경계(decision boundary)가 불연속인 점, 예측오차가 상대적으로 큰 점 등의 단점 또한 가지고 있다. 본 연구에서는 이러한 등급판정모형의 문제를 보완하기 위해 인자분석(factor analysis)의 결과를 활용한 보조 지표를 제안하고자 한다. 즉, 최초 판정은 의사결정나무로 하되, 등급판정위원회의 최종 판정은 인자분석의 결과를 도식화하여 추가 검토하게 되므로 등급판정위원들이 보다 정확한 대상자를 선정할 수 있다. 실제자료에 적용해 본 결과 그 효율성을 확인할 수 있었다.

      • KCI등재

        An Example of a Biased Two-Sided Ansari-Bradley Test for Dispersion with Equal Medians

        이성건 한국자료분석학회 2012 Journal of the Korean Data Analysis Society Vol.14 No.4

        Lehmann (1986) had a question whether the two-sided Wilcoxon test is unbiased. Sugiura (1965) gave a counterexample of a two-sided Wilcoxon test that is biased against some special two-sided translation alternatives. In this study, we extend the bias problem to the case of a linear rank statistics, especially for dispersion test. For a test function, we consider the most extreme case that two distributions have unequal dispersions. It can be visualized as an extreme example where the sample values, when ordered, fall in the pattern YYXXXXYY or XXYYYYXX. We will give a counterexample of a distribution-free Ansari- Bradley test for dispersion that is not unbiased, and show that the test is biased using Mathematica.

      • KCI등재

        A Study on Two Sample Test for Interval-Valued Symbolic Data

        이성건 한국자료분석학회 2016 Journal of the Korean Data Analysis Society Vol.18 No.6

        Symbolic data appear from various field of applications, such as social sciences, medical, industry and government experiment etc.. Symbolic data analysis treats new concepts that are underlying on the given raw data. It is important of the complex nature of big data. It can be multi-valued data, interval-valued data, histogram-valued data. Classical variables can be transformed into symbolic variables. So, we can reduce the size of the data. In this study, we consider statistical tests of two sample symbolic data, especially on interval-valued variables. It can be easily extended to other symbolic data such as histogram- valued variables. We are interested in two sample statistical tests for interval-valued variables. The first approach could be Kolmogorov-Smirnov (K-S) test for intervals. To construct K-S tests, we define empirical distributions of intervals and then compare proposed tests to classical ones. The p-value of the tests is calculated using permutation techniques with R. Blood pressure data is used as an applications to investigate their properties. We can find that the proposed method is competitive.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼