RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
          펼치기
        • 등재정보
          펼치기
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재
      • KCI등재

        로지스틱 회귀 모형을 이용한 연관성 규칙 채택률의 추정

        박희창 한국자료분석학회 2015 Journal of the Korean Data Analysis Society Vol.17 No.6

        Data mining is to explore useful information or unexpected rules in a big database and to be utilized as a basis for decision making. In this paper we proposed three types of logistic regression models to estimate association rule adoption rate and discussed the most appropriate model selection methods by numerical examples. First, Hosmer-Lemeshow goodness-of-fit statistics of model 2 (model of confidence and lift) and model 3 (model of support and lift) was not significant, but that of model 1 (model of support and confidence) was significant. The accuracy of classification of model 2 was larger than that of model 3 (model of support and lift). Coefficient of lift was larger than that of confidence in the regression equation of model 2, and coefficient of lift was larger than that of support in model 3. The odds of confidence was 1.142, and that of lift was 1.345 in model 2. The odds of support was 1.088, and that of lift was 1.278 in model 3. After all these analysis, model 2 was the best logistic regression model. 데이터 마이닝은 빅 데이터 안에 잠재되어 있는 정보나 예기치 못한 규칙 등을 탐색하여 이를 의사결정을 위한 근거로 활용하고자 하는 것이다. 본 논문에서는 연관성 평가 기준을 이용한 규칙의 채택률을 추정하기 위한 3 종류의 로지스틱 회귀 모형을 제안하고, 예제를 이용하여 가장 적절한 모형의 선정 방안에 대해 토의하였다. 각 모형에 대해 적합도를 검정한 결과, 모형 1(지지도와 신뢰도를 고려한 모형)은 적합하지 않는 것으로 나타났다. 따라서 이를 제외하고 모형 2(신뢰도와 향상도를 고려한 모형)와 모형 3(지지도와 향상도를 고려한 모형)에 대해 분류 결과의 정확도를 비교해본 결과. 모형 3보다는 모형 2가 더 높게 나타났다. 또한 모형 2에서는 향상도의 회귀계수의 값이 신뢰도의 회귀계수 값보다 크며, 모형 3에서는 지지도의 회귀계수에 비해 향상도의 회귀계수의 값이 크게 나타났다. 오즈비를 비교해보면 모형 2에서는 신뢰도가 한 단위 증가하면 상대비가 1.142배 증가하는 반면에 향상도가 한 단위 증가하면 상대비가 1.345배 증가하며, 모형 3에서는 지지도가 한 단위 증가하면 상대비가 1.088배 증가하는 반면에 향상도는 1.278배 증가하는 것으로 나타났다. 이들의 결과를 종합해볼 때 모형 2가 가장 바람직한 것으로 나타났다.

      • KCI등재

        연관성 규칙에서의 향상도 기반 흥미도 측도의 제안

        박희창 한국자료분석학회 2008 Journal of the Korean Data Analysis Society Vol.10 No.5

        데이터마이닝은 방대한 양의 데이터 속에서 쉽게 드러나지 않는 유용한 정보를 찾아내는 기법으로서 각종 데이터를 기반으로 감춰진 지식, 기대하지 못했던 경향 또는 새로운 룰 등을 발견하는데 사용된다. 데이터마이닝 기법으로는 연관성규칙, 군집 분석, 의사결정나무기법, 신경망모형, 자기조직화지도 등의 분석 기법이 있다. 이들 중에서 연관성규칙은 데이터베이스 내에 존재하는 항목들 간의 상호 관련성을 찾아내는 기법으로서 항목들 사이의 지지도, 신뢰도, 향상도 등의 흥미도 측도를 기준으로 상호 관련성 여부를 측정한다. 본 논문에서는 향상도가 가지고 있는 방향성과 범위의 제한이 없는 단점을 보완하는 동시에 흥미도 측도가 가져야 할 조건들을 만족하는 새로운 흥미도 측도를 제안하고자 한다. Data mining is the method to find useful information for large amounts of data in database. One of the well-studied problems in data mining is exploration for association rules. An association rule technique finds the relation among each items in massive volume database. Some interestingess measures have been developed in association rule mining. Interestingness measures are useful in that it shows the causes for pruning uninteresting rules statistically or logically. This paper present a new lift-based interestingess measure(we call pure lift) to evaluate association rules and describe some properties for a proposed measure. A comparative study with some interestingess measures is shown by numerical example. The results show that the pure lift can avoid the discovery of misleading association rules.

      • KCI등재

        항목 빈발 회수의 상대적 크기를 고려한 대칭적 신뢰도의 제안

        박희창 한국자료분석학회 2010 Journal of the Korean Data Analysis Society Vol.12 No.3

        One of the well-studied problems in data mining is the search for association rules. The task of association rule mining is to find certain association relationships among a set of data items in a huge database. Association rule is a unsupervised method not to consider time sequence and there are no target variables in database for association rule. There are three primary quality measures for association rule, support and confidence and lift. Support and lift are symmetric measures for association rule exploration, but confidence is an asymmetric measure. We may reach the wrong conclusion because we use only one way confidence under current technique for association rule generation. In this paper we propose a symmetric confidence considering relative size of item frequencies and then compare the confidence and symmetric confidence using some concrete examples. As the result, we knew that the symmetric confidence has a value between two confidences and has a remarkably near value to the confidence for more item frequencies 연관성 규칙은 데이터마이닝 분야에서 가장 많이 활용되고 있으며, 방대한 양의 데이터베이스 속에 있는 각 항목들 간의 관련성을 수치화함으로써 두 개 이상의 항목간의 관련성을 나타내는 기법이다. 이러한 연관성 규칙 기법은 결과변수가 존재하지 않으며, 시간의 순서를 고려하지 않는 비목적성 분석기법이다. 의미 있는 연관성 규칙을 탐색하기 위한 가장 기본적인 흥미도 측도에는 지지도, 신뢰도, 향상도 등이 있으며, 이들을 이용하여 연관성 규칙을 생성하게 된다. 이 때 사용되는 지지도와 향상도는 대칭적인 측도이나 신뢰도는 비대칭적 측도이다. 기존의 연관성 규칙 생성에서는 한 방향으로의 신뢰도만을 이용하여 연관성 규칙의 생성여부를 판단하게 되면 잘못된 결론에 다다를 수 있으므로 본 논문에서는 주변 확률의 상대적 크기를 고려한 대칭적 신뢰도를 제안한 후, 구체적인 예제를 통하여 기존의 신뢰도와 대칭적 신뢰도의 변화하는 양상을 통해 이들을 비교하였다. 그 결과, 대칭적 신뢰도는 두 신뢰도 값의 사이에 위치하게 되며, 항목의 빈발 횟수가 크게 차이가 날수록 대칭적 신뢰도는 빈발횟수가 큰 쪽의 신뢰도에 확연하게 접근된 값을 가지는 것을 확인할 수 있었다.

      • KCI등재

        고유한 항목 특성 파악을 위한 순수 연관성 규칙의 제안

        박희창 한국자료분석학회 2009 Journal of the Korean Data Analysis Society Vol.11 No.2

        Data mining is the method to find useful information for large amounts of data in database. An association rule of this techniques, finds the relation among each items in massive volume database using interestingness measures such as support, confidence, and lift. There are some kinds of association rules ; boolean association rule, quantitative association rule, single-dimensional association rule, multi -dimensional association rule, single-level association rule, multi-level association rule sequences association rule, and dissociation rule etc. This paper present a new association rule to evaluate pure association(we call pure association rule) and describe some conditions and properties for a proposed association rule. A comparative study with new interestingess measures is shown by numerical example. The results showed that we were able to avoid the discovery of misleading association rules by the pure association rule thresholds and interpret whether positive association by specific items or not. 데이터 마이닝은 방대한 양의 데이터 속에서 쉽게 드러나지 않는 유용한 정보를 찾아내는 기법이다. 데이터 마이닝 기법 중에서 연관성규칙은 데이터베이스 내에 존재하는 항목들 간의 상호 관련성을 찾아내는 기법으로서 항목들 사이의 지지도, 신뢰도, 향상도 등의 흥미도 측도를 기준으로 상호 관련성 여부를 측정한다. 이러한 연관성 측정을 위한 연관성 규칙의 종류로는 불리언 연관성 규칙과 정량적 연관성 규칙, 1차원 연관성 규칙과 다중차원 연관성 규칙, 단일 수준 연관성 규칙과 다 수준 연관성 규칙, 그리고 순차 연관성 규칙과 비 연관성 규칙 등이 있다. 본 논문에서는 고유한 항목의 특성을 파악하기 위해 순수 연관성 규칙을 제안하고, 제안된 연관성 규칙의 평가기준에 대한 조건과 성질을 규명하였다. 또한 예제를 통하여 기존의 흥미도 측도와 제안한 흥미도 측도를 비교한 결과, 순수 연관성 규칙에서는 특정 요인에 의한 결과를 나타내주는 동시에 양의 관련성과 음의 관련성을 판단할 수 있다는 사실을 알게 되었다.

      • KCI등재

        통계적 데이터 퓨전을 위한 SAS 매크로

        박희창,조광현 한국자료분석학회 2006 Journal of the Korean Data Analysis Society Vol.8 No.5

        데이터 퓨전은 같은 모집단에서 나온 서로 다른 표본들을 포함하는 데이터 셋을 합치는 기법 또는 처리과정으로 정의된다. 데이터 퓨전은 데이터 융합, 데이터 결합, 데이터 매칭이라고 불리기도 하며, 정확 결합, 판단 결합, 확률적 결합, 통계적 결합, 데이터 연결 등의 5가지 종류로 구분된다. 현재 데이터 퓨전을 위한 소프트웨어는 개발되어 있지 않으며, 일반인들이 데이터 퓨전을 하기 위해서는 c나 java 등의 언어를 사용하여 직접 프로그램을 개발해야 하는 어려움이 있다. 이에 본 논문에서는 데이터 퓨전의 5가지 종류 중 통계적 결합 알고리즘을 SAS 매크로로 구현하여 데이터 퓨전 시 효과적으로 적용할 수 있는 방안에 대하여 연구하고자 한다. Data fusion is the process of combining multiple data in order to produce information of tactical value to the user. Data fusion is generally defined as the use of techniques that combine data from multiple sources and gather that information in order to achieve inferences, which will be more efficient than if they were achieved by means of a single source. Data fusion is called data combination, data matching, etc. Data fusion is divided in five branch types which are exact matching, judgemental matching, probability matching, statistical matching, and data linking. The software packages for data fusion such as sas or spss dose not exist up to now. In this study, we develop sas macro program for statistical matching which is one of five branch types for data fusion and we confirm data fusion result using sas macro through sample data.

      • KCI등재

        표준화 향상도를 이용한 연관성 순위 결정 함수

        박희창 한국자료분석학회 2010 Journal of the Korean Data Analysis Society Vol.12 No.5

        Association rule techniques among the most used data mining techniques measure mutual relationship between several items using association measures of support, confidence, lift, etc. Typically, the process of association rule is to generate frequent itemsets by a user-specified minimum support, and then select some rules by a user-specified minimum confidence and lift. We need to rank for selected rules even though some rules are generated by basic association thresholds. In this paper we proposed a association rule ranking function using a standardized lift. We compared our function with association rule ranking functions using conditional increment ratio(CPIR) by some numerical examples. As the result, we knew two ranking functions had a value in [-1, 1] regardless of the range for three association thresholds. But the ranking function by CPIR isn't reflected in the difference between association measures and minimum values of association threshold and were affected significantly by the impact of lift, whereas our function was very well reflected in the differences. 데이터 마이닝 기법 중에서 가장 많이 활용되고 있는 연관성 규칙은 하나의 거래에 포함되어 있는 여러 항목들 간의 상호 관련성을 지지도, 신뢰도, 향상도 등의 연관성 측도들을 이용하여 측정하게 된다. 일반적으로 연관성 규칙 생성과정은 먼저 사용자가 지정한 최소 지지도를 만족시키는 빈발항목집합을 생성한 후, 빈발항목집합을 이용하여 최소 신뢰도 기준을 만족하고 향상도가 1이상인 것을 규칙으로 채택하게 된다. 기본적인 연관성 기준을 만족하여 여러 규칙들이 생성되었다고 할지라도 이들 규칙들의 연관성 강도에 대한 순위를 매길 필요가 있다. 본 논문에서는 연관성의 강도를 객관적으로 평가하기 위해 표준화된 향상도를 이용한 연관순위결정함수를 제안하였다. 또한 구체적인 예제를 통하여 가장 최근에 연구된 조건부 확률증분비를 이용한 연관순위 결정함수와 비교해본 결과, 두 함수 공히 최소 연관성 기준값들의 크기와는 관계없이 항상 -1과 1 사이의 값을 가지며, 3개의 연관성 기준값이 모두 충족되면 1의 값을 가지며, 3개 모두 충족되지 않으면 -1의 값을 갖게 된다. 그러나 조건부 확률증분비를 이용한 연관순위 결정함수는 본 논문에서 제안한 함수에 비해 연관성 측도들과 최소 연관성 기준값들간의 차이를 잘 반영하지 못하고 향상도의 영향을 크게 받는 것으로 나타났다.

      • KCI등재

        Proposition of Relative Confidence for Exploration of Meaningful Association Rules

        박희창 한국자료분석학회 2008 Journal of the Korean Data Analysis Society Vol.10 No.6

        Association rule mining searches for interesting relationships among items in a given database. One of the popular approaches to association rule exploration is rule ranking using interestingness measures. Good measures also allow the time and space costs of the mining process to be reduced. In recent years, a lot of work has been done in quantifying interestingness. As a result, several measures that view interestingness from different perspectives have been proposed and developed. In this paper, we propose a relative confidence as an objective interestingness measure. This measure is the same as a relative risk in medical science, but the mining of relative risk patterns has never been investigated before. So we investigate the conditions of interestingness measures and some useful properties, and compare some properties of relative confidence and confidence through a few experiments. Association rule mining searches for interesting relationships among items in a given database. One of the popular approaches to association rule exploration is rule ranking using interestingness measures. Good measures also allow the time and space costs of the mining process to be reduced. In recent years, a lot of work has been done in quantifying interestingness. As a result, several measures that view interestingness from different perspectives have been proposed and developed. In this paper, we propose a relative confidence as an objective interestingness measure. This measure is the same as a relative risk in medical science, but the mining of relative risk patterns has never been investigated before. So we investigate the conditions of interestingness measures and some useful properties, and compare some properties of relative confidence and confidence through a few experiments.

      • KCI등재

        양적 연관성 규칙에서의 객관적 평가기준

        박희창 한국자료분석학회 2009 Journal of the Korean Data Analysis Society Vol.11 No.6

        One of the well-studied problems in data mining is the search for association rules. The task of association rule mining is to find certain association relationships among a set of data items in a database. There are three primary quality measures for association rule, support and confidence and lift. Given a user defined minimum support and minimum confidence threshold, association rule mining is to find all the rules having at least minimum support and minimum confidence. Association rules are frequently used by retail stores to assist in marketing, advertising, floor placement, and inventory control. In this paper we present the relation between the measure of association and the criteria of association rule for continuous database and propose the objective criteria for association. As the result, we knew that there was a linear relationship between the same occurrence frequency and measure of association, and the thresholds was linear to measure of association. 데이터마이닝에서 가장 많은 연구가 이루어지고 있는 분야는 연관성 규칙을 찾는 것이다. 연관성 규칙은 각 항목간의 연관성을 반영하는 규칙으로서 둘 또는 그 이상의 항목들 사이의 지지도, 신뢰도, 향상도를 기반으로 하여 미리 결정된 최소지지도 및 최소신뢰도 이상의 의미 있는 규칙을 찾아내는 데이터마이닝 기법 중의 하나이다. 연관성 규칙은 교차판매, 매장 진열, 카탈로그 디자인, 장바구니 분석 등에 사용된다. 본 논문에서는 연속형 자료에서의 연관성 측도와 연관성 규칙의 평가 기준과의 관계를 제시함으로써 연관성 규칙의 객관적인 기준을 제안하였다. 그 결과, 동시발생빈도와 연관성 측도, 연관규칙의 평가기준과 연관성 측도가 선형관계를 가짐을 알 수 있었다. 이러한 결과를 통하여 연관성 규칙에 대한 관련성 정도를 객관적으로 제시할 수 있었으며, 둘 이상의 연관 규칙간의 비교 분석 또한 가능하도록 하였다.

      • KCI등재

        효율적인 정보 추출을 위한 자료 집계 및 분석 시스템의 설계 및 구현 방안

        박희창,조광현 한국자료분석학회 2006 Journal of the Korean Data Analysis Society Vol.8 No.3

        Distributing information on the internet is common in our daily life. In the past, e-mail has been the primary choice of exchanging information. But instant messengers are gaining popularity abroad and domestically because of their immediate responses. Instant messaging has become the fastest growing communication technology in recent years. Instant messaging is effectively a chat room of two people. Users that have accounts with the same provider are able to send messages via computer in real time. Instant messaging has exploded into the business world as companies utilize the technology for everything from interoffice communication to client/customer communication. In this paper, we propose a system design for effective data collection and statistical analysis. 현대 사회에 있어서 신속하고 정확한 정보는 곧 수익증대의 중요한 요소로 자리 잡고 있으며, 사회발전이 가속화 될수록 더욱 다양한 정보가 산출되고 있다. 그로 인하여 광범위하게 분산되어 있는 정보의 추출은 매우 중요한 부분으로 부각되고 있다. 그러나 기존의 자료 집계 방법은 분산되어 있는 자료를 수집하기 위한 시간이 많이 소요되고, 수집된 자료의 확인과정 및 통합과정 또한 많은 시간이 소요되어 현대의 수많은 정보를 효율적으로 수용하지 못하고 있다. 이에 본 논문에서는 광범위하게 분산되어 있는 자료들에 대하여 효율적인 정보 추출을 제공할 수 있는 자료 집계 및 분석 시스템의 설계 및 구현 방안에 대하여 연구하고자 한다. 주요용어 : 구조도, 설문조사, 이메일 시스템, 인스턴트 메신저, 집계 및 분석 시스템.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼