RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
          펼치기
        • 등재정보
        • 학술지명
          펼치기
        • 주제분류
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        앙상블 접근법을 이용한 반감독 차원 감소 방법

        박정희,Park, Cheong-Hee 한국정보처리학회 2012 정보처리학회논문지D Vol.19 No.2

        클래스들 간의 거리를 최대화시키는 사영 방향을 구하는 감독차원감소 방법인 선형판별분석법(LDA)은 클래스 정보를 가진 데이터의 수가 매우 적을 때 성능이 급격히 저하되는 경향이 있다. 이러한 경우 상대적으로 저렴한 비용으로 얻을 수 있는 클래스 라벨 정보가 없는 데이터를 활용할 수 있는 반감독 차원 감소법이 사용될 수 있다. 그러나 통계적 차원 감소법에서 흔히 사용되는 행렬연산은 많은 양의 데이터를 사용하는데 메모리와 처리시간에서 한계가 있고, 적은 수의 라벨드 데이터(labeled data)에 비해 너무나 많은 언라벨드 데이터(unlabeled data)의 사용은 처리 시간의 증가에 비해 오히려 성능감소를 가져올 수 있다. 이러한 문제들을 극복하기 위해 앙상블 접근법을 이용한 반감독 차원 감소 방법을 제안한다. 문서분류 문제에서의 실험결과를 통해 제안한 방법의 성능을 입증한다. While LDA is a supervised dimension reduction method which finds projective directions to maximize separability between classes, the performance of LDA is severely degraded when the number of labeled data is small. Recently semi-supervised dimension reduction methods have been proposed which utilize abundant unlabeled data and overcome the shortage of labeled data. However, matrix computation usually used in statistical dimension reduction methods becomes hindrance to make the utilization of a large number of unlabeled data difficult, and moreover too much information from unlabeled data may not so helpful compared to the increase of its processing time. In order to solve these problems, we propose an ensemble approach for semi-supervised dimension reduction. Extensive experimental results in text classification demonstrates the effectiveness of the proposed method.

      • KCI등재

        개념 변동 고차원 스트리밍 데이터에 대한 차원 감소 방법

        박정희 ( Cheong Hee Park ) 한국정보처리학회 2016 정보처리학회논문지. 소프트웨어 및 데이터 공학 Vol.5 No.8

        고차원데이터에 대한 차원 감소 기법들은 많이 연구되어져 온 반면, 개념 변동을 가진 고차원 스트리밍 데이터에서 적용할 수 있는 차원 감소 기법에 대한 연구는 제한적이다. 이 논문에서는 스트리밍 데이터에서 적용할 수 있는 점층적 차원 감소 기법들을 살펴보고, 개념 변동 고차원 스트리밍 데이터에 대해 분류 성능을 향상시킬 수 있도록 차원 감소를 효과적으로 적용하는 방법을 제안한다. While dimension reduction methods on high dimensional data have been widely studied, research on dimension reduction methods for high dimensional streaming data with concept drift is limited. In this paper, we review incremental dimension reduction methods and propose a method to apply dimension reduction efficiently in order to improve classification performance on high dimensional streaming data with concept drift.

      • KCI등재
      • 그래프 기반 반감독 학습에서 배치모드 능동적 학습

        박정희(Cheong Hee Park) 한국정보과학회 2012 한국정보과학회 학술발표논문집 Vol.39 No.1B

        클래스라벨에 대한 정보를 가진 데이터가 매우 적을 때 클래스라벨 정보가 없는 데이터로부터의 정보를 학습에 활용하는 반감독학습(semi-supervised learning) 방법들 중에서 데이터 샘플들 간의 유사도를 나타내는 그래프를 이용하는 방법이 잘 알려져 있다. 본 논문에서는 그래프 기반 반감독 학습에서 배치 모드 능동적 학습을 위한 방법을 제안하고 실제 데이터를 이용한 실험결과를 통해 제안된 방법의 성능을 입증한다.

      • KCI우수등재

        Application of an Adaptive Incremental Classifier for Streaming Data

        Cheong Hee Park(박정희) 한국정보과학회 2016 정보과학회논문지 Vol.43 No.12

        시간이 흐름에 따라 데이터 분포가 변하거나 관심 개념이 달라질 수 있는 스트리밍 데이터 분석에서 개념 변화에 적응해 나갈 수 있는 능력은 점층적 학습 과정에서 매우 중요하다. 이 논문에서는 개념 변화를 가진 스트리밍 데이터에서 적응적 점층적 분류기를 위한 일반화된 프레임워크를 제안한다. 분류기에 의해 예측되는 신뢰도 벡터와 클래스 라벨 벡터 사이의 거리를 이용하여 분류기 성능 패턴을 나타내는 분포를 구성하고 컨셉 변화에 대한 가설 검정을 수행한다. 추정되는 p-값을 이용하여 오래된 데이터에 대한 가중치를 자동으로 조정하여 분류기 업데이트에 이용한다. 제안된 방법을 두 가지 타입의 선형 판별 분류기에 적용한다. 컨셉 변화를 가진 스트리밍 데이터에 대한 실험 결과는 제안하는 적응적 점층적 학습방법이 점층적 분류기의 예측 정확도를 크게 향상시킴을 입증한다. In streaming data analysis where underlying data distribution may be changed or the concept of interest can drift with the progress of time, the ability to adapt to concept drift can be very powerful especially in the process of incremental learning. In this paper, we develop a general framework for an adaptive incremental classifier on data stream with concept drift. A distribution, representing the performance pattern of a classifier, is constructed by utilizing the distance between the confidence score of a classifier and a class indicator vector. A hypothesis test is then performed for concept drift detection. Based on the estimated p-value, the weight of outdated data is set automatically in updating the classifier. We apply our proposed method for two types of linear discriminant classifiers. The experimental results on streaming data with concept drift demonstrate that the proposed adaptive incremental learning method improves the prediction accuracy of an incremental classifier highly.

      • KCI등재

        PCA 기반 군집화를 이용한 해슁 기법

        박정희 ( Cheong Hee Park ) 한국정보처리학회 2014 정보처리학회논문지. 소프트웨어 및 데이터 공학 Vol.3 No.6

        해슁(hashing)을 기반으로 한 근사 최근접 이웃 탐색(approximate nearest neighbors search, ANN search) 방법에서는 데이터 샘플들을 비트 이진 코드로 변환하는 해쉬 함수들을 이용함으로써 근접 이웃 탐색이 이진변환 공간에서 이루어지게 된다. 본 논문에서는 PCA 기 반 군집화 방법인 Principal Direction Divisive Partitioning(PDDP)를 이용한 해슁 방법을 제안한다. PDDP는 가장 큰 분산을 가지는 클러 스터를 선택하여 그 클러스터의 첫 번째 주성분 방향을 이용하여 두 개의 클러스터로 분할하는 과정을 반복적으로 시행하는 군집화 방법 이다. 제안하는 해슁 방법에서는 PDDP에서 분할을 위해 사용하는 주성분방향을 바이너리 코딩을 위한 사영벡터로서 사용한다. 실험결과는 제안하는 방법이 다른 해슁 방법들과 비교하여 경쟁력 있는 방법임을 입증한다. In hashing-based methods for approximate nearest neighbors(ANN) search, by mapping data points to k-bit binary codes, nearest neighbors are searched in a binary embedding space. In this paper, we present a hashing method using a PCA-based clustering method, Principal Direction Divisive Partitioning(PDDP). PDDP is a clustering method which repeatedly partitions the cluster with the largest variance into two clusters by using the first principal direction. The proposed hashing method utilizes the first principal direction as a projective direction for binary coding. Experimental results demonstrate that the proposed method is competitive compared with other hashing methods.

      • KCI등재
      • KCI등재

        트레이닝 데이터가 제한된 환경에서 N-Gram 사전을 이용한 트위터 스팸 탐지 방법

        최혁준,박정희,Choi, Hyeok-Jun,Park, Cheong Hee 한국정보처리학회 2017 정보처리학회논문지. 소프트웨어 및 데이터 공학 Vol.6 No.9

        본 논문에서는 트레이닝 데이터가 제한된 환경에서 n-gram 사전을 이용하여 불건전 정보를 포함하는 스팸 트윗을 탐지하는 방법을 제안한다. 불건전 정보를 포함하는 스팸 트윗은 유사한 단어와 문장을 사용하는 경향이 있다. 이러한 특성을 이용하여 스팸 트윗과 정상 트윗에 대한 n-gram 사전을 구축하고 나이브 베이스 분류기를 적용하여 효과적으로 스팸 트윗을 탐지할 수 있음을 보인다. 반면에, 실시간으로 대용량의 데이터가 유입되는 트위터의 특성은 초기 트레이닝 집합 구성에 매우 큰 비용을 요구 한다. 따라서, 초기 트레이닝 집합이 매우 작거나 존재하지 않는 환경에서 적용할 수 있는 스팸 트윗 탐지 방법이 필요하다. 이를 위해 트위터의 리트윗 기능을 활용하여 의사 라벨을 생성하고 초기 트레이닝 집합의 구성과 n-gram 사전 업데이트에 활용하는 방법을 제안한다. 2016년 12월 1일부터 2016년 12월 7일까지 수집된 한국어 트윗 130만 건을 사용한 다양한 실험 결과는 비교 방법들보다 제안하는 방법의 성능이 우수함을 입증한다. In this paper, we propose a method to detect spam tweets containing unhealthy information by using an n-gram dictionary under limited labeling. Spam tweets that contain unhealthy information have a tendency to use similar words and sentences. Based on this characteristic, we show that spam tweets can be effectively detected by applying a Naive Bayesian classifier using n-gram dictionaries which are constructed from spam tweets and normal tweets. On the other hand, constructing an initial training set requires very high cost because a large amount of data flows in real time in a twitter. Therefore, there is a need for a spam detection method that can be applied in an environment where the initial training set is very small or non exist. To solve the problem, we propose a method to generate pseudo-labels by utilizing twitter's retweet function and use them for the configuration of the initial training set and the n-gram dictionary update. The results from various experiments using 1.3 million korean tweets collected from December 1, 2016 to December 7, 2016 prove that the proposed method has superior performance than the compared spam detection methods.

      • KCI등재

        연합 Isolation Forest

        강성원(Sung Won Kang),박정희(Cheong Hee Park) 한국멀티미디어학회 2024 멀티미디어학회논문지 Vol.27 No.1

        Outlier detection is the task of detecting data that significantly deviates from normal patterns and is applied in a variety of application fields. However, most outlier detection techniques are designed to be applied to centralized data, making it difficult to properly respond to privacy protection or limitations in data collection and sharing. In this paper, we propose a method for learning Isolation Forest in a federated learning environment that shares a global machine learning model while maintaining independent storage of data among clients. In the proposed method, instead of learning complete isolation trees from each client, we construct Isolation Forest that can reflect various data distributions among clients by increasing the height of the tree by 1 in a randomly selected client and repeating this process until a limited tree height is reached. Experimental results in a federated learning environment in which normal data consists of data of multiple classes and clients include only some of the normal classes demonstrate that the Isolation Forest by the proposed method obtains high outlier detection performance in a federated learning environment of non-IID data.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼