RISS 학술연구정보서비스

다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
        • 등재정보
        • 학술지명
        • 주제분류
        • 발행연도
        • 작성언어

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        클래스 불균형 문제를 해결하기 위한 개선된 집중 샘플링

        김만선,양형정,수형,챠위핑,Kim, Man-Sun,Yang, Hyung-Jeong,Kim, Soo-Hyung,Cheah, Wooi Ping 한국정보처리학회 2007 정보처리학회논문지B Vol.14 No.4

        실세계의 문제에서 많은 기계학습의 알고리즘들은 데이터의 클래스 불균형 문제에 어려움을 겪는다. 이러한 클래스 불균형 문제를 해결하기 위하여 데이터의 비율을 변경하거나 좀 더 나은 샘플링 전략으로 극복하려는 연구들이 제안되었다. 그러나 데이터의 비율을 변경하는 연구에서는 전체 데이터 분포의 특성을 고려하지 못하고, 샘플링 전략을 제안하는 연구에서는 여러 가지 제한 조건을 고려해야만 한다. 본 논문에서는 위의 두가지 방법의 장점을 모두 포함하는 개선된 집중 샘플링 방법을 제안한다. 제안된 방법에서는 클래스 불균형 문제를 해결하기 위해 학습에 유용한 데이터들을 샘플링하는데 스코어링에 기반한 데이터 분할 방법을 이용한다. 즉, 입력 데이터들에 대해 SOM(Self Organizing Map)의 학습 결과로 얻은 BMU(Best Matching Unit)와의 거리를 계산하고, 이 거리론 스코어라 한다. 측정된 스코어는 오름차순으로 정렬되며, 이 과정에서 입력 데이터의 분포가 재 표현되고, 재 표현된 분포는 전체 데이터의 특성을 대표하게 된다. 그 결과로 얻은 데이터들 중에서 유용하지 못한 데이터들에 대해 제거하는 과정을 수행하여 새로운 학습 데이터 셋을 얻는다. 새로운 학습 데이터 생성 과정에서는 재 표현된 분포의 결과를 두 구간(upper, lower)으로 분할하는데, 두 추간 사이의 데이터들은 유용하지 못한 패턴들로 간주되어 학습에 이용되지 않는다. 본 논문에서 제안한 방법은 클래스 불균형의 비율 감수 훈련 데이터의 크기 감소, 과적합의 방지 등 몇 가지 장점을 보인다. 제안한 방법으로 샘플링된 데이터에 kNN 을 적용하여, 분류 실험한 결과 심한 불균형이 있는 ecoli 데이터의 분류 성능이 최대 2.27배 향상되었다. Many classification algorithms for real world data suffer from a data class imbalance problem. To solve this problem, various methods have been proposed such as altering the training balance and designing better sampling strategies. The previous methods are not satisfy in the distribution of the input data and the constraint. In this paper, we propose a focused sampling method which is more superior than previous methods. To solve the problem, we must select some useful data set from all training sets. To get useful data set, the proposed method devide the region according to scores which are computed based on the distribution of SOM over the input data. The scores are sorted in ascending order. They represent the distribution or the input data, which may in turn represent the characteristics or the whole data. A new training dataset is obtained by eliminating unuseful data which are located in the region between an upper bound and a lower bound. The proposed method gives a better or at least similar performance compare to classification accuracy of previous approaches. Besides, it also gives several benefits : ratio reduction of class imbalance; size reduction of training sets; prevention of over-fitting. The proposed method has been tested with kNN classifier. An experimental result in ecoli data set shows that this method achieves the precision up to 2.27 times than the other methods.

      • KCI등재

        배추의 조직 특이적 네트워크 특성 분석

        김만선(Man-Sun Kim),정래(Jeong-Rae Kim),임용표(Yong Pyo Lim) 한국지능시스템학회 2018 한국지능시스템학회논문지 Vol.28 No.5

        배추(Brassica rapa ssp. pekinensis)는 대한민국뿐만 아니라 중국, 일본과 같은 아시아 국가에서 중요한 원예 작물 중 하나이다. 최근, 대용량 스크리닝 기술의 발전으로 인하여 전사체(transcriptome)를 대상으로 분석하는 연구가 많이 진행되고 있다. 특히, 유전자 발현의 차이를 기반으로 네트워크를 재구성하는 연구가 활발하게 진행되고 있는데, 발현의 차이가 조직 및 기관의 발달과정(developmental process)에서의 차이로 이어진다고 여겨진다. 최근까지 식물모델인 아기장대와 여러 동물모델에서는 이러한 연구가 많이 진행되었으나, 보다 복잡한 3배체를 갖는 유채과의 하나인 배추(Chinese cabbage)에서는 이런 연구가 많이 되어있지 않다. 우리는 단백질 상호작용 네트워크 재구성 접근법을 통해 배추의 5가지(flower, root, inner leaf, outer leaf, young leaf) 조직에 대하여 조직 특이적 특성을 밝히고자 한다. 그 결과, 꽃(flower) 조직에서는 생식관련 기능, 뿌리(root) 조직에서는 세포벽에 관한 기능, 잎(inner, outer and seedling leaf) 조직에서는 다양한 환경에 대응하는 기능 및 엽록체 관련 기능을 수행하는 것을 확인하였다. 본 연구는 또한 조직 특이적 발현 유전자들을 발굴하고, 네트워크를 연구함으로써 생명체를 구성하는 여러 요소들의 유기적인 상호 관계를 분석하였다. 이런 결과는 식물의 유전 연구와 식물 육종에 유용한 자원으로 이용될 수 있다. Chinese cabbage is one of the most important crops in Asian countries. Recently, many studies have been conducted on transcriptome analysis. In particular, researches on network reconfiguration based on differentially expressed genes are actively underway, and it is believed that differences in gene expression lead to differences in respective biological functions such as developmental processes of organs and tissues. Until recently, such studies have been carried out on Arabidopsis thaliana as a plant model organism or some animals, but there is no such study on Brassica rapa. In this study, we revealed the tissue-specific and common characteristics of the five tissues based on the network reconstruction analysis. As a result, we confirmed that each tissue-specific network plays a function in corresponding to various environments and chloroplast in the leaves, a function related to the cell wall in the root tissue. We further investigated the complex interactions among the various genes in a living organism through the network analysis and tissue-specific and commonly expressed genes. These results could be used as useful resources for genetic studies and breeding of plants.

      • KCI등재

        대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법

        김만선,이상용,Kim, Man-Sun,Lee, Sang-Yong 한국정보처리학회 2003 정보처리학회논문지B Vol.10 No.1

        데이터 마이닝은 지식발견 과정에서 중요한 역할을 수행하며, 여러 데이터 마이닝의 알고리즘들은 특정의 목적을 위하여 선택될 수 있다. 대부분의 전통적인 계층적 클러스터링 방법은 적은 양의 데이터 집합을 처리하는데 적합하여 제한된 리소스와 부족한 효율성으로 인하여 대용량의 데이터 집합을 다루기가 곤란하다. 본 연구에서는 대용량의 데이터에 적용되어 알려지지 않은 패턴을 발견할 수 있는 하이브리드형 신경망 클러스터링 기법의 PPC(Pre-Post Clustrering) 기법을 제안한다. PPC 기법은 인공지능적 방법인 자기조직화지도(SOM)와 통계적 방법인 계층적 클러스터링을 결합하여 두 과정에서는 군집의 내부적 특징을 나타내는 응집거리와 군집간의 외부적 거리를 나타내는 인접거리에 따라 유사도를 측정한다. 최종적으로 PPC 기법은 측정된 유사도를 이용하여 대용량 데이터 집합을 군집화한다. PPC 기법은 UCI Repository 데이터를 이용하여 실험해 본 결과, 다른 클러스터링 기법들 보다 우수한 응집도를 보였다. Data mining plays an important role in a knowledge discovery process and various algorithms of data mining can be selected for the specific purpose. Most of traditional hierachical clustering methode are suitable for processing small data sets, so they difficulties in handling large data sets because of limited resources and insufficient efficiency. In this study we propose a hybrid neural networks clustering technique, called PPC for Pre-Post Clustering that can be applied to large data sets and find unknown patterns. PPC combinds an artificial intelligence method, SOM and a statistical method, hierarchical clustering technique, and clusters data through two processes. In pre-clustering process, PPC digests large data sets using SOM. Then in post-clustering, PPC measures Similarity values according to cohesive distances which show inner features, and adjacent distances which show external distances between clusters. At last PPC clusters large data sets using the simularity values. Experiment with UCI repository data showed that PPC had better cohensive values than the other clustering techniques.

      • KCI등재

        동적인 개념을 적용한 아기장대 뿌리 네트워크의 특성 분석

        김만선(Man-Sun Kim),정래(Jeong-Rae Kim) 한국지능시스템학회 2020 한국지능시스템학회논문지 Vol.30 No.2

        생명체의 다양한 세포 내에서는 세포의 상태 및 외부 환경에 따라 일부 단백질과 그 상호작용만이 선택적으로 활성화된다. 따라서, 고정된 네트워크를 분석하는 연구 방법으로는 시간의 흐름에 따라 진행되는 식물의 발달과정(developmental process)을 이해하기 어렵다. 본 연구에서는 동적인 개념을 적용하여 특정 시간대에서만 활성화되는 네트워크를 재구성함으로써 시간에 따라 변화하는 네트워크의 동적 특성에 대하여 연구하고자 한다. 우리는 이러한 접근법을 대표적인 식물 모델인 아기 장대(Arabidopsis thaliana)에 적용했다. 그 결과, 발달 단계에 따른 초기, 중기, 후기 유전자들과 중첩된 부분 네트워크를 발굴하고 이들 네트워크의 구조적 분석을 수행했다. 우리는 또한 뿌리가 발달하는 과정 동안 신호가 점진적으로 퍼져 나가다 다시 수렴되는 특성이 있음을 확인하였다. 이런 결과는 뿌리 발달과정을 정보의 전달 측면에서 생명현상을 매우 효율적으로 설명해줄 수 있는 구조임을 제안한다. 이런 분석 방법론은 식물 유전 연구와 마커 탐색과 같은 식물 육종에 유용한 자원으로 이용될 수 있을 것이다. In plant cells, only some proteins and their interactions are optionally activated, depending on the state of the cell and its external environment. Thus, it is difficult to understand the developmental process of plants over time with the present methodology of analyzing fixed networks. In this study, we applied the dynamic concept to understanding the characteristics of developmental process occurred in “Arabidopsis thaliana”, by reconfiguring networks that are activated only at specific time points. The partial networks covered with the early, mid-term and late genes according to the developmental stage were selected and the structural analysis was carried out. In the network the characteristic signals are gradually increased and recombined during the course of root development. These results show that the dynamic gene network occurred during root development process very efficiently in terms of information transmission. This analysis methodology could be used as a useful resource for plant breeding, such as plant genetic research and marker exploration.

      • KCI등재

        네트워크 모티프 분석을 통한 배추 꽃 조직 특이적 네트워크의 구성 원리 규명

        김만선(Man-Sun Kim),임용표(Yong Pyo Lim) 한국지능시스템학회 2019 한국지능시스템학회논문지 Vol.29 No.1

        배추(Brassica rapa ssp. pekinensis)는 김치의 주재료로 우리의 식생활에서 빼놓을 수 없는 채소이며, 중국·일본과 함께 동양 3국에서 중요한 채소 중 하나이다. 배추의 다양한 조직을 구성하는 세포 내에 존재하는 유전자들의 조절 관계를 파악하는 것은 배추의 발달과정을 이해하는데 필수적이다. 다세포 생명체의 발달 과정 동안 개별 조직 내 세포의 상태와 외부 환경에 따라서 물리적으로 존재하는 모든 유전자와 이들 사이에 가능한 모든 상호작용 중, 일부 유전자와 그 상호작용만이 부분적, 선택적으로 활성화된다. 그러므로, 배추의 발달 과정을 이해하기 위해서는 조직별·선택적으로 활성화되는 유전자 조절 네트워크를 규명하는 연구가 필요하다. 우리는 배추의 대표적인 조직인 꽃 (flower)에 대해 부분 네트워크를 동정하고, 이것의 기능적 특징을 밝히고자 한다. 우선, 1) 조직 특이적으로 발현되는 유전자를 선별하고, 2) 알려진 유전자 조절 네트워크를 통해 선별된 유전자를 적용하여 부분 네트워크를 재구성하였다. 3) 우리는 발굴된 부분 네트워크에서 기능적 최소 단위인 네트워크 모티프를 동정하였다. 그 결과, 피드포워드(FFL: feedforward) 모티프가 가장 지배적인 구조임을 밝혀냈고 이들의 세부 구조에 대한 특성을 알아보았다. 종합적으로, 꽃 조직은 coherent FFL와 incoherent FFL의 조합으로 구성되어 있다는 것을 확인했다. coherent FFL 구조는 꽃 조직으로 하여금 안정적인 개화 반응을 유도할 수 있게 하며, 반면에 incoherent FFL 구조는 외부 환경 변화에 빠르게 적응(adaptation)하여, 항상성 (homeostasis)을 유지하려는 특성의 원천이 될 것으로 여겨진다. Chinese cabbage (Brassica rapa ssp. Pekinensis) is one of the most important horticultural crops in Asian countries. It is well known that the developmental process is usually determined by the complex interactions between genes. Therefore, it is also very important to understand the developmental process of Chinese cabbage by studying the dynamics of the gene regulatory networks in the cells constituting the of cabbage. We found that the coherent and incoherent feedforward loops were significantly enriched in flower tissue. By exploring the dynamic characteristics of feedforward and feedback loops, we concluded that flower tissue was designed to be more robust (coherent FFL), be more adaptive to various input signals(incoherent FFL). We believe that our approach using network information of the evolutionary nearest model organism is helpful to understand the underlying mechanisms of yet widely unknown organisms.

      • KCI등재

        동적인 개념을 적용한 알츠하이머 질병 네트워크의 특성 분석

        김만선(Man-Sun Kim),정래(Jeong-Rae Kim) 한국지능시스템학회 2015 한국지능시스템학회논문지 Vol.25 No.6

        지금까지 생체 네트워크 분석 연구는 정적(static)인 개념으로만 다루어졌다. 그러나 실제 생명현상이 발생하는 세포 내에서는 세포의 상태 및 외부 환경에 따라 일부 단백질과 그 상호작용만이 선택적으로 활성화된다. 따라서 생체 네트워크의 구조가 시간의 흐름에 따라 변화하는 동적(dynamic)인 개념이 적용되어야 하며, 이런 개념은 질병의 진행 추이를 분석하는데 효율적이다. 본 논문에서는 동적인 네트워크 방법을 알츠하이머 질병에 적용하여 질병이 진행되는 단계에 따라 변화하는 단백질 상호작용 네트워크의 구조적, 기능적 특징에 대하여 분석하고자 한다. 우선, 유전자 발현데이터를 기반으로 각 질병의 진행 상태에 따른 부분 네트워크(정상, 초기, 중기, 말기)를 구축하였다. 이를 기반으로, 네트워크의 구조적 특성 분석을 수행하였다. 또한 기능적 특성 분석을 위해 유전자 군집(module)을 탐색하고, 군집별 유전자 기능(Gene Ontology) 분석을 수행했다. 그 결과, 네트워크의 특성들은 각 질병의 단계와 잘 대응되며, 동적 네트워크 분석법이 중요한 생물학적 이벤트를 설명하는데 이용될 수 있음을 보였다. 결론적으로 제안된 연구 방법을 통하여 그동안 알려지지 않았던 질병유발에 관련된 주요 네트워크 변화를 관측할 수 있고, 질병에 관여하는 복잡한 분자 수준의 발생 기작과 진행 과정을 이해하는데 중요한 정보를 획득할 수 있다. Biological networks have been handled with the static concept. However, life phenomena in cells occur depending on the cellular state and the external environment, and only a few proteins and their interactions are selectively activated. Therefore, we should adopt the dynamic network concept that the structure of a biological network varies along the flow of time. This concept is effective to analyze the progressive transition of the disease. In this paper, we applied the proposed method to Alzheimer"s disease to analyze the structural and functional characteristics of the disease network. Using gene expression data and protein-protein interaction data, we constructed the sub-networks in accordance with the progress of disease (normal, early, middle and late). Based on this, we analyzed structural properties of the network. Furthermore, we found module structures in the network to analyze the functional properties of the sub-networks using the gene ontology analysis (GO). As a result, it was shown that the functional characteristics of the dynamics network is well compatible with the stage of the disease which shows that it can be used to describe important biological events of the disease. Via the proposed approach, it is possible to observe the molecular network change involved in the disease progression which is not generally investigated, and to understand the pathogenesis and progression mechanism of the disease at a molecular level.

      • 심전도 패턴을 분류하기 위한 신경망 특성 평가

        김만선 ( Man Sun Kim ),원식 ( Wuon Shik Kim ),노기용 ( Gi Young No ),이상태 ( Sang Tae Lee ) 한국감성과학회 2003 춘계학술대회 Vol.2003 No.-

        본 논문에서는 심근허혈 질환을 효율적으로 분류하기 위한 신경망을 설계하였다. European ST-T DB의 심전도로부터 ST 분절의 특징을 추출하여 입력노드를 결정하고 10개의 학습률과 학습 횟수에 따른 신경망의 MES를 계산하였다. 실험 결과 특징 파라미터의 조합을 ST0, ST80, Slope, Area로 하였을 때 MSE를 가장 작았다. 이러한 특징 파라미터를 이용하여 신경망의 입력으로 학습시킨 경우 학습 횟수의 증가에 따라 MSE가 지수합수적으로 감소하였으며 1,000회 이상에서는 둔하게 감소하였다. 또한 학습 횟수가 5,000회, 10,000회, 15,000회 각각의 경우에 대하여 학습률을 0.01부터 0.7까지 증가시키면서 MSE를 계산한 결과 학습 횟수가 증가할수록 MSE를 최소로 하는 최적학습률이 0.1부터 0.04까지 감소하였다.

      • 데이터 마이닝을 위한 신경망 클러스터링 기법에 관한 연구

        김만선(Man-sun Kim),이상용(Sang-yong Lee) 한국정보과학회 2001 한국정보과학회 학술발표논문집 Vol.28 No.2Ⅱ

        최근 대용량의 데이터베이스로부터 유용한 정보를 발견하고 데이터간에 존재하는 연관성을 탐색하고 분석하는 데이터 마이닝에 관한 많은 연구들이 진행되고 있다. 실제 응용분야에선 수집된 데이터는 시간이 지날수록 데이터의 양이 늘어나게 되고, 중복되는 속성과 잡음을 갖게 되어 마이닝 기법을 이용하는데 많은 시간과 비용이 소요된다. 또한 어느 속성이 중요한지 알 수 없어 중요한 속성이 중요하지 않은 속성에 의해 왜곡되거나 제대로 분석되지 않을 수 있다. 이 논문은 이러한 문제점들을 해결하기 위해, 대용량의 데이터에 적용할 수 있고 데이터에서 알려지지 않은 패턴을 발결할뿐만 아니라, 사용자가 얻고자 하는 출력을 생성할 수 있는 혼합형 신경망 클러스터링 기법을 제안 한다. 그리고 알고리즘의 타당성을 검증하기 위해 몇 가지 벤치마크데이터를 이용하여 본 논문은 타탕성을 보인다.

      • KCI등재

        고차원 데이터 처리를 위한 SVM기반의 클러스터링 기법

        김만선(Man-Sun Kim),이상용(Sang-Yong Lee) 한국지능시스템학회 2004 한국지능시스템학회논문지 Vol.14 No.7

        클러스터링은 데이터 집합을 유사한 데이터 개체들의 클러스터들로 분할하여 데이터 속에 존재하는 의미 있는 정보를 얻는 과정이다. 클러스터링의 주요 쟁점은 고차원 데이터를 효율적으로 클러스터링하는 것과 최적화 문제를 해결하는 것이다. 본 논문에서는 SVM(Support Vector Machines)기반의 새로운 유사도 측정법과 효율적으로 클러스터의 개수를 생성하는 방법을 제안한다. 고차원의 데이터는 커널 함수를 이용해 Feature Space로 매핑시킨 후 이웃하는 클러스터와의 유사도를 측정한다. 이미 생성된 클러스터들은 측정된 유사도값과 Δd 임계값에 의해서 원하는 클러스터의 개수를 얻을 수 있다. 제안된 방법을 검증하기 위하여 6개의 UCI Machine Learning Repository의 데이터를 사용한 결과, 제시된 클러스터의 개수와 기존의 연구와 비교하여 향상된 응집도를 얻을 수 있었다. Clustering is a process of dividing similar data objects in data set into clusters and acquiring meaningful information in the data. The main issues related to clustering are the effective clustering of high dimensional data and optimization. This study proposed a method of measuring similarity based on SVM and a new method of calculating the number of clusters in an efficient way. The high dimensional data are mapped to Feature Space ones using kernel functions and then similarity between neighboring clusters is measured. As for created clusters, the desired number of clusters can be got using the value of similarity measured and the value of Δd. In order to verify the proposed methods, the author used data of six UCI Machine Learning Repositories and obtained the presented number of clusters as well as improved cohesiveness compared to the results of previous researches.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료
