http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
백주련 ( Juryon Paik ),남정현 ( Junghyun Nam ),안성준 ( Sung-joon Ahn ),김응모 ( Ung Mo Kim ) 한국인터넷정보학회 2009 인터넷정보학회논문지 Vol.10 No.5
트리 데이터로부터 유용한 정보들을 추출하는 가장 일반적인 방식은 빈번하게 자주 발생하는 서브트리 패턴들을 얻는 것이다. XML 마이닝, 웹 사용 마이닝, 바이오인포매틱스, 네트워크 멀티캐스트 라우팅 등 빈번 트리 패턴 마이닝은 여러 다양한 영역에서 광범위하게 이용되고 있기 때문에, 해당 패턴들을 추출하기 위한 많은 알고리즘들이 제안되어 왔다. 하지만, 현재까지 제안된 대부분의 트리 마이닝 알고리즘들은 여러 가지 심각한 문제점들을 내포하고 있는데 이는 특히 대량의 트리 데이터집합을 대상으로 했을 때는 더 심각해 진다. 주요하게 발생하는 문제점들로는, (1) 계층적 트리 구조의 데이터 모델링, (2) 후보군 유지를 위한 고비용 계산, (3) 반복적인 입력 데이터 집합 스캔, (4) 높은 메모리 의존성이 대표적이다. 이런 문제점들을 발생하게 하는 주요 원인은, 대부분의 기존 알고리즘들이 apriori 방식에 근거하고 있다는 점과 후보군 생성과 빈발 횟수 집계에 anti-monotone 원리를 적용한다는 점에 기인한다. 언급한 문제들을 해결하기 위해, 본 저자들은 apriori 방식 대신pattern-growth 방식을 기반으로 하며, 빈번 서브트리 추출 대신 최대 빈번 서브트리 추출을 목적으로 한다. 이를 통해 제안된 방법은, 빈번하지 않은 서브트리들을 제거하는 과정 자체를 배제할 뿐만 아니라, 후보군 트리들을 생성하는 과정 또한 전혀 수행하지 않음으로써 전체 마이닝 과정을 상당히 개선한다. The most commonly adopted approach to find valuable information from tree data is to extract frequently occurring subtree patterns from them. Because mining frequent tree patterns has a wide range of applications such as xml mining, web usage mining, bioinformatics, and network multicast routing, many algorithms have been recently proposed to find the patterns. However, existing tree mining algorithms suffer from several serious pitfalls in finding frequent tree patterns from massive tree datasets. Some of the major problems are due to (1) modeling data as hierarchical tree structure, (2) the computationally high cost of the candidate maintenance, (3) the repetitious input dataset scans, and (4) the high memory dependency. These problems stem from that most of these algorithms are based on the well-known apriori algorithm and have used anti-monotone property for candidate generation and frequency counting in their algorithms. To solve the problems, we base a pattern-growth approach rather than the apriori approach, and choose to extract maximal frequent subtree patterns instead of frequent subtree patterns. The proposed method not only gets rid of the process for infrequent subtrees pruning, but also totally eliminates the problem of generating candidate subtrees. Hence, it significantly improves the whole mining process.
지능형 지식서비스를 위한 의미기반 XML 마이닝 시스템 연구
백주련(Juryon Paik),김진영(Jinyeong Kim) 한국컴퓨터정보학회 2018 한국컴퓨터정보학회 학술발표논문집 Vol.26 No.2
XML을 대상으로 하는 연구가 최근 5~6년 사이에 꾸준한 증가를 보이며 이루어지고 있지만 대다수의 연구들은 XML을 구성하고 있는 엘리먼트 자체에 대한 통계적인 모델을 기반으로 이루어졌다. 이는 XML의 고유 속성인 트리 구조에서의 텍스트, 문장, 문장 구성 성분이 가지고 있는 의미(semantics)가 명시적으로 분석, 표현되어 사용되기 보다는 통계적인 방법으로만 데이터의 발생을 계산하여 사용자가 요구한 질의에 대한 결과, 즉 해당하는 정보 및 지식을 제공하는 형식이다. 지능형 지식서비스 제공을 위한 환경에 부합하기 위한 정보 추출은, 텍스트 및 문장의 구성 요소를 분석하여 문서의 내용을 단순한 단어 집합보다는 풍부한 의미를 내포하는 형식으로 표현함으로써 보다 정교한 지식과 정보의 추출이 수행될 수 있도록 하여야 한다. 본 연구는 범람하는 XML 데이터로부터 사용자 요구의 의미까지 파악하여 정확하고 다양한 지식을 추출할 수 있는 방법을 연구하고자 한다. 레코드 구조가 아닌 트리 구조 데이터로부터 의미 추출이 가능한 효율적인 마이닝 기법을 진일보시킴으로써 다양한 사용자 중심의 서비스 제공을 최종 목적으로 한다.
백주련(Juryon Paik) 한국디지털콘텐츠학회 2018 한국디지털콘텐츠학회논문지 Vol.19 No.4
Abstract In 2017, it has been reported that Google had more than 90% of the market share in search-engines of desktops and mobiles. Most people may consider that Google surely searches the entire web area. However, according to many researches for web data, Google only searches less than 10%, surprisingly. The most region is called the Deep Web, and it is indexable by special search engines, which are different from Google because they focus on a specific segment of interest. Those engines build their own deep-web databases and run particular algorithms to provide accurate and professional search results. There is no search engine that indexes the entire Web, currently. The best way is to use several search engines together for broad and efficient searches as best as possible. This paper defines that kind of search engine as Hybrid Search Engine and provides characteristics and differences compared to conventional search engines, along with a frame of hybrid search engine.
백주련(Juryon Paik),김진영(Jinyoung Kim) 한국컴퓨터정보학회 2019 한국컴퓨터정보학회 학술발표논문집 Vol.27 No.2
사물인터넷(IoT)은 지금의 우리가 살고 일하는 모든 방식을 변화시키고 있다. IoT를 통해 데이터를 생성하고 저장하고 연결된 장치와 상호작용하여 비즈니스는 물론 우리의 일상 생활을 개선하고 있는 것이다. 무수히 많은 센서들이 연결된 세상은 센서들에 의해 그 어느 때보다 거대한 양의 데이터들을 생산하고 있다. JSON, XML 같은 트리 구조의 데이터 타입은 대량 데이터 저장 · 전송 · 교환 등에 주요하게 사용되는데 이는 트리 구조가 이형 데이터 간의 유연한 정보 전송과 교환을 가능하게 하기 때문이다. 반면에, 효용성 높은 정보나 감추어져 있는 정보들을 트리 구조의 대량 데이터들로부터 추출하는 것은 일반 데이터 구조에 비해 훨씬 어려우며 더 난해한 문제들을 발생시킨다. 본 논문에서는 트리 구조의 대량 스트리밍 데이터로부터 가중치가 부여된 주요한 부정 패턴들을 추출하기 위한 방법을 공식화한다.
스트리밍 빅데이터의 프라이버시 보호 동반 실용적 분석을 통한 지식 활용과 재사용 연구
백주련,이영숙,Paik, Juryon,Lee, Youngsook 디지털산업정보학회 2016 디지털산업정보학회논문지 Vol.12 No.3
The current meaning of "Big Data" refers to all the techniques for value eduction and actionable analytics as well management tools. Particularly, with the advances of wireless sensor networks, they yield diverse patterns of digital records. The records are mostly semi-structured and unstructured data which are usually beyond of capabilities of the management tools. Such data are rapidly growing due to their complex data structures. The complex type effectively supports data exchangeability and heterogeneity and that is the main reason their volumes are getting bigger in the sensor networks. However, there are many errors and problems in applications because the managing solutions for the complex data model are rarely presented in current big data environments. To solve such problems and show our differentiation, we aim to provide the solution of actionable analytics and semantic reusability in the sensor web based streaming big data with new data structure, and to empower the competitiveness.
옥지웅 ( Jeewoong Ok ),백주련 ( Juryon Paik ),김응모 ( Ungmo Kim ) 한국정보처리학회 2006 한국정보처리학회 학술대회논문집 Vol.13 No.2
연관규칙 (Association rule) 마이닝은 무수히 많은 데이터로부터 유용한 정보만을 뽑아내어 실생활에 적용하여 이점을 얻게 하는 데이터마이닝의 가장 핵심적인 연구분야이다. 마켓 기반 데이터들로부터 고객들의 구매유형을 분석하여 적절한 판매전략을 세우거나 기업 데이터로부터 특정 업무와 관련된 의사결정을 지원하는 등의 일이 모두 연관규칙을 기반으로 한다. 그러나 대부분의 연관규칙들은 시간을 고려하지 않는 않거나, 순차패턴만을 고려해왔다. 따라서 하루중 특정 규칙이 발생되지 않는 시간대에도 그 규칙에 대한 불필요한 노력이 있었다. 본 논문에서는 추출된 연관규칙들과 각 트랜잭션에 부여한 시간 정보를 분석하여 특정 항목 (Item) 집합들 간의 연관규칙이 빈번하게 발생하는 시간대를 추출한다. 추출된 시간 정보를 이용하여 시간대별 유용한 판매 전략을 세움으로써, 상품 판매를 극대화하고자 한다.