http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
빅데이터 환경에서 스트림 질의 처리를 위한 인메모리 기반 점진적 처리 기법
복경수(Kyoungsoo Bok),육미선(Misun Yook),노연우(Yeonwoo Noh),한지은(Jieun Han),김연우(Yeonwoo Kim),임종태(Jongtae Lim),유재수(Jaesoo Yoo) 한국콘텐츠학회 2016 한국콘텐츠학회논문지 Vol.16 No.2
최근 대용량의 스트림 데이터를 분산 처리하기 위한 연구들이 진행되고 있다. 본 논문에서는 빅데이터 환경에서 실시간 스트림 데이터의 점진적 처리 기법을 제안한다. 제안하는 기법은 처음 스트림 데이터가 입력되면 임시 큐에 데이터를 저장하고 마스터 노드에 저장되어 데이터와 비교과정을 통해 마스터 노드에 동일한 데이터가 있는 경우 마스터 노드에서 가지고 있는 노드의 정보를 이용하여 해당 노드의 메모리에서 기존 처리 결과를 재사용한다. 기존 처리 결과가 없다면 처리하고 처리 결과를 메모리에 저장한다. 분산환경에서 점진적인 스트리밍 데이터 처리를 위해 노드의 작업 지연을 계산하여 노드의 부하를 파악하고 처리 시간 계산을 통해 각 노드의 성능을 고려한 잡 스케쥴링 기법을 제안한다. 제안하는 기법의 우수성을 보이기 위해 기존 기법과의 질의 수행 시간 비교를 위한 성능평가를 수행한다. Recently, massive amounts of stream data have been studied for distributed processing. In this paper, we propose an incremental stream data processing method based on in-memory in big data environments. The proposed method stores input data in a temporary queue and compare them with data in a master node. If the data is in the master node, the proposed method reuses the previous processing results located in the node chosen by the master node. If there are no previous results of data in the node, the proposed method processes the data and stores the result in a separate node. We also propose a job scheduling technique considering the load and performance of a node. In order to show the superiority of the proposed method, we compare it with the existing method in terms of query processing time. Our experimental results show that our method outperforms the existing method in terms of query processing time.
복경수(kyoungsoo Bok),한지은(Jieun Han),노연우(Yeonwoo Noh),육미선(Misun Yook),임종태(Jongtae Lim),이석희(Seok-Hee Lee),유재수(Jaesoo Yoo) 한국콘텐츠학회 2016 한국콘텐츠학회논문지 Vol.16 No.2
프로버넌스 데이터는 데이터의 근원 정보나 변경 이력을 표현하는 메타데이터이다. 프로버넌스 정보는 변경 이력 정보가 쌓이면서 원본데이터와 비교하여 수십 배에 달하는 양을 차지한다. 따라서 대용량의 프로버넌스 데이터를 효율적으로 압축하기 위한 기법이 요구된다. 본 논문에서는 RDF 그래프 패턴을 고려한 프로버넌스 압축 기법을 제안한다. 제안하는 기법은 표준 PROV 모델을 기반으로 프로버넌스를 표현하고 텍스트 인코딩을 통해 프로버넌스 데이터를 숫자로 인코딩한다. 그래프 패턴을 이용하여 RDF 데이터와 프로버넌스 데이터를 압축한다. 제안하는 기법은 기존 프로버넌스 압축 기법과는 달리 시맨틱 웹상의 RDF 문서를 고려하여 프로버넌스 데이터를 압축한다. 압축률, 처리시간에 대한 성능 평가를 통해 제안하는 기법의 우수성을 증명한다. Provenance means the meta data that represents the history or lineage of a data in collaboration storage environments. Therefore, as provenance has been accruing over time, it takes several ten times as large as the original data. The schemes for effciently compressing huge amounts of provenance are required. In this paper, we propose a provenance compression scheme considering the RDF graph patterns. The proposed scheme represents provenance based on a standard PROV model and encodes provenance in numeric data through the text encoding. We compress provenance and RDF data using the graph patterns. Unlike conventional provenance compression techniques, we compress provenance by considering RDF documents on the semantic web. In order to show the superiority of the proposed scheme, we compare it with the existing scheme in terms of compression ratio and the processing time.
소셜 네트워크에서 사용자의 영향력을 고려한 핫 토픽 예측 기법
노연우(Yeon-woo Noh),김대윤(Dae-yun Kim),한지은(Jieun Han),육미선(Misun Yook),임종태(Jongtae Lim),복경수(Kyoungsoo Bok),유재수(Jaesoo Yoo) 한국콘텐츠학회 2015 한국콘텐츠학회논문지 Vol.15 No.8
최근 실시간으로 생성되는 대용량의 SNS 데이터로부터 유의미한 정보를 찾아내고 분석하는 것이 중요해지면서 핫 토픽 검출에 대한 관심도 크게 증가하고 있다. SNS 특성상 사전 확인이 이루어지지 않은 불특정 다수의 글들을 대상으로 하기 때문에 이 글들을 대상으로 핫 토픽을 예측했을 때 결과의 신뢰성이 저하된다는 문제점이 있다. 이를 해결하기 위하여 본 논문에서는 소셜 네트워크에서 사용자의 영향력을 고려한 신뢰성 높은 핫 토픽 예측 기법을 제안한다. 트위터를 기반으로 변형된 TF-IDF 알고리즘을 통하여 순간적으로 많이 이슈화되는 키워드 후보 집합을 추출하고, 트윗에 사용자 영향력을 가중치로 부여함으로써 핫 토픽 예측 결과의 신뢰성을 높인다. 제안하는 기법의 우수성을 보이기 위해 기존 기법과 제안하는 기법의 성능평가를 수행한다. 성능평가 결과, 제안하는 기법은 기존 기법에 비해 정확도, 재현율 모두 향상됨을 확인하였다. Recently, interests in detecting hot topics have been significantly growing as it becomes important to find out and analyze meaningful information from the large amount of data which flows in from social network services. Since it deals with a number of random writings that are not confirmed in advance due to the characteristics of SNS, there is a problem that the reliability of the results declines when hot topics are predicted from the writings. To solve such a problem, this paper proposes a high reliable hot topic prediction scheme considering user influences in social networks. The proposed scheme extracts a set of keywords with hot issues instantly through the modified TF-IDF algorithm based on Twitter. It improves the reliability of the results of hot topic prediction by giving weights of user influences to the tweets. To show the superiority of the proposed scheme, we compare it with the existing scheme through performance evaluation. Our experimental results show that our proposed method has improved precision and recall compared to the existing method.