http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
크라우드소싱 기반 문장재구성 방법을 통한 의견 스팸 데이터셋 구축 및 평가
이성운(Seongwoon Lee),김성순(Seongsoon Kim),박동현(Donghyeon Park),강재우(Jaewoo Kang) 한국정보과학회 2016 정보과학회 컴퓨팅의 실제 논문지 Vol.22 No.7
웹이 정보 교환의 주된 수단으로 사용되면서, 온라인 리뷰의 중요도가 증가하는 동시에 사용자의 올바른 의사결정을 저해하는 의견 스팸 이슈가 부각되고 있으며, 관련 연구가 활발하게 진행되고 있다. 하지만 분석 및 학습에 필요한 기준 데이터셋의 부족함과 한계점들은 관련 연구의 발전을 더디게 하고 있다. 본 논문에서는 사실 리뷰를 모사한 새로운 형태의 Paraphrased Opinion Spam(POS) 데이터셋을 소개한다. 우리는 실제 스패머들이 스팸을 작성할 때 실제 리뷰를 참고한다는 경향에 착안하여, 실제 리뷰어들이 작성한 리뷰를 의역하는 과정을 통하여 본문에 포함되어 있는 사실 정보와 경험을 담은 스팸 데이터셋을 생성하였다. 실험 결과, 새롭게 생성된 POS 데이터셋이 언어학적으로 실제 리뷰들과 유사하여 스팸분류 모델을 이용하여 분류 시 기존의 데이터셋들보다 더 분류하기 힘들다는 것을 발견했다. 또한 데이터의 학습량에 따라서 스팸 리뷰의 분류 정확도가 비례적으로 증가하는 것을 확인함으로써, 데이터의 양이 스팸 분류 모델 성능에 중요한 요소로 작용한다는 것을 확인할 수 있었다. Today, opinion reviews on the Web are often used as a means of information exchange. As the importance of opinion reviews continues to grow, the number of issues for opinion spam also increases. Even though many research studies on detecting spam reviews have been conducted, some limitations of gold-standard datasets hinder research. Therefore, we introduce a new dataset called “Paraphrased Opinion Spam (POS)" that contains a new type of review spam that imitates truthful reviews. We have noticed that spammers refer to existing truthful reviews to fabricate spam reviews. To create such a seemingly truthful review spam dataset, we asked task participants to paraphrase truthful reviews to create a new deceptive review. The experiment results show that classifying our POS dataset is more difficult than classifying the existing spam datasets since the reviews in our dataset more linguistically look like truthful reviews. Also, training volume has been found to be an important factor for classification model performance.
이철성(Cheolseong Lee),최동희(Donghee Choi),김성순(Seongsoon Kim),강재우(Jaewoo Kang) 한국정보과학회 2013 정보과학회논문지 : 데이타베이스 Vol.40 No.3
지금까지 국내에서는 우리말을 이용하여 긍?부정을 판단하는 감성분석연구(sentiment analysis)가 주를 이뤘고, 여러 감정으로 분류하는 감정분석연구(emotion analysis)는 진행되지 않았다. 이에 본 연구에서는 한글 문서를 기반으로 기계학습 모델을 적용하여 7개의 감정으로 분류하고 그 결과를 영화평에 적용하여 영화 장르별 감정특성을 분석하였다. 본 연구에 적용한 기계학습 모델 중 ‘다항 네이브 베이즈(Multinomial Naive Bayes) 모델이 가장 높은 정확도를 보였다. 이 모델을 ‘네이버 40자 영화평’에 적용하여 영화 100편에 해당하는 영화평의 감정을 분류하고, 요인분석(factor analysis)하였다. 그 결과, ‘생동감’과 ‘우울’이 상반되는 감정임을 알 수 있었고, 영화평에 나타난 ‘친근감’은 영화의 평점에 긍정적인 영향을 미치고, ‘분노’, ‘혼란’, ‘피로감’은 부정적인 영향을 미치는 것으로 나타났다. 반면에 ‘생동감’과 ‘우울’은 영화의 평점에 영향을 미치지 않은 것으로 나타났다. 또한, 단일감정을 특성으로 하는 4개의 장르 즉, 공포-‘긴장감’, 코미디-‘생동감’, 멜로/애정/로맨스-‘친근감’, 범죄-‘혼란’이 영화 장르별 감정 특성으로 나타났다. 트위터(Twitter)로부터 수집한 데이터를 이용하여 ‘네이버 40자 영화평’에 적용한 이번 연구는 데이터의 성격을 넘어, 본 연구에서 제안한 방법이 실제 응용분야에서 적용 가능함을 보여준다. Recent studies in Korean sentiment analysis mostly focus on binary classification such as ‘positive’ or ‘negative’. However, there are few researches have discussed on emotion analysis which involves classifying opinions into multiple categories. In this paper, we have developed machine learning models based on Korean document and applied these classifiers to movie reviews to extract emotional features of various movie genres. We used Multinominal Naive Bayes model which shows best classification accuracy. Employing this model, we performed factor analysis on the movie review dataset distributed by “Naver” for 100 movies. The experimental result shows that ‘vigor’ and ‘depression’ are opposite emotions. Meanwhile, ‘friendliness’ positively influences on movie rating, by contrast, ‘anger’, ‘confusion’ and ‘fatigue’ affect negatively. Also we have found 4 movie genres which has single emotional feature as follows: horror-‘anxiety’, comedy-‘vigor’, romance/love-‘friendliness’ and crime-‘confusion’. Finally, cross-corpus evaluation using “Twitter” and “Naver” movie review dataset demonstrates that our proposed method can be applicable in practical applications over various data attributes.
심해저 광물자원 양광시스템 실증 시험을 위한 위험도 기반 선상 설비 설계
조수길(Su-gil Cho),박상현(Sanghyun Park),오재원(Jaewon Oh),민천홍(Cheonhong Min),김성순(Seongsoon Kim),김형우(Hyung-Woo Kim),여태경(Tae Kyung Yeu),정정열(Jung Yeul Jung),배재일(Jaeil Bae),홍섭(Sup Hong) 한국해양공학회 2016 韓國海洋工學會誌 Vol.30 No.6
This study had the goal of designing onboard structures for a pre-pilot mining test (PPMT), which is required for the commercialization of the deep-sea mining industry. This PPMT is planned to validate the performance of a hydraulic lifting system and verify the concept of operating through a moon-pool in the east sea, Korea. All of the onboard equipment and facility were designed by KRISO. Because the test was performed at the first development, it is difficult to determine what risk will occur in the facility. Therefore, risk-based design is required in the facility for the PPMT, which includes the facility layout, failure mode and effect analysis (FMEA), and risk reduction plan. All of the expected performances of the lifting system itself and the onboard facilities were qualitatively validated using the risk-based design.