RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        k-Structure를 이용한 한국어 상품평 단어 자동 추출 방법

        강한훈(Hanhoon Kang),유성준(Seong Joon Yoo),한동일(Dongil Han) 한국정보과학회 2010 정보과학회논문지 : 소프트웨어 및 응용 Vol.37 No.6

        감정어 추출과 관련하여 기존 영어권 연구에서 제시된 방법의 대부분은 한국어에 직접 적용이 쉽지 않다. 한국어권 연구에서 제시된 방법 중 수작업에 의한 방법은 감정어 추출에 많은 시간이 걸린다는 문제점이 있다. 영어 시소러스 기반 한국어 감정어 추출 기술은 한국어와 영어 단어간 일대일 부정합에서부터 기인하는 정확도의 저하를 제고해야 하는 과제를 갖고 있다. 한국어 구문 분석기를 기반으로 한 연구는 출현 빈도가 낮은 감정어를 선정하지 못할 수 있는 문제점을 내포하고 있다. 본 논문에서는 한국어 상품평 중 단순한 문장에서 감정어를 자동으로 추출하는 데 있어 기존에 제안된 한국어권 연구에 상호 보완적으로 정확도를 향상시킬 수 있는 k-Structure(k=5 또는 8) 기법을 제안한다. 단순한 문장이라 함은 패턴 길이를 최대 3으로 한다. 이는 평가 대상 상품(예를 들어 ‘카메라’)의 속성 명 f (예를 들어 카메라의 ‘배터리’)를 기준으로 ±2의 거리에 감정어가 포함되어 있는 문장을 의미한다. 성능 실험은 국내 주요 쇼핑몰로부터 수집한 1,868개의 상품평을 대상으로 미리 주어진 8개의 속성 명에 대한 감정어를 k-Structure를 이용하여 자동으로 추출하고 그 정확도를 평가하였다. 그 결과, k=5일 경우 평균 79.0%의 재현률, 87.0%의 정확률을 보였고, k=8일 경우 평균 92.35%의 재현률, 89.3%의 정확률을 얻을 수 있었다. 또한, 영어권 연구에서 제안된 방법 중 PMI-IR(Pointwise Mutual Information-Information Retrieval) 기법을 이용하여 실험을 수행하였다. 이 결과, 평균 55%의 재현률과 57%의 정확률을 보였다. In relation to the extraction of opinion words, it may be difficult to directly apply most of the methods suggested in existing English studies to the Korean language. Additionally, the manual method suggested by studies in Korea poses a problem with the extraction of opinion words in that it takes a long time. In addition, English thesaurus-based extraction of Korean opinion words leaves a challenge to reconsider the deterioration of precision attributed to the one to one mismatching between Korean and English words. Studies based on Korean phrase analyzers may potentially fail due to the fact that they select opinion words with a low level of frequency. Therefore, this study will suggest the k-Structure (k=5 or 8) method, which may possibly improve the precision while mutually complementing existing studies in Korea, in automatically extracting opinion words from a simple sentence in a given Korean product review. A simple sentence is defined to be composed of at least 3 words, i.e., a sentence including an opinion word in ±2 distance from the attribute name (e.g., the 'battery' of a camera) of a evaluated product (e.g., a 'camera'). In the performance experiment, the precision of those opinion words for 8 previously given attribute names were automatically extracted and estimated for 1,868 product reviews collected from major domestic shopping malls, by using k-Structure. The results showed that k=5 led to a recall of 79.0% and a precision of 87.0%; while k=8 led to a recall of 92.35% and a precision of 89.3%. Also, a test was conducted using PMI-IR (Pointwise Mutual Information - Information Retrieval) out of those methods suggested in English studies, which resulted in a recall of 55% and a precision of 57%.

      • KCI등재

        다양한 계층 트리 구조를 갖는 쇼핑몰 상에서의 상품평 수집을 위한 웹 크롤러 래퍼의 설계 및 구현

        강한훈(Hanhoon Kang),유성준(Seong Joon Yoo),한동일(Dongil Han) 한국지능시스템학회 2010 한국지능시스템학회논문지 Vol.20 No.3

        본 논문에서는 다 계층 구조와 다양한 웹 언어로 구성된 한국내 쇼핑몰로부터 상품평 수집을 위한 래퍼 데이터베이스 기술 언어 및 모델을 제안한다. 기존에 제안된 래퍼 기반 웹 크롤러는 HTML 문서를 수집할 수 있고, 수집 대상으로 하는 문서의 계층 구조는 2∼3계층이다. 그러나 한국형 쇼핑몰 사이트는 HTML 문서뿐만 아니라 다양한 웹 언어(JavaScript, Flash, AJAX)로 구성되어 있고, 그 계층 또한 5계층으로 이루어졌다. 웹크롤러가 이 5 계층 사이트에 있는 상품평만을 수집하려고 하면 상품평이 있는 위치를 정확히 알고 있으면 된다. 우리가 제안하는 래퍼에는 이러한 정보를 포함하고 있도록 하였고, 이러한 정보를 기술하기 위해 필요한 래퍼 데이터 기술 문법도 제안한다. In this study, the wrapper database description language and model is suggested to collect product reviews from Korean shopping malls with multi-layer structures and are built in a variety of web languages. Above all, the wrapper based web crawlers have the website structure information to bring the exact desired data. The previously suggested wrapper based web crawler can collect HTML documents and the hierarchical structure of the target documents were only 2-3 layers. However, the Korean shopping malls in the study consist of not only HTML documents but also of various web language (JavaScript, Flash, and AJAX), and have a 5-layer hierarchical structure. A web crawler should have information about the review pages in order to visit the pages without visiting any non-review pages. The proposed wrapper contains the location information of review pages. We also propose a language grammar used in describing the location information.

      • 전문 분야 정보검색 시스템을 위한 웹크롤러 래퍼의 설계 및 구현

        강한훈(Hanhoon Kang),유성준(Seong Joon Yoo),한동일(Dongil Han) 한국지능시스템학회 2010 한국지능시스템학회 학술발표 논문집 Vol.20 No.2

        본 논문에서는 전문 분야 검색 시스템을 위한 웹 크롤러 래퍼를 설계하고 구현한다. 이른바 버티컬 검색이라 불리우는 전문 분야 검색은 통합 검색에서의 다양한 정보가 특정 사용자의 검색 요구를 만족시켜주지 못하여 검색 정확률이 떨어질 수 있는 문제를 해결해준다. 일반적으로 통합 검색에서 검색 결과로 제공해주기 위한 정보는 웹크롤러를 통해 수집한다. 전문 검색 시스템에서도 웹크롤러 통해 특정 분야의 정보를 수집하여야 한다. 그러나 기존의 통합 검색에서 사용되던 웹크롤러와 달리 전문 분야의 데이터를 수집하기 위해 래퍼를 기반으로 하는 웹크롤러의 설계가 필요하다. 본 논문에서는 음식점 분야 검색 시스템을 위해 해당 분야의 데이터를 수집하는 래퍼기반 웹크롤러를 설계하고 구현한다. 아울러, 정보를 수집하는 과정에서 데이터의 중복성 문제를 해결하기 위한 방법을 제시한다.

      • Support Vector Machine을 이용한 개인 사용자 선호 의상 추천

        강한훈(Hanhoon Kang),유성준(SeongJoon Yoo) 한국정보과학회 2006 한국정보과학회 학술발표논문집 Vol.33 No.2C

        본 논문에서는 의상에 대한 사용자 선호도를 찾아내는 기법에 대하여 기술한다. 의사에 대한 사용자 선호도를 찾기 위해서 의상 데이터에 대해 데이터 모델을 새롭게 제안한다. 이 데이터 모델을 기반으로 사용자의 의상관련 히스토리를 저장한다. 이렇게 저장된 히스토리 정보에 기계 학습 기법 중 최근 각광받고 있는 SVM 기법을 적용하여 사용자 선호도를 찾아내도록 하였다. 이 결과를 다른 학습 기법인 Naive Bayes 기법을 사용하여 의상에 대한 사용자 선호도를 검색한 성능과 비교하여 우리 모델이 더 좋다는 것을 확인하였다. 우리는 5명의 사용자에 대해서 동일한 취향을 갖는 사용자가 몇 명인지에 따라 A(모두 다름), B(2명), C(3명), D(4명), E(모두 같음) 형태별, 사용자별 1000건의 히스토리를 일정한 기준에 따라 생성했다. 그리고 이 중에서 900건을 학습용 데이터, 100건을 검증용 데이터로 선정하여 실험이 진행되었다.

      • 상품 리뷰의 속성별 긍정/부정 분류 시스템의 설계 및 구현

        강한훈(Hanhoon Kang),유성준(Seong Joon Yoo),한동일(Dongil Han) 한국정보과학회 2009 한국정보과학회 학술발표논문집 Vol.36 No.2C

        최근에는 상품 단위의 오피니언 마이닝 뿐만 아니라 상품의 속성 단위까지 오피니언 마이닝에 대한 연구가 진행 중이다. 상품 단위의 오피니언 마이닝 분야에서는 주로 기계학습 기법이 활용되며, 상품의 속성 단위 오피니언 마이닝 분야에서는 상품 평의 패턴을 활용하는 기법이 있다. 후자는 하나의 오피니언 문장이 미리 구축해놓은 상품 평 패턴 DB에 있는 패턴과 일치되면 그에 따라 긍정 또는 부정으로 분류하는 기법을 말한다. 본 논문에서는 상품 평 패턴 데이터베이스를 이용하여 쇼핑몰에 게재된 각종 상품에 대한 사용자들의 의견을 상품의 속성별로 긍정과 부정으로 분류하는 시스템을 설계 및 구현한다. 이를 위해 국내 주요 쇼핑몰 3곳의 사이트로부터 4가지 카테고리에 대한 65,000건의 상품 평을 수집하였고, 4단계의 과정을 통해 상품의 속성별 평가 문장을 긍정과 부정으로 분류 한다. 4단계는 (1)품사 태깅, (2)속 성명 기준 전/후 패턴 추출, (3) 패턴 일치 검사, (4)상품 속성별 긍정/부정 분류이다. 각 사이트로부터 추출된 상품 평 패턴은 범용성을 증명하기 위해 3곳 사이트의 패턴에 대해서 교차적으로 일치 실험을 수행하였다. 그 결과 상품 평 패턴이 평균적으로 92% 유사한 것으로 밝혀졌다.

      • PMI-IR 기법을 이용한 한국어 감정어 자동 추출 및 성능 개선 방법

        강한훈(Hanhoon Kang),유성준(Seong Joon Yoo),한동일(Dongil Han) 한국지능시스템학회 2010 한국지능시스템학회 학술발표 논문집 Vol.20 No.1

        본 논문에서는 한국어 상품평으로부터 제품의 속성명과 관련된 감정어를 찾기 위해 기존 영어권 연구에서 제안한 방법 중 PMI-IR 수식을 적용하고, 성능을 개선시키기 위해 질의어를 확장한다. 예를 들어, ‘모니터의 화질이 선명합니다’ 라는 상품평에서 제품의 속성명은 ‘화질’ 이고, 감정어는 ‘선명합니다’ 이다. PMI-IR 수식은 검색 엔진에 제품의 속성명과 감정어를 함께 질의하였을 때 결과로 나온 문서의 수를 이용하여 두 질의어간 상호 관련성 점수를 계산한다. 본 논문에서는 네이버 웹문서, 알타비스타, 구글 검색 엔진을 이용하여 미리 주어진 8개의 속성명과 42개의 감정어를 대상으로 점수를 계산하고 각 속성별로 내림 차순 정렬하여 상위 N 순위에 해당하는 감정어를 해당 속성명의 감정어로 취급하여 재현률과 정확률을 평가하였다. 실험 결과 59%의 평균 정확률과 52%의 평균 재현율을 보였다. 아울러 상품평과 관련된 문서를 검색하여 성능을 개선시키기 위해 해당 문서에서 사용될 수 있는 4개의 단어(‘리뷰’, ‘상품’, ‘구매’, ‘스펙’)를 속성명, 감정어와 함께 PMI-IR 수식의 추가 질의어로 선정하여 사용했다, 질의어를 확장하여 실험한 결과, 64%의 평균 정확률, 67%의 평균 재현율을 보였다. 이로써 재현율에 있어 11%, 정확률에 있어 5.1% 향상되었다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼