RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        이질적 색인어의 가중치 합에 기반한 수식 검색 시스템

        신준수(Junsoo Shin),김학수(Harksoo Kim) 한국정보과학회 2010 정보과학회논문지 : 소프트웨어 및 응용 Vol.37 No.10

        다양한 수식을 포함하는 수학 문서들을 효과적으로 검색하기 위해서는 수식 인지 검색 엔진이 필요하다. 본 논문에서는 구조적으로 유사한 수식들을 효과적으로 찾아주는 수식 검색 시스템을 제안한다. 제안 시스템은 MathML 수식들을 연산자, 변수, 그리고 수식 구조와 같은 3가지 형태의 이질적 색인어로 분리하고 독립적으로 색인한다. 사용자가 MathML 수식을 입력하면 제안 시스템은 이질적인 색인어들을 위한 3가지 언어모델들의 가중치 합을 이용하여 수식들을 검색하고 순위화한다. 244,824개의 MathML 수식을 대상으로 한 실험에서 제안 시스템은 비공개 테스트에서 53%의 1순위 정확률, 공개 테스트에서 63%의 1순위 정확률을 보였다. To effectively retrieve mathematical documents including various equations, mathaware search engines are needed. In this paper, we propose a equation retrieval system which helps users effectively search structurally similar equations. The proposed system disassembles MathML equations into three types of heterogeneous indexing terms; operators, variables, and partial structures of equations. Then, it independently indexes the disassembled terms. When a user inputs a MathML equation, the proposed system searches and ranks equations using weighted sums of three language models for the heterogeneous indexing terms. In the experiments with 244,744 MathML equations, thre proposed system showed reliable performances (a P@1 of 53% in the closed test and a P@1 of 63% in the open test).

      • 수학 기호의 특성에 기반한 수학식 검색

        신준수(Junsoo Shin),이세희(Sehee Lee),김학수(Harksoo Kim) 한국정보과학회 2009 한국정보과학회 학술발표논문집 Vol.36 No.2C

        인터넷의 빠른 보급과 함께 정보 검색이 대중화 되면서 생활 곳곳에 검색 시스템이 사용되고 있다. 특수한 목적에 최적화된 검색기가 계속해서 등장하면서 사용자들의 검색에 대한 만족도가 높아지고 있다. 그러나 수학식 검색에 관련된 연구는 아직 미비한 실정이다. 일반적인 텍스트 기반의 검색기를 사용하여 원하는 수학식을 찾기는 어렵다. 이러한 이유에서 본 논문에서는 수학식을 전문적으로 검색하는 시스템을 제안한다. 검색이 가장 많이 요구되는 곳은 웹(web)이기 때문에 본 논문에서는 웹에서 수학식 표현을 효과적으로 표현할 수 있는 MathML(Mathematical Markup Language)을 기반으로 한다. 제안하는 시스템은 색인, 랭킹으로 이루어진다. 색인 단계에서는 MathML로부터 수학식의 구조, 변수, 연산자를 추출하여 사용한다. 랭킹 단계에서는 MathML 태그를 사용하여 질의어의 구조, 변수, 연산자를 사용하여 실제 질의어와 가장 유사한 수학식을 검색한다. 실험은 검색 결과의 상위 10개의 precision 및 상위 5개의 precision을 측정한다. 실험 결과 수학식의 질의어에 따라 P@10에서는 최대 90%, 최소 26%의 성능을 보였으며 시스템의 평균 성능은 51.6%였다. P@5에서는 최대 100%, 최소 48%의 성능을 보였으며 시스템의 평균성능은 71.2%였다.

      • KCI등재

        강건한 한국어 상품평의 감정 분류를 위한 패턴 기반 자질 추출 방법

        신준수(Junsoo Shin),김학수(Harksoo Kim) 한국정보과학회 2010 정보과학회논문지 : 소프트웨어 및 응용 Vol.37 No.12

        기계 학습 기반의 많은 감정 분류 시스템들은 문장으로부터 언어적 자질을 추출하기 위하여 형태소 분석기를 사용한다. 그러나 온라인 상품평에는 많은 띄어쓰기 오류 및 철자 오류가 포함되어 있어서 일반적으로 형태소 분석기가 좋은 성능을 내기 어려우며, 기반 시스템의 낮은 성능은 감정 분류 시스템의 성능하락을 초래한다. 이러한 문제를 해결하기 위하여 본 논문에서는 어절 패턴과 음운 패턴의 최장일치 매칭(matching)에 기반한 자질 추출 방법을 제안한다. 두 종류의 패턴은 대용량의 품사 부착 말뭉치로부터 자동으로 구축된다. 어절 패턴은 명사, 동사와 같은 내용어를 포함하는 어절들로 구성되며, 음운 패턴은 동사나 형용사와 같은 용언의 초성과 중성의 쌍으로 구성된다. 음운 패턴에 초성과 중성만을 사용한 이유는 철자 오류에 영향을 덜 받기 때문이다. 제안 방법을 평가하기 위하여 SVM(Support Vector Machine)을 기계 학습기로 사용하는 감정 분류 시스템을 구현하였다. 한국어 상품평에 대한 실험에서 제안 방법을 자질 추출 모듈로 사용하는 감정 분류 시스템이 형태소 분석기를 사용하는 것보다 우수한 성능을 보였다. Many sentiment categorization systems based on machine learning methods use morphological analyzers in order to extract linguistic features from sentences. However, the morphological analyzers do not generally perform well in a customer review domain because online customer reviews include many spacing errors and spelling errors. These low performances of the underlying systems lead to performance decreases of the sentiment categorization systems. To resolve this problem, we propose a feature extraction method based on simple longest matching of Eojeol (a Korean spacing unit) and phoneme patterns. The two kinds of patterns are automatically constructed from a large amount of POS (part-of-speech) tagged corpus. Eojeol patterns consist of Eojeols including content words such as nouns and verbs. Phoneme patterns consist of leading consonant and vowel pairs of predicate words such as verbs and adjectives because spelling errors seldom occur in leading consonants and vowels. To evaluate the proposed method, we implemented a sentiment categorization system using a SVM (Support Vector Machine) as a machine learner. In the experiment with Korean customer reviews, the sentiment categorization system using the proposed method outperformed that using a morphological analyzer as a feature extractor.

      • 음절 바이그램과 CRFs를 이용한 의학 전문 용어 추출

        송수민 ( Soo-min Song ),신준수 ( Junsoo Shin ),김학수 ( Harksoo Kim ) 한국정보처리학회 2010 한국정보처리학회 학술대회논문집 Vol.17 No.1

        웹(Web)상에 전문용어를 포함한 문서가 증가함에 따라 전문용어를 자동으로 추출하는 연구가 계속해서 이루어지고 있다. 기존 연구에서는 전문용어를 추출하는 단계에서 대부분 형태소 분석기를 이용한다. 그러나 전문용어의 특성으로 인해 형태소 분석 단계에서 오분석 되는 경우가 발생한다. 이러한 문제를 해결하기 위해서 본 논문에서는 음절 바이그램과 CRFs(Conditional Random Fields)를 이용하여 의학 전문 용어를 추출하는 방법을 제안한다. 네이버 지식인의 의사 답변 문서 2000개로부터 5-fold cross validation을 이용하여 실험하였다. 실험 결과 정확률은 평균 68.91%, 재현율은 평균 71.25%로 나타났으며 F-measure는 70.06%로 나타났다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼