RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
        • 등재정보
        • 학술지명
        • 주제분류
        • 발행연도
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        온톨로지를 이용한 단어 군집화 성능 개선

        박은진,김재훈,옥철영,Park Eun-Jin,Kim Jae-Hoon,Ock Cheol-Young 한국정보처리학회 2006 정보처리학회논문지B Vol.13 No.3

        이 논문은 사전의 뜻 풀이말을 이용하여 단어 군집화 시스템을 설계하고 구현한다. 군집화를 위해서는 다양한 형태의 자질이 요구되며 어떤 자질을 사용하느냐에 따라 군집화의 성능이 좌우된다. 뜻 풀이말은 표제어를 자세히 설명하고 있기는 하지만, 뜻 풀이말에 사용된 단어가 너무 함축적이거나 추상적이어서 뜻 풀이말이 그다지 길지 않다. 뜻 풀이말로부터 추출된 자질을 그대로 군집화에 이용할 경우에는 다수의 작은 군집이 형성된다. 뜻 풀이말을 이용하여 보다 더 좋은 군집화 결과를 얻기 위해서는 뜻 풀이말의 의미를 크게 손상하지 않는 범위에서 보다 더 일반적인 단어로 바꾸어 군집화에 필요한 자질을 확장할 필요가 있다. 이 논문에서 추상적인 말을 온톨로지 상에서 한 단계 위의 단어로 확장하거나 온톨로지 상에서 고정 높이에 해당하는 단어로 확장함으로써 단어 군집화 성능을 향상시키는 방법을 제안한다. 실험을 통해서 온톨로지를 이용해서 자질을 확장할 경우 단어 군집화 성능이 크게 개선되었으며, 전체적으로 보면 온톨로지 상에서 고정 높이에 해당하는 단어로 확장할 경우가 더 좋은 성능을 보였다. 또한 단어 군집화를 위한 자질로 동사가 매우 유용함을 관찰할 수 있었다. In this paper, we describe the design and the implementation of word clustering system using a definition of an entry word in the dictionary, called a dictionary definition. Generally word clustering needs various features like words and the performance of a system for the word clustering depends on using some kinds of features. Dictionary definition describes the meaning of an entry in detail, but words in the dictionary definition are implicative or abstractive, and then its length is not long. The word clustering using only features extracted from the dictionary definition results in a lots of small-size clusters. In order to make large-size clusters and improve the performance, we need to transform the features into more general words with keeping the original meaning of the dictionary definition as intact as possible. In this paper, we propose two methods for extending the dictionary definition using ontology. One is to extend the dictionary definition to parent words on the ontology and the other is to extend the dictionary definition to some words in fixed depth from the root of the ontology. Through our experiments, we have observed that the proposed systems outperform that without extending features, and the latter's extending method overtakes the former's extending method in performance. We have also observed that verbs are very useful in extending features in the case of word clustering.

      • PPeditor: 한국어 의존구조 말뭉치 구축 도구

        박은진 ( Jae-hoon Kim ),김재훈 ( Eun-jin Park ),김강민 ( Kang-min Kim ),김창현 ( Chang-hyun Kim ) 한국정보처리학회 2005 한국정보처리학회 학술대회논문집 Vol.12 No.1

        효과적인 언어처리 시스템을 개발하기 위해서는 언어정보가 부착된 대량의 말뭉치가 필요하다. 그러나, 대량의 말뭉치를 구축하기 위해서는 많은 시간과 노력이 필요하다. 이와 같은 시간과 노력을 절약하기 위해서 일반적으로 말뭉치 구축 도구를 사용한다. 본 논문에서는 한국어 의존구조 말뭉치를 구축하기 위한 도구를 설계하고 구현하였다. 본 논문에서 개발된 구축 도구는 여러 가지 특징을 가지고 있다. 1) 특정 응용분야에 관계없이 두루 사용할 수 있다. 2) 분석 단계와 분석오류를 연계하여 작업의 집중도를 높였다. 3) 가능한 한 오류는 축적되지 않도록 하여 구축된 말뭉치의 질을 크게 개선할 수 있었다. 4) 구축된 정보는 서로 공유할 수 있도록 하여 작업의 일관성을 극대화하였다. 5) 초보자로 사용자가 쉽게 도구를 사용할 수 있도록 인터페이스를 설계하였다. 본 논문에서 개발된 구축 도구를 이용하여 8 명의 연구원이 약 2 개월 (하루에 평균 4 시간)에 걸쳐서 10,000 문장의 의존구조 말뭉치를 구축할 수 있었다. 구축된 말뭉치에는 형태소 정보, 구묶음 정보, 의존구조 정보가 부착되어 있다.

      • 용어 클러스터링의 성능 평가

        박은진(Eun-Jin Park),김재훈(Jae-Hoon Kim),옥철영(Cheol-Young Ock) 한국정보과학회 언어공학연구회 2005 한국정보과학회 언어공학연구회 학술발표 논문집 Vol.2005 No.10

        이 논문에서는 전자 사전의 뜻 풀이말을 이용하여 용어를 자동 분류하는 용어 클러스터링 시스템을 설계하였다. 클러스터링 성능에 영향을 미치는 요소로 자질 선택, 자질 표현 그리고 유사도 측정 등이 있다. 이 논문에서는 이러한 요소들이 용어 클러스터링에 미치는 영향을 평가해보았다. 클러스터링 결과를 객관적으로 비교하기 위해서 용어 클러스터링 결과와 한국어 의미 계층망에서 추출한 정답 클러스터를 비교하였다. 실험 결과, 용어의 뜻 풀이말만 자질로 사용한 방법보다는 뜻 풀이말 자질을 확장하는 방법이 훨씬 더 좋은 결과를 보였다.

      • 자질 확장에 따른 용어 클러스터링의 성능 향상

        박은진(Eun-Jin Park),김재훈(Jae-Hoon Kim),옥철영(Cheol-Young Ock) 한국정보과학회 2005 한국정보과학회 학술발표논문집 Vol.32 No.2

        이 논문에서는 용어 클러스터링의 성능에 직접적인 영향을 주는 자질 확장에 따른 시스템의 성능 변화를 보았다. 객관적인 성능 비교를 위하여 용어 클러스터링 결과와 한국어 의미 계층망에서 추출한 클러스터를 비교하였다. 실험 결과, 용어의 뜻 풀이말을 자질로 사용한 경우보다 자질을 확장한 방법(Bigram, Case)이 성능이 좋게 나왔으며, 자질확장 시에 사용되는 말뭉치의 추출방법에 따라 다른 성능을 보였는데, 단순히 Bigram 정보를 사용하여 확장한 것 보다는 동사의 격 관계(Case)정보를 이용한 것이 성능이 좋게 나왔다.

      • KCI등재

        PPEditor: 한국어 의존구조 부착을 위한 반자동 말뭉치 구축 도구

        김재훈,박은진,Kim Jae-Hoon,Park Eun-Jin 한국정보처리학회 2006 정보처리학회논문지B Vol.13 No.1

        말뭉치(corpus)는 많은 언어 정보를 포함하고 있으며, 언어처리 및 계산언어학 분야에서 다양한 용도로 사용되고 있다. 그러나 말뭉치에 언어 정보를 부착하는 데는 많은 시간과 인력이 소요된다. 이 문제를 완화시키기 위해서 말뭉치 구축 도구가 반드시 요구된다. 본 논문에서는 한국어 의존구조 부착을 위한 말뭉치 구축 도구의 설계 및 구현에 관해서 기술한다. 가장 이상적인 방법은 주석자가 전혀 개입하지 않고, 말뭉치를 구축하는 것이나 이것은 사실상 불가능하다. 따라서 대부분의 말뭉치 구축 도구는 반자동으로 구성되어 있으며, 본 논문에서 제안된 도구도 반자동이다. 제안된 도구는 언어 분석기의 분석 결과에 내포된 오류를 효과적으로 수정할 수 있고, 또한 가능한 한 반복적인 작업을 피할 수 있으며 쉽게 사용할 수 있도록 인터페이스를 설계하였다. 제안된 시스템을 이용해서 20어절 이상의 1만 문장에 의존구조를 부착해 보았다. 잘 훈련된 8명의 주석자들이 매일 4시간씩 2개월 동안 구축하였으며, 그 결과는 정확하고 일관성 있는 말뭉치를 구축할 수 있었으며, 작업 시간과 인력도 크게 줄일 수 있었다. In general, a corpus contains lots of linguistic information and is widely used in the field of natural language processing and computational linguistics. The creation of such the corpus, however, is an expensive, labor-intensive and time-consuming work. To alleviate this problem, annotation tools to build corpora with much linguistic information is indispensable. In this paper, we design and implement an annotation tool for establishing a Korean dependency tree-tagged corpus. The most ideal way is to fully automatically create the corpus without annotators' interventions, but as a matter of fact, it is impossible. The proposed tool is semi-automatic like most other annotation tools and is designed to edit errors, which are generated by basic analyzers like part-of-speech tagger and (partial) parser. We also design it to avoid repetitive works while editing the errors and to use it easily and friendly. Using the proposed annotation tool, 10,000 Korean sentences containing over 20 words are annotated with dependency structures. For 2 months, eight annotators have worked every 4 hours a day. We are confident that we can have accurate and consistent annotations as well as reduced labor and time.

      • 사용자의 행동과 점진적 기계학습을 이용한 쓰레기 편지 여과 시스템의 설계

        김강민 ( Kang-min Kim ),박은진 ( Eun-jin Park ),김재훈 ( Jae-hoon Kim ) 한국정보처리학회 2005 한국정보처리학회 학술대회논문집 Vol.12 No.1

        본 논문은 쓰레기 편지를 여과하기 위해 대상 편지에 따른 사용자들의 행동(reaction)을 묵시적(implicitly)으로 수집한 후 이를 점진적(incrementally) 기계학습기의 자질(feature)로 사용하여 편지 여과 작업의 증거가 되는 단어들을 지속적으로 학습하면서 최적의 편지 여과 결과를 제공하는 기법과 시스템 구조를 제안한다. 사용자 개인의 컴퓨터에 행동 정보와 학습 데이터를 저장하도록 설계하여 묵시적 정보 수집에서 자주 제기되는 개인 프라이버시 문제를 해결하였으며, 점진적 기계학습 기법을 사용하여 개인 정보를 포함하는 대량의 편지 학습 데이터를 모으기 힘들다는 문제를 해결하였다. 또 향후 제안하는 시스템을 이용하여 여러 종류의 기계학습 기법 중 쓰레기 편지여과 작업을 가장 효과적으로 수행할 수 있는 기법을 선택하는 작업을 수행할 계획이다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼