RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
          펼치기
        • 등재정보
          펼치기
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        Language-Independent Sentence Boundary Detectionwith Automatic Feature Selection

        이도길 한국데이터정보과학회 2008 한국데이터정보과학회지 Vol.19 No.4

        This paper proposes a machine learning approach for language-independent sentence boundary detection. The proposed method requires no heuristic rules and language-specific features, such as part-of-speech information, a list of abbreviations or proper names. With only the language-independent features, we perform experiments on not only an inflectional language but also an agglutinative language, having fairly different characteristics (in this paper, English and Korean, respectively). In addition, we obtain good performances in both languages. We have also experimented with the methods under a wide range of experimental conditions, especially for the selection of useful features.

      • KCI등재

        명사 출현 특성을 이용한 효율적인 한국어 명사 추출 방법

        이도길,이상주,임해창 한국정보과학회 2003 정보과학회논문지 : 소프트웨어 및 응용 Vol.30 No.2

        형태소 분석을 한 후 명사를 추출하는 방법은 모든 어절에 대해 빈번한 사전 참조와 음운 복원을 위한 규칙 적용을 수행하므로 많은 연산을 필요로 하고, 중의성이 있는 어절에 대해 모든 가능한 분석결과를 생성하므로 명사 추출의 관점에서는 비효율적이다. 본 논문에서는 명사 추출의 관점에서 형태소 분석시 불필요한 연산을 줄이기 위해 명사 출현 특성을 고려하는 명사 추출 방법을 제안한다. 명사 출현 특성은 명사의 존재에 대한 긍정적 또는 부정적인 단서를 표현하는 한국어의 특성으로서, 배제 정보와 명사 접미 음절열이 있다. 배제 정보는 명사가 없는 어절을 미리 배제하여 형태소 분석에 요구되는 탐색 공간을 줄이고, 명사 접미 음절열은 바로 앞에 있는 명사를 검사함으로써 단순한 방법으로 명사를 추출하거나 미등록어를 인식하는 데에 사용한다. 또한 본 논문에서는 형태소 분석시 복잡한 음운 현상을 처리하기 위해 많은 음운 규칙을 적용하는 대신 음운 복원 정보를 사용하여 음운 현상을 처리한다. 실험 결과에 의하면 본 방법은 기존의 형태소 분석 방법에 의한 명사 추출에 비해 정확도는 떨어지지 않으면서 수행 속도 면에서 매우 효율적임을 알 수 있다. Morphological analysis is the most widely used method for extracting nouns from Korean texts. For every Eojeol, in order to extract nouns from it, a morphological analyzer performs frequent dictionary lookup and applies many morphonological rules, therefore it requires many operations. Moreover, a morphological analyzer generates all the possible morphological interpretations (sequences of morphemes) of a given Eojeol, which may be unnecessary from the noun extraction's point of view. To reduce unnecessary computation of morphological analysis from the noun extraction's point of view, this paper proposes a method for Korean noun extraction considering noun occurrence characteristics. Noun patterns denote conditions on which nouns are included in an Eojeol or not, which are positive cues or negative cues, respectively. When using the exclusive information as the negative cues, it is possible to reduce the search space of morphological analysis by ignoring Eojeols not including nouns. Post-noun syllable sequences(PNSS) as the positive cues can simply extract nouns by checking the part of the Eojeol preceding the PNSS and can guess unknown nouns. In addition, morphonological information is used instead of many morphonological rules in order to recover the lexical form from its altered surface form. Experimental results show that the proposed method can speed up without losing accuracy compared with other systems based on morphological analysis.

      • KCI등재

        Bootstrap 기법을 이용한 용당 저수지 유역의 미래 설계홍수량 불확실성 평가

        이도길,강문성,박지훈,류정훈,Lee, Do Gil,Kang, Moon Seong,Park, Jihoon,Ryu, Jeong Hoon 한국농공학회 2016 한국농공학회논문집 Vol.58 No.2

        To estimate design floods for hydraulic structures, statistical methods has been used in the analysis of rainfall data. However, due to the lack of rainfall data in some regions, it is difficult to apply the statistical methods for estimation of design rainfall. In addition, increased uncertainty of design rainfall arising from the limited rainfall data can become an important factor for determining the design floods. The main objective of this study was to assess the uncertainty of the future design floods under RCP (representative concentration pathways) scenarios using a bootstrap technique. The technique was used in this study to quantify the uncertainty in the estimation of the future design floods. The Yongdang watershed in South Korea, 2,873 ha in size, was selected as the study area. The study results showed that the standard errors of the basin of Yongdang reservoir were calculated as 2.0~6.9 % of probable rainfall. The standard errors of RCP4.5 scenario were higher than the standard errors of RCP8.5 scenario. As the results of estimation of design flood, the ranges of peak flows considered uncertainty were 2.3~7.1 %, and were different each duration and scenario. This study might be expected to be used as one of guidelines to consider when designing hydraulic structures.

      • KCI등재

        유니코드 한자-한글 자동 변환 연구 및 구현

        이도길 한성어문학회 2024 漢城語文學 Vol.51 No.-

        텍스트의 가독성과 검색의 용이성을 위해 한자를 한글로 변환하여 병기하는 것이 바람직하다. 본 논문은 유니코드 텍스트에서의 문자 정규화에 대해 논하고 한자-한글 변환을 위해 필요한 언어 정보로서 한자-한글 테이블과 한자어-한글 사전을 구축하였다. 한자 음가 사전으로부터 한자-한글 테이블을 정의하고 우리말샘 사전으로부터 추출한 약 48만 개의 어휘를 포함하는 한자어-한글 사전을 구축하였다. 최장일치 알고리즘에 기반하여 두음법칙 및 예외 규칙 등을 적용한 자동 한자-한글 변환 시스템을 구현하였다. 1970년~2019년까지의 동아일보 코퍼스를 대상으로 구현한 시스템과 문자 단위의 변환 방법의 결과를 비교하였다. For the readability and ease of search of text, it is desirable to convert Hanja (Chinese characters) into Hangul (Korean characters) and write them together. This paper discusses the normalization of characters in Unicode texts and constructed a Hanja-Hangul table and Hanja word dictionary as language information necessary for Hanja to Hangul conversion. The Hanja-Hangul table was defined from the Chinese character phonetic dictionary and the Hanja word dictionary including about 480,000 vocabularies was constructed which were extracted from Korean language dictionary named Urimalsaem. Based on the longest matching algorithm with applying the initial law and some exception rules, an automatic Hanja-Hangul conversion system was implemented. I executed the system in the Dong-A Ilbo corpus from 1970 to 2019 and compared the results of the system and those of character unit conversion method.

      • KCI우수등재
      • KCI우수등재

        강우자료의 공간해상도에 따른 모의 유출특성 민감도 고찰

        이도길,황세운 한국농공학회 2023 한국농공학회논문집 Vol.65 No.6

        Rainfall data is one of the most important data in hydrologic modeling. In this study, the impacts of spatial resolution of precipitation data onhydrological responses were assessed using SWAT in the Santa Fe River Basin, Florida. High correlations were found between the FAWN and NLDASrainfall data, which are observed weather data and simulated weather data based on observed data, respectively. FAWN-based scenarios had highermaximum rainfall and more rainfall days and events compared to NLDAS-based scenarios. Downstream areas showed lower correlations between rainfalland peak discharge than upstream areas due to the characteristics of study site. All scenarios did not show significant differences in base flow, andshowed less than 5% of differences in high flows among NLDAS-based scenarios. The impact of resolution will appear differently depending on thecharacteristics of the watershed and topography and the applied model, and thus, is a process that must be considered in advance in runoff simulationresearch. The study suggests that applying the research method to watersheds in Korea may yield more pronounced results, and highlights theimportance of considering data resolution in hydrologic modeling.

      • KCI등재

        한글 문장의 자동 띄어쓰기를 위한 두 가지 통계적 모델

        이도길,이상주,임희석,임해창 한국정보과학회 2003 정보과학회논문지 : 소프트웨어 및 응용 Vol.30 No.4

        Automatic word spacing is a process of deciding correct boundaries between words in a sentence including spacing errors. It is very important to increase the readability and to communicate the accurate meaning of text to the reader.The previous statistical approaches for automatic word spacing do not consider the previous spacing state, and thus can not help estimating inaccurate probabilities.In this paper, we propose two statistical word spacing models which can solve the problem of the previous statistical approaches. The proposed models are based on the observation that the automatic word spacing is regarded as a classification problem such as the POS tagging. The models can consider broader context and estimate more accurate probabilities by generalizing hidden Markov models.We have experimented the proposed models under a wide range of experimental conditions in order to compare them with the current state of the art, and also provided detailed error analysis of our models.The experimental results show that the proposed models have a syllable-unit accuracy of 98.33% and Eojeol-unit precision of 93.06% by the evaluation method considering compound nouns. 자동 띄어쓰기는 문장 내에서 잘못 띄어쓴 어절들을 올바르게 복원하는 과정으로서, 독자에게 글의 가독성을 높이고 문장의 뜻을 정확히 전달하기 위해 매우 중요하다.기존의 통계 기반 자동 띄어쓰기 접근 방법들은 이전 띄어쓰기 상태를 고려하지 않기 때문에 잘못된 확률 정보에 의한 띄어쓰기를 할 수밖에 없었다. 본 논문에서는 기존의 통계 기반 접근 방법의 문제점을 해결할 수 있는 두 가지 통계적 띄어쓰기 모델을 제안한다. 제안하는 모델은 자동 띄어쓰기를 품사 부착과 같은 분류 문제(classification problem)로 간주할 수 있다는 착안에 기반하며, 은닉 마르코프 모델을 일반화함으로써 확장된 문맥을 고려할 수 있고 보다 정확한 확률을 추정할 수 있도록 고안되었다.제안하는 모델과 지금까지 가장 좋은 성능을 보이는 기존의 방법을 비교하기 위해 여러 가지 실험 조건에 따른 다양한 실험을 수행하였고, 오류에 대한 자세한 분석을 제시하고 있다. 제안하는 모델을 복합 명사를 고려하는 평가 방식에 적용한 실험 결과, 98.33%의 음절 단위 정확도와 93.06%의 어절 단위 정확률을 얻었다.

      • 명사 출현 특성을 이용한 효율적인 한국어 명사 추출 방법

        이도길,이상주,임해창 한국정보과학회 2003 정보과학회논문지 : 소프트웨어 및 응용 Vol.30 No.1

        Morphological analysis is the most widely used method for extracting nouns from Korean texts. For every Eojeol, in order to extract nouns from it, a morphological analyzer performs frequent dictionary lookup and applies many morphonological rules, therefore it requires many operations. Moreover, a morphological analyzer generates all the possible morphological interpretations (sequences of morphemes) of a given Eojeol, which may by unnecessary from the noun extraction`s point of view. To reduce unnecessary computation of morphological analysis from the noun extraction`s point of view, this paper proposes a method for Korean noun extraction considering noun occurrence characteristics. Noun patterns denote conditions on which nouns are included in an Eojeol or not, which are positive cues or negative cues, respectively. When using the exclusive information as the negative cues, it is possible to reduce the search space of morphological analysis by ignoring Eojeols not including nouns. Post-noun syllable sequences(PNSS) as the positive cues can simply extract nouns by checking the part of the Eojeol preceding the PNSS and can guess unknown nouns. In addition, morphonological information is used instead of many morphonological rules in order to recover the lexical form from its altered surface form. Experimental results show that the proposed method can speed up without losing accuracy compared with other systems based on morphological analysis. 형태소 분석을 한 후 명사를 추출하는 방법은 모든 어절에 대해 빈번한 사전 참조와 음운 복원을 위한 규칙 적용을 수행하므로 많은 연산을 필요로 하고, 중의성이 있는 어절에 대해 모든 가능한 분석결과를 생성하므로 명사 추출의 관점에서는 비효율적이다. 본 논문에서는 명사 추출의 관점에서 형태소 분석시 불필요한 연산을 줄이기 위해 명사 출현 특성을 고려하는 명사 추출 방법을 제안한다. 명사 출현 특성은 명사의 존재에 대한 긍정적 또는 부정적인 단서를 표현하는 한국어의 특성으로서, 배제 정보와 명사 접미 음절열이 있다. 배제 정보는 명사가 잃는 어절을 미리 배제하여 형태소 분석에 요구되는 탐색 공간을 줄이고. 명사 접미 음절열은 바로 알에 있는 병사를 검사함으로써 단순한 방법으로 명사를 추출하거나 미등록어를 인식하는 데에 사용한다. 또한 본 논문에서는 형태소 분석시 복잡한 음운 현상을 처리하기 위해 많은 음운 규칙을 적용하는 대신 음운 복인 정보를 사용하여 음운 현상을 처리한다. 실험 결과에 의하면 덕 방법은 기존의 형태소 분석 방법에 의한 명사 추출에 비해 정확도는 떨어지지 않으면서 수행 속도 면에서 매우 효율적임을 알 수 있다.

      • 한글 문장의 자동 띄어쓰기를 위한 두 가지 통계적 모델

        이도길,이상주,임희석,임해창 한국정보과학회 2003 정보과학회논문지 : 소프트웨어 및 응용 Vol.30 No.3

        자동 띄어쓰기는 문장 내에서 잘못 띄어쓴 어절들을 올바르게 복원하는 과정으로서, 독자에게 글의 가독성을 높이고 문장의 뜻을 정확히 전달하기 위해 매우 중요하다. 기존의 통계 기반 자동 띄어쓰기 접근 방법들은 이전 띄어쓰기 상태를 고려하지 않기 때문에 잘못된 확률 정보에 의한 띄어쓰기를 할 수밖에 없었다. 본 논문에서는 기존의 통계 기반 접근 방법 의 문제점을 해결할 수 있는 두 가지 통계적 띄어쓰기 모델을 제안한다. 제안하는 모델은 자동 띄어쓰기를 품사 부착과 같은 분류 문제(classification problem)로 간주할 수 있다는 착안에 기반하며, 은닉 마르코프 모델을 일반화함으로써 확장된 문맥을 고려할 수 있고 보다 정확한 확률을 추정할 수 있도록 고안되었다. 제안하는 모델과 지금까지 가장 좋은 성능을 보이는 기존의 방법을 비교하기 위해 여러 가지 실험 조건에 따른 다양한 실험을 수행하였고, 오류에 대한 자세한 분석을 제시하고 있다 제안하는 모델을 복합 명사를 고려하는 평가 방식에 적응한 실험 결과, 98.33%의 음절 단위 정확도와 93.06%외 어절단위 정확률을 얻었다. Automatic word spacing is a process of deciding correct boundaries between words in a sentence including spacing errors. It is very important to increase the readability and to communicate the accurate meaning of text to the reader. The previous statistical approaches for automatic word spacing do not consider the previous spacing state, and thus can not help estimating inaccurate probabilities. In this paper, we propose two statistical word spacing models which can solve the problem of the previous statistical approaches. The proposed models are based on the observation that the automatic word spacing is regarded as a classification problem such as the POS tagging. The models can consider broader context and estimate more accurate probabilities by generalizing hidden Markov models. We have experimented the proposed models under a wide range of experimental conditions in order to compare them with the current state of the art, and also provided detailed error analysis of our models. The experimental results show that the proposed models have a syllable-unit accuracy of 98.33% and Eojeol-unit precision of 93.06% by the evaluation method considering compound nouns.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼