RISS 검색 - 국내학술지논문

무료
기관 내 무료
유료

내보내기
내책장담기
한글로보기

정확도순

내림차순

내림차순

10개씩 출력

1
선에 걸친 숫자 영상의 추출 및 복원

정영태(Youngtae Chung),이관용(Kwanyong Lee),백종현(Jonghyun Paik),이일병(Yillbyung Lee),변혜란(Hyeran Byun) 한국정보과학회 1996 한국정보과학회 학술발표논문집 Vol.23 No.1A
- 원문보기
문서에서 필요한 문자들을 효과적으로 추출할 수 있는 기술은 자동 입력 시스템에서 인식 성능 및 시스템의 처리율을 결정짓는 매우 중요한 요소이다. 특수한 형태의 서식 문서인 전표의 경우에는 주요영역이 수직선과 수평선으로 구성되고, 내용들이 대개 숫자로 이루어져 있다. 비교적 간단한 구조적 특징에도 불구하고 실제로 사용되는 많은 전표들을 살펴보면, 숫자가 해당 영역의 중앙에 정확히 기입되지 않고 주위의 수평선 또는 수직선에 걸치는 경우가 빈번히 발생한다. 이와 같은 문제는 올바른 숫자 추출을 방해하고, 나아가 시스템의 처리 성능을 저하시키는 주요한 요인이 된다. 본 논문에서는 숫자가 선에 접촉되거나 겹친 경우에, 올바르게 숫자 영상을 추출하고, 접촉된 선 때문에 생기는 숫자 영상의 훼손을 최소화하여 숫자를 잘 복원하는 새로운 방법을 제안한다. 숫자 추출 및 복원 시스템은 입력 영상에서 예비숫자를 추출한 후에 그것을 숫자성분과 선 성분으로 나눈다. 숫자성분을 대상으로 예비숫자의 두께를 구하고, 선성분에 대해서는 경계교차점을 구한다. 시스템은 선성분을 다시 A형 복원부분, B형 복원부분, 비복원부분, 그리고 후보생성부분으로 나눈 다음 각각에 대하여 특정한 복원 방법을 적용하여 숫자를 복원한다.
2
서식 문서에서 선에 의해 훼손된 문자 영상의 복원

이관용(Kwanyong Lee),정영태(Youngtae Chung),변혜란(Hyeran Byun),이일병(Yillbyung Lee) 한국정보과학회 1998 정보과학회논문지(B) Vol.25 No.2
- 원문보기
서식 문서 자동 처리에서 근본적이며 중요한 문제 중의 하나는 기입된 문자를 추출하는 일이다. 그런데 이것은 결코 쉬운 작업이 아니며, 특히 기입된 문자가 데이터 기입영역을 벗어나서 서식 문서 내에 이미 인쇄되어 있는 툴이나 텍스트와 같은 문서 구성 요소와 접촉, 교차, 또는 겹쳐서 쓰여지는 경우에는 더욱 어렵다. 본 논문에서는 추출해야 할 문자가 서식 문서의 틀을 이루는 선에 의해 훼손된 경우에, 이를 효과적으로 복원할 수 있는 새로운 방법을 제안한다. 제안하는 방법은 크게 문자 영상 세분화 과정과 문자 영상 복원 과정으로 나뉘어져 있다. 영상의 세분화 과정에서는 입력 영상에서 예비 숫자를 추출 한 후에 그것을 문자 성분과 선 성분으로 분리한다. 선 성분에 대해서는 예비숫자의 두께와 경계교차점 정보를 이용하여 복원 부분, 비복원 부분, 후보생생 부분으로 다시 세분화한다. 문자 영상 복원 과정에서는 세분화된 선 성분의 종류에 따라서 특정한 복원 방법을 적용하여 훼손된 문자를 복원한다. 본 논문에서 제안하는 방법의 성능을 객관적으로 검증하기 위해서 CENPARMI의 숫자 데이터베이스와 NIST의 영문자 데이터베이스에 대해 신경망 인식기를 이용하여 인식 실험을 수행하였다. 원본 문자와 선에 의해 훼손된 후 복원된 문자와의 인식률의 차이가 약 1% 이내였으며, 또한 복원된 문자 영상의 형태도 원본 문자와 거의 동일함을 확인할 수 있었다. One of the fundamental and important problems in automatic form document processing is to extract the filled-in characters. It is a difficult task, especially when the filled-in characters are written or typed out of the designated areas, and then touch, intersect, or overlap the preprinted document components such as frames and texts. In this paper, we propose a new method to restore character images which are damaged by preprinted lines of documents. The method consists of two stages-the character decomposition stage and the character restoration stage. In the character decomposition stage, the method extracts pre-characters from an input image, and classifies them into character-components and line-components. A line-component is decomposed into restoration parts, non-restoration parts and candidate generation parts according to the width of pre-characters and boundary junction points. In the character restoration stage, the various restoration methods are used to restore characters according to the kinds of line-components obtained in the previous stage. To evaluate the performance of the proposed method objectively, we used simple recognition modules on CENPARMI handwritten digits and NIST handwritten alphabets. Experimental results showed that the difference of the recognition rates between the original characters which are not damaged by lines and the characters restored by the proposed method is within about 1%, and the shape of restored character images are almost same as those of the original ones.

내보내기
내책장담기
한글로보기

정확도순

내림차순

내림차순

10개씩 출력

맨처음 페이지로 1 맨끝 페이지로

상세검색

RISS 보유자료

상세검색

해외전자자료

연관 검색어 추천