http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
정영임(Youngim Jung),정휘웅(Hwiwoong Jeong),윤애선(Aesun Yoon),권혁철(Hyukchul Kwon) 한국정보과학회 2003 한국정보과학회 학술발표논문집 Vol.30 No.1B
최근 신문기사의 음성 서비스 등 음성합성 연구가 실용단계로 접어 들고 있으나, 텍스트의 비-문자 처리에는 오류율이 높다. 본 연구는 신문 텍스트에 나타나는 비-문자 중 중의성이 높은 이음표의 문자화 유형을 6가지로 제시하고, 이음표를 포함한 어절의 패턴화된 구조 및 좌우 문맥 정보를 이용하여 이음표의 문자화 규칙을 알아본다. 제시된 이음표의 문자화 규칙과 이음표가 좌우 문맥 숫자의 문자화에 미치는 영향에 따른 숫자 읽기 방식을 포함하여 이음표 포함된 텍스트의 문자화 전사 시스템을 구현하였고, 2년치 J신문 텍스트를 코퍼스로 하여 이음표 문자화 시스템의 정확도를 측정하였다. 아울러 실험 결과에서 오류로 나타난 유형을 분석하여 정확도를 향상시킬 수 있는 방안을 제시하였다.
정영임(Youngim Jung),김재훈(Jayhoon Kim),김광영(Kwangyoung Kim),김환민(Hwanmin Kim) 한국전자거래학회 2014 한국전자거래학회지 Vol.19 No.4
전자학술정보의 활용이 급속히 증가하고 대규모 이용로그 정보의 처리가 가능해지면서 전자학술정보의 이용에 대한 분석이 다양한 각도에서 이루어지고 있다. 그러나 각 출판사에서 각기 다른 형태와 방법으로 생성한 이용통계를 표준 포맷으로 통합 수집하여 국가 차원의 이용량 정보를 제공하는 통합 플랫폼은 없다. 따라서 본 논문에서는 국내 520여 기관의 전자학술정보 이용통계를 통합 수집하고, 이용통계 데이터 표준 프로토콜인 SUSHI(Standardized Usage Statistics Harvesting Initiative)에 기반하여 유통할 수 있는 플랫폼 모델을 제안한다. Recently usage on digital scholarly information has been analyzed with various respects by various parties since the rapid expansion of digital scholarly information use and the increasing availability of large-scale log data. Nevertheless, no standard platform for distributing usage statistics of scholarly information at the national scale has been suggested so far. Therefore, this paper suggests a generalized SUSHI (Standardized Usage Statistics Harvesting Initiative) platform for distributing usage statistics of digital scholarly information at the national scale.
구문 관계와 운율 특성을 이용한 한국어 운율구 경계 예측
정영임(Youngim Jung),조선호(SunHo Cho),윤애선(Aesun Yoon),권혁철(Hyuk-Chul Kwon) 한국정보과학회 언어공학연구회 2007 한국정보과학회 언어공학연구회 학술발표 논문집 Vol.2007 No.10
본 논문에서는 자연스러운 한국어 운율구 경계를 예측하기 위해 ① 문장 성분을 하위범주화하고, ② 세분화된 문장 성분 간 의존관계를 이용하여 통사구를 추출하며 ③ 추출한 통사구의 유형에 따른 운율구 경계 예측 규칙을 설정하였다. 또한, ④ 통사적 정보 외에도 통사구와 문장의 길이, 통사구의 문장 내 위치, 문맥의 의미 정보 등에 따라 가변적인 운율구 경계를 판단하여 보다 자연스러운 한국어 운율구 경계 예측 시스템을 개발하였다. 그 결과 통사구 경계와 상관 관계가 높은 강한 운율구 경계 예측과 운율구 내부 비경계 예측에 있어 90% 이상의 높은 재현율과 정확도를 보였으며, 전체 운율구 경계 예측에 있어서도 87% 이상의 성능을 보였다.
임베디드 TTS 시스템을 위한 아라비안 숫자의 문자 변환
정영임(Youngim Jung),윤애선(Aesun Yoon),권혁철(Hyukchul Kwon) 한국정보과학회 2005 한국정보과학회 학술발표논문집 Vol.32 No.1
본 논문에서는 아라비안 숫자의 중의성을 효과적으로 제거하고 숫자 표현의 발음을 정확하게 문자화할 수 있는 임베디드 시스템용 경량화된 아라비안 숫자 읽기 시스템을 제안한다. 이를 위해 7 가지의 숫자 읽기 방식(Readings of Arabic Numerals: RAN)을 분류하였고, 문자화 규칙을 설정하기 위해, (1) 문맥 자질, (2) 패턴 자질, (3) 휴리스틱 정보를 숫자 표현의 의미에 따라 분석하였다. 그리고 숫자의 문자화 시스템을 최적화하여 임베디드 시스템에 탑재하기 위해 (1) 형태소 분석 모듈의 분리, (2) 사전 압축, (3) 인명과 지명의 제거를 하였고, 이를 통해 심각한 정확도 손실 없이 메모리 사용량과 처리 시간을 크게 줄일 수 있었다. 경량화된 mini-TAN 은 96.9~98.3%의 정확도를 보이며, 기존 상용 TTS 시스템에 비해서도 숫자 읽기의 처리에 있어 높은 정확도를 보인다.
정영임(Youngim Jung),이동훈(Donghun Lee),남현숙(HyeonSook Nam),윤애선(Aesun Yoon),권혁철(Hyukchul Kwon) 한국정보과학회 2004 한국정보과학회 학술발표논문집 Vol.31 No.1B
한국어 텍스트 음성합성에서 문장 기호의 문자화에 나타나는 오류는 기호의 중의성에 기인한다. 선행연구에서 규칙에 기반하여 중의성을 해결하는 방안이 제안되었으나 여전히 기호는 다양한 문맥에서 높은 중의성을 가지고 문자화된다. 따라서 본 연구에서는 신문 텍스트에 나타나는 문장 기호 중 이음표의 문자화를 이음표를 포함한 어절의 패턴, 패턴의 좌우에 위치하는 어절 정보 및 휴리스틱스 자질을 학습하여 제시된 이음표의 문자화의 중의성을 해소하는 방안을 제안하였다. 이를 위해 국내 1개 일간지 2년 치 기사에서 이음표를 포함한 어절 49,000여 개를 임의 추출하여 분석하였고, 분석된 자질을 자동추출하여 결정 트리를 구성하였다. 실험 결과, 96.2%~97.7%의 정확도를 보였다.
생태학 분야 데이터 저널 발행 전략 연구 - K기관을 중심으로 -
정영임,권오석,김기동,김소형,서태설,김선태,Jung, Youngim,Kwon, Ohseok,Kim, Kidong,Kim, Sohyeong,Seo, Tae-Sul,Kim, Suntae 한국도서관·정보학회 2020 한국도서관정보학회지 Vol.51 No.4
오픈 사이언스 시대 연구데이터의 공개를 가속화하고 접근성 및 인용가능성 개선 및 연구데이터에 대한 표준화된 기술문서 제공은 또 다른 과학적 발견에 기여할 수 있어 데이터 출판이 주목을 받고 있다. 또한 출판된 데이터 역시 연구논문과 동등한 지위를 유지할 수 있는 방안으로 데이터 논문이 대두되고, 새로운 학술출판의 유형으로 데이터 저널 발간이 증가추세에 있다. 특히 생태학 분야는 대규모 연구데이터가 생산되고 관리되어야 하는 분야로 전세계적으로 데이터 저널 발간이 활발하다. 반면 국내에는 데이터 저널 연구가 초기 단계이고, 생태학 분야 데이터 저널이 전무하다. 이에 본 연구에서는 생태 분야의 데이터 저널을 발간하기 위한 전략을 탐색하고 제시하였다. 먼저 국내외 데이터 저널 발간 현황과 국내 저널 출판 현황을 조사하였다. 또한 학술출판 및 오픈액세스 정책 전문가, 생태학 학술지 발간 전문가로 구성된 전문가그룹 인터뷰를 수행하였다. 현재 데이터 저널 발간 인프라가 제대로 구축되지 않고 이에 대한 평가체제가 갖추어 지지 않은 국내 학술출판 관행을 반영하고 국내외 조사결과와 전문가 FGI를 실시 결과를 바탕으로 생태학 분야 데이터 저널 출간 방향, 데이터 논문 투고지침, 저널 구성 및 발행주기, 저널 편집위원 구성, 원고의 수급 측면에서 전략을 제시하였다. The importance of data publishing in the open-science era is increasing as it can contribute to other scientific discoveries by accelerating the sharing of research data, improving accessibility and citability, and providing standardized technical documentation for research data. In addition, the need for data papers is emerging as a way for data papers to maintain a status equivalent to research papers, and the publication of data journals is on the rise as a new type of scholarly publishing. In particular, the field of Ecology is a field where large-scale research data are produced and managed, thus the data journal publishing in this field is active worldwide. On the other hand, the research on data journal is in its early stages in Korea, and there is no data journal in the field of Ecology. Thus, this study explores and presents strategies for publishing data journals in the ecological field. First, we investigate the publishing status of domestic and international data journals and the publication status of domestic journals. Then, we conducted a focused group interview with experts of scholarly publishing, open access policy and journal publishing in the field of Ecology. Finally, based on the survey and the expert FGI's results, strategies are suggested in terms of publishing data journals in the field of ecology, organizing and publishing journals, organizing journal editors, and receiving manuscripts.
한국어 어휘의미망에 기반한 논항 정보를 이용한 의존문법 구문분석기의 구현
임경업(Gyeong-eop Im),정영임(Youngim Jung),권혁철(Hyuk-Chul Kwon) 한국정보과학회 언어공학연구회 2007 한국정보과학회 언어공학연구회 학술발표 논문집 Vol.2007 No.10
한국어는 한 어절이 한 개 이상의 형태소로 이루어졌으며, 이 때문에 지역 중의성이 발생한다. 대부분의 선행 연구에서는 이러한 지역 중의성을 배제하거나, 태거를 사용하여 지역 중의성을 제거해왔다. 본 연구에서는 문장의 모든 형태소 분석에 대해 구문분석을 시도하며, 중의성을 제거하고자 적용된 의존문법 규칙과 구 묶음, 부사 하위범주화, 논항 정보 사전 이용 등의 다양한 기법을 설명하고, 구문분석 성능을 실험으로 나타낸다. 특히, 말뭉치마다 논항 정보 사전을 따로 구축하는 번거로움을 피하고자 한국어 어휘의미망을 사용한다.