RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
        • 등재정보
        • 학술지명
          펼치기
        • 주제분류
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • 스코어링 모델을 통한 대용량 자료 활용방안에 관한 연구

        김명준 ( Myung Joon Kim ),박병화 ( Byeonghwa Park ) 한국계리학회 2015 계리학연구 Vol.7 No.2

        최근 모든 분야에 있어서 활용 가능한 정보의 폭발적인 증가와 컴퓨팅 능력의 발전이 맞물리면서 통계학적 이론을 적용하여 실시간으로 다양한 대용량의 자료를 분석하는 빅데이터(Big Data) 분석 시대가 도래 하였다. 여기서 실시간은 빠른 처리 속도(Velocity)를, 다양함은 활용 가능한 자료 범위의 다양성(Variety)을 대용량은 분석 자료의 용량(Volume) 이 커지는 것을 의미하며, 이러한 개념이 필요한 분야에서 보다 정확하고 빠른 정보를 제공하고자 활용 가능한 시각적, 수치적 통계 분석 방식을 적용하여 다양한 정보를 제공하고 있다. 금융 분야에서도 소비자의 행동 양식 및 위험의 계산 등의 분야에서 이러한 시도가 지속적으로 일어나고 있으며, 특히 보험 분야에서 자동차 보험은 이러한 시도가 매우 중요할수 있는 속성을 가지고 있다. 왜냐하면, 의무 보험이라는 속성으로 국내 2천만대 이상의 차량이 전부 보험을 가입해야 하는 특징을 가지고 있고, 또한 단기보험이라는 특성은 이러한 데이터가 매년 새롭게 갱신되어 보관되고 분석되어야 한다는 성질을 가지고 있기 때문이다. 최근 들어 OBD(On Board Diagnostics)라는 기기의 발달로 차량에 간단한 기기의 부착을 통하여 운전자의 운전 형태 및 운전 습관 들을 매일 수치화할 수 있는 방안이 마련되었으며, 또한 핸드폰을 매개체로 한 데이터 전송을 통하여 이러한 데이터가 매일 실시간으로 보험사에 전달 가능해졌으며, 이러한 자료의 분석에 대한 필요성이 이슈가 되고 있는 실정이다. 이는 연간 사고 데이터를 분석하던 과거의 형태에서 매일 위험도를 판단하는 실시간 차원의 분석으로 전환됨을 의미하며, 또한 매일 전송되는 대용량의 자료에 대한 분석을 의미하기도 한다. 이에 본 연구에서는 해외 선진사에서 이러한 실시간 자료를 어떠한 방식으로 관리하고, 이를 기반으로 한 위험의 판단 및 적용 방식에 대한 현황을 조사 연구하며, 국내에 도입하여 적용 가능한 합리적인 대안을 제시하고자 한다. 방법론적으로는 스코어링 모델이라는 통계적 분석 방식을 활용하여 다차원 자료의 차원을 축소하는 효율적인 자료 관리 방법과 더불어 분석 결과를 적용하여 실제 위험에 부합하는 위험도를 적용하는 방안을 도출하는 것을 포함한다. Big data and advanced analytics are critical topics in almost every area of our lives. The explosive growth of available data and the improvement of computing power have enabled us to analyze a variety of large dataset in real time. Velocity (the speed of data processing), variety (the various types of data), and volume (the amount of data) are three properties of big data. Statistical and numerical analysis methods are used to provide more accurate and faster information based on velocity, variety, and volume to the field where the concept of big data is applied. In the financial services industry, big data technologies help us to understand customer behavior and assess risk. Within the insurance industry, the automobile insurance sector in particular is well-suited to the application of big data. More than 20 million cars are insured in Korea, where minimum levels of auto insurance coverage are compulsory. Since this is a short-term insurance, data must be collected, updated, and analyzed every year. Owing to the recent development of OBD (on board diagnostics), driving habits or driving behaviors can be digitalized daily by installing a simple device on the vehicle. Data can be transmitted by the use of a mobile device in real time back to the insurance company for analysis. The conventional approach of analyzing data based on annual data collected throughout the year has now been transformed to real time analysis, with the ability to determine daily risk. This means that big data transmitted from each vehicle daily must be analyzed. This study aims to examine how leading global insurance companies manage real time data, determine risk, and apply findings to a real world situation. Also, it attempts to introduce applicable and reasonable alternatives into the Korean market. By using a scoring model, a statistical analysis method, this study offers an effective data management model to reduce the dimensions of multivariate data and applies results analyzed to determining the actual degree of risk.

      • KCI등재

        사전과 말뭉치를 이용한 한국어 단어 중의성 해소

        정한조(Hanjo Jeong),박병화(Byeonghwa Park) 한국지능정보시스템학회 2015 지능정보연구 Vol.21 No.1

        As opinion mining in big data applications has been highlighted, a lot of research on unstructured data has made. Lots of social media on the Internet generate unstructured or semi-structured data every second and they are often made by natural or human languages we use in daily life. Many words in human languages have multiple meanings or senses. In this result, it is very difficult for computers to extract useful information from these datasets. Traditional web search engines are usually based on keyword search, resulting in incorrect search results which are far from users’ intentions. Even though a lot of progress in enhancing the performance of search engines has made over the last years in order to provide users with appropriate results, there is still so much to improve it. Word sense disambiguation can play a very important role in dealing with natural language processing and is considered as one of the most difficult problems in this area. Major approaches to word sense disambiguation can be classified as knowledge-base, supervised corpus-based, and unsupervised corpus-based approaches. This paper presents a method which automatically generates a corpus for word sense disambiguation by taking advantage of examples in existing dictionaries and avoids expensive sense tagging processes. It experiments the effectiveness of the method based on Naive Bayes Model, which is one of supervised learning algorithms, by using Korean standard unabridged dictionary and Sejong Corpus. Korean standard unabridged dictionary has approximately 57,000 sentences. Sejong Corpus has about 790,000 sentences tagged with part-of-speech and senses all together. For the experiment of this study, Korean standard unabridged dictionary and Sejong Corpus were experimented as a combination and separate entities using cross validation. Only nouns, target subjects in word sense disambiguation, were selected. 93,522 word senses among 265,655 nouns and 56,914 sentences from related proverbs and examples were additionally combined in the corpus. Sejong Corpus was easily merged with Korean standard unabridged dictionary because Sejong Corpus was tagged based on sense indices defined by Korean standard unabridged dictionary. Sense vectors were formed after the merged corpus was created. Terms used in creating sense vectors were added in the named entity dictionary of Korean morphological analyzer. By using the extended named entity dictionary, term vectors were extracted from the input sentences and then term vectors for the sentences were created. Given the extracted term vector and the sense vector model made during the pre-processing stage, the sense-tagged terms were determined by the vector space model based word sense disambiguation. In addition, this study shows the effectiveness of merged corpus from examples in Korean standard unabridged dictionary and Sejong Corpus. The experiment shows the better results in precision and recall are found with the merged corpus. This study suggests it can practically enhance the performance of internet search engines and help us to understand more accurate meaning of a sentence in natural language processing pertinent to search engines, opinion mining, and text mining. Naive Bayes classifier used in this study represents a supervised learning algorithm and uses Bayes theorem. Naive Bayes classifier has an assumption that all senses are independent. Even though the assumption of Naive Bayes classifier is not realistic and ignores the correlation between attributes, Naive Bayes classifier is widely used because of its simplicity and in practice it is known to be very effective in many applications such as text classification and medical diagnosis. However, further research need to be carried out to consider all possible combinations and/or partial combinations of all senses in a sentence. Also, the effectiveness of word sense disambiguation may be improved if rhetorical structures or morphological dependenc

      • KCI등재
      • 텍스트마이닝 기법을 활용한 한국·중국·일본의 관광연구 동향 분석

        남한별(Nam, Hanbyeol),전상우(Jeon, SangWoo),안영빈(An, Yeongbin),유다솔(Yu, Dasol),박병화(Park, Byeonghwa) 한국관광레저학회 2017 한국관광레저학회 학술발표대회 Vol.2017 No.12

        관광산업에 대한 관심은 선진국이나 개도국, 후진국에서도 중요한 국가전략산업으로 인정되고 있다. 이에 따라 관광에 대한 학문적 연구가 괄목할만한 성장을 이루고 글로벌화에 따라 중국과 일본에 형향 또한 크다. 따라서 해외주요 등재지에 실린 한·중·일의 영문 초록 데이터를 이용하여 국내 관광연구 동향뿐만 아니라 중국과 일본의 관광연구 동향을 정리해보고자 하였다. 텍스트마이닝 기법인 빈도분석, 사회연결망(SNA), 토픽모델링을 사용하였다. 분석 결과 국가별 특징적인 인기 연구주제를 파악할 수 있다. 공통적으로 선호되는 연구들도 있지만 국가별로 특징적인 연구들을 파악할 수 있었다. 본 연구는 기존의 키워드 중심 분석방법이 아닌 영문초록을 이용해 한·중·일을 비교분석 할 수 있고 연구주제들 간의 관계를 살펴볼 수 있어서 이 분야에서의 새로운 주제를 선정하는데 참고할 유용한 정보로 활용될 수 있다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼