RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
          펼치기
        • 등재정보
          펼치기
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        급성 신장 손상 예측을 위한 의료 데이터 전처리

        양현식,임유빈,이진영,김동효,김세중,김형주 한국정보과학회 2019 정보과학회 컴퓨팅의 실제 논문지 Vol.25 No.9

        As the utilization of medical information increases, many attempts have been made to incorporate data analysis techniques into the medical field. However, since actual medical data, divided between various specialties, doctors, and wards, is non-standardized and fragmented, it is often difficult to utilize it. Because of this, it is essential to perform preprocessing steps to refine the data into a form suitable for analysis. However, there is little research on practical preprocessing. In this paper, we designed and detailed a preprocessing process to refine data into a form suitable for analysis. The process was based on the specific use of data to predict acute kidney injury and reflected the characteristics of the medical data. Using various preprocessing tasks, classified into data cleaning, data integration, data transformation, data reduction, and data discretization according to the work type, we refined the data and confirmed its validity and effectiveness. 의료 정보의 활용성이 증대되면서 의료 영역에 데이터 분석 기법을 접목하려는 노력들이 많이 시도되고 있지만, 실제 의료 데이터는 다양한 분과, 담당 의사, 병동으로 세분화되어 비표준화・파편화되어있기 때문에 분석에 활용하기 어려운 경우가 많다. 이러한 특성을 고려하여 분석에 적합한 형태로 정제하는 전처리 작업이 필수적으로 선행되어야 하지만, 실제적인 전처리 작업에 대한 연구는 거의 이루어지지 않고 있는 상황이다. 본 논문에서는 급성 신손상(AKI, 급성 신장 손상) 예측이라는 구체적인 사례를 기반으로 의료 데이터의 특성을 반영하여 데이터를 분석에 적합한 형태로 정제하는 전처리 과정을 설계하고 상세히 서술한다. 작업 형태 별로 데이터 클리닝, 데이터 통합, 데이터 변환, 데이터 축소, 데이터 이산화로 구분한 전처리 작업들을 활용하여 데이터를 분석에 적합한 형태로 정제하고, 간단한 실험을 통해 정제된 데이터가 유효하고 효과적으로 작용함을 확인한다.

      • KCI등재

        자율 기계 학습을 위한 효과적인 스마트 온실 데이터 전처리 시스템

        임종태(Jongtae Lim),유재수(Jae-soo Yoo),Christopher RETITI DIOP EMANE(Christopher RETITI DIOP EMANE ),김윤아(Yuna Kim),백정현(Jeong-Hyun Beak) 한국스마트미디어학회 2023 스마트미디어저널 Vol.12 No.1

        최근 정보통신기술을 농업과 접목해 새로운 가치를 창출하는 스마트팜 연구가 활발하게 진행되고 있다. 국내 스마트팜 기술이 농업 선진국 수준의 생산성을 가지기 위해서는 기계 학습을 활용한 자동화된 의사결정이 필요하다. 그러나 현재의 스마트 온실 데이터 수집 기술은 빅데이터 분석이나 기계 학습을 수행하기에 충분하지 않다. 본 논문에서는 자율 기계 학습을 위한 스마트 온실 데이터 전처리 시스템을 설계하고 구현한다. 제안하는 시스템은 대상 데이터를 다양한 전처리 기법에 적용하고 평가를 수행하여 최적 전처리 기법을 탐색하고 저장한다. 이렇게 탐색 된 최적 전처리 기법은 새롭게 수집된 데이터에 대하여 전처리를 수행하는데 활용된다. Recently, research on a smart farm that creates new values by combining information and communication technology(ICT) with agriculture has been actively done. In order for domestic smart farm technology to have productivity at the same level of advanced agricultural countries, automated decision-making using machine learning is necessary. However, current smart greenhouse data collection technologies in our country are not enough to perform big data analysis or machine learning. In this paper, we design and implement a smart greenhouse data preprocessing system for autonomous machine learning. The proposed system applies target data to various preprocessing techniques. And the proposed system evaluate the performance of each preprocessing technique and store optimal preprocessing technique for each data. Stored optimal preprocessing techniques are used to perform preprocessing on newly collected data

      • KCI등재

        항공교통관리(ATM) 정책의사결정지원을 위한 빅데이터 전처리

        신태진,김효진 한국정보과학회 2024 정보과학회 컴퓨팅의 실제 논문지 Vol.30 No.9

        항공교통관리의 효율성을 모델링하고 개선하기 위한 다양한 데이터 분석 방법들이 나오고 있으나, 실제 항공교통 데이터는 다양한 기관에서 독립적으로 생산, 배포됨에 따라 데이터 파편화의 문제가 발생하고 있다. 많은 연구에서 데이터 전처리 작업의 중요성을 강조하고 있으나 전처리 방법에 대해 구체적으로 기술하거나 그 효과에 대해 입증하는 연구가 부족한 상황이다. 특히, 항공교통관리 분야는 기관별로 흩어진 데이터를 하나로 모으는 것부터가 쉽지 않은 현실이다. 본 논문은 항공교통관리 분야에서 정책의사결정지원 모형 개발에 필요한 대용량 데이터 전처리 방법에 대한 연구를 진행하였다. 취합된 데이터의 기관별 특성에 맞는 전처리 방법을 오픈소스인 R을 통해 개발하였다. 구체적으로 인천국제공항공사, 한국공항공사, 항공기상청, 항공교통본부로부터 수집된 데이터를 기관별 특성에 맞게 전처리할 수 있는 방법을 개발하였다. 이를 정책의사결정지원 모형의 입력데이터로 활용하기 위해 데이터 병합 방법 또한 개발하였다. 전처리 및 병합 과정을 거친 데이터는 의사결정지원모형의 입력데이터로 활용될 예정이며, 분석된 결과값은 항공교통 정책 운용효과 분석을 위한 자료로 활용될 수 있을 것이다. 이를 통해 국가 ATM 정책 수립 시 정책의사결정자에게 유용한 정보를 제공할 수 있을 것이다. Various data analysis methods have been developed to model and improve the efficiency of air traffic management. However, the actual air traffic management data is produced and distributed independently by various agencies, resulting in data fragmentation. While many studies have emphasized the importance of data preprocessing, there is a lack of research that specifically describes preprocessing methods or demonstrates their effectiveness. This is especially true in the field of air traffic management, where it is challenging to consolidate data from different organizations. This paper aims to address this gap by conducting a study on how to preprocess large amounts of data for developing policy decision support models in the field of air traffic management. We have developed a preprocessing method that is tailored to the characteristics of each organization, using R software, an open-source program. Specifically, we have created a method to preprocess data collected from Incheon International Airport Corporation, Korea Airports Corporation, Aviation Meteorological Office, and Air Traffic Management Office, taking into account the unique characteristics of each entity. Additionally, we have also developed a data merging method to combine the preprocessed data and utilize it as input for the policy decision support model. The data, once preprocessed and merged, will be used as input for the decision support model, and the resulting analysis will serve as data for evaluating the effectiveness of air traffic policy operations. This valuable information will be beneficial to policy makers in the establishment of national air traffic management policies.

      • KCI등재

        디지털 전환 환경에서 프로세스 분석을 위한 데이터 전처리(Preprocessing) 방법에 대한 연구

        고승곤 피터드러커 소사이어티 2022 창조와 혁신 Vol.15 No.4

        디지털 전환(Digital Transformation; DX)의 속도가 높아짐에 따라 각 조직은 다양한 IT 기술을 적용하여 고객, 시장, 판매, 운영 등의 다양한 출처로부터 디지털 데이터를 확보해 가고 있다. 이러한 디지털 데이터는 고객 가치 증대, 새로운 비즈니스 기회 발굴 그리고 프로세스 운영 혁신에 대한 유용한 정보를 포함하고 있을 것으로 기대된다. 이러한 정보를 올바로 획득하기 위해서는 빅 데이터(Big Data)의 특징을 갖는 디지털 데이터로부터 원하는 분석 목적에 적합한 변수 선택 그리고 데이터 전처리(Data Preprocessing)를 통하여 분석 가능한 표준 ABT(Analytical Base Table)를 생성할 수 있어야 한다. 본 논문에서는 표준 ABT에서 고려해야 할 데이터 품질을 정의하고 실무적으로 활용 가능한 데이터 전처리의 기준과 방법을 소개하고자 한다. 또한 소프트웨어 개발 운영 프로세스의 디지털화(Digitization) 결과인 빅 데이터에 대한 대한 전처리 사례를 통하여 표준 ABT 구성에 대한 경험적 기준을 제시해 보고자 한다. As digital transformation (DX) accelerates, each organization is applying various IT technologies to collect digital data from various sources such as customers, markets, sales, and operations. Such digital data is expected to contain useful information about increasing customer value, discovering new business opportunities, and innovation of process operation. In order to correctly acquire such information, it is necessary to be able to select a variable suitable for the desired analysis purpose from digital data with the characteristics of Big Data, and to generate a standard ABT(Analytical Base Table) that can be analyzed through Data Preprocessing. In this paper, we will define the data quality to be considered in standard ABT and introduce standards and methods of data preprocessing that can be used practically. In addition, we would like to present the empirical criteria for standard ABT configuration through examples of preprocessing of big data, which is the result of digitization of the software development and operation process.

      • KCI등재

        강수지역 구분을 위한 최적 자료 전처리 기법 분석

        김억기,안원식,이채영,엄명진 한국방재학회 2012 한국방재학회논문집 Vol.12 No.5

        In this study, the data preprocessing methods were analyzed to obtain the optimal clustering solution in South Korea. The geographic data and weather data in 75 stations of Korea Meteorological Administration are applied. The applied data preprocessing methods are general normalization, modified normalization, standardization and factor analysis. After the clustering analysis were conducted by K-mean method with preprocessing data, the efficiency of data preprocessing methods are estimated using the clustering index, such as Dunn index and Silhouette index. The clustering analysis are carried out as the cluster number changes from 3 to 9. Among the data preprocessing methods, the data by factor analysis shows the best efficiency for clustering analysis. However,it is not enough to find the optimal cluster number. 본 연구에서는 우리나라 강수지역 구분을 위한 군집해석시 최적 자료 전처리 기법에 대하여 파악하고자 하였다. 이를 위하여전국 기상청 관할의 75개 관측소의 지형 및 기상자료를 활용하였다. 적용된 자료 전처리 기법은 4가지로 일반 정규화 방법,수정 정규화 방법, 표준화 방법 및 요인분석이다. 전처리된 자료를 K-means 군집분석을 통하여 군집을 구분한 후 유효성 측도인 Dunn 지수 및 Silhouette 지수를 통하여 효율성을 분석하였다. 군집수를 3개에서 9개까지 1개씩 늘려가며 분석한 결과 모든 경우에서 요인분석을 통한 자료가 최적의 효율성을 나타내었으나, 최적 군집개수의 산정에는 다소 부족한 것으로 나타났다.

      • KCI등재후보

        교육종단연구 분석을 위한 빅데이터 플랫폼 개발 및 적용

        박정,조완섭 사)한국빅데이터학회 2020 한국빅데이터학회 학회지 Vol.5 No.1

        In this paper, we developed a big data platform to store, process, and analyze effectively on such education longitudinal study data. And it was applied to the Seoul Education Longitudinal Study(SELS) to confirm its usefulness. The developed platform consists of data preprocessing unit and data analysis unit. The data preprocessing unit 1) masking, 2) converts each item into a factor 3) normalizes / creates dummy variables 4) data derivation, and 5) data warehousing. The data analysis unit consists of OLAP and data mining(DM). In the multidimensional analysis, OLAP is performed after selecting a measure and designing a schema. The DM process involves variable selection, research model selection, data modification, parameter tuning, model training, model evaluation, and interpretation of the results. The data warehouse created through the preprocessing process on this platform can be shared by various researchers, and the continuous accumulation of data sets makes further analysis easier for subsequent researchers. In addition, policy-makers can access the SELS data warehouse directly and analyze it online through multi-dimensional analysis, enabling scientific decision making. To prove the usefulness of the developed platform, SELS data was built on the platform and OLAP and DM were performed by selecting the mathematics academic achievement as a measure, and various factors affecting the measurements were analyzed using DM techniques. This enabled us to quickly and effectively derive implications for data-based education policies.

      • KCI등재

        학습 데이터 구축에 필요한 공공 데이터 정제 사례

        박소영,이동엽,김정아 사단법인 한국융합기술연구학회 2023 아시아태평양융합연구교류논문지 Vol.9 No.5

        Although the quality of AI learning data portal data portal is important, in the case of public data, it cannot guarantee the quality of data portal since the purpose of the public data provide portal was not planned for AI learning .There were many fields that do not exist, and there were many cases that the scope of values allowed to data items that allow data items that allow data items are not clear.Also, there was cases where logical error exists in storage value.In the case of public data portal, it is conducted in a way to register the same institution, rather than upload it.Therefore, there is no unifiedity of data.In this paper, consistency properties of public data was defined as accuracy, consistency, general, publicability, publicability, publicability, publicity, and reliability. Generic functions that can simply exclude missing value errors or solve the case of general-purpose data have been developed, and functions suitable for the domain-specific can be defined and called. When different values are stored, a standard glossary is defined and an algorithm that can be changed to a representative terminology is provided. In this paper, it proposed several general processing algorithms to solve the errors that shows frequently appear in public data. If these algorithms are applied, it is expected to efficiently performing processing processing processing process of public data. 인공지능 학습용 데이터의 품질이 중요하다는 인식을 갖고 있지만, 공공데이터 포털에서 제공하는 데이타의 경우는 인공지능 학습용 데이터 활용을 목적으로 만들어지지 않았기 때문에 데이터의 품질을 보장할 수 없다. 데이터가 존재하지 않는 필드들이 다수 존재함을 발견할 수 있었으며, 데이터 항목에 허용하는 값의 범위가 명확하지 않아서 동일한 값을 서로 다르게 표현하는 경우가 많았다. 또한, 저장 값이 논리적 오류를 갖는 경우도 존재한다. 공공데이터 포털의 경우 한 기관에서 취합하여 업로드하는 것이 아닌 여러 기관에서 보낸 것을 그대로 등록하는 방식으로 진행된다. 따라서 데이터의 통일성이 존재하지 않았다. 본 논문에서는 공공데이터의 품질 속성을 정확성, 완전성, 일관성, 공공성, 활용성, 신뢰성 6가지로 정의하였다. 또한, 본 논문에서는 공공데이터에서 빈번하게 나타나는 오류를 분석하여 이를 처리하는 전처리 알고리즘을 제안하였다. 결측치 오류를 단순하게 배제하거나, 범용적 데이터의 경우를 해결할 수 있는 기본 함수를 개발하였고, 분석 영역에 적합한 함수를 정의하고 호출할 수 있게 하였다. 서로 다른 값이 저장된 경우는 표준 용어집을 정의하여 대표어로 변경할 수 있는 알고리즘을 제공하였다. 본 논문 제공한 일반적 처리 알고리즘을 적용한다면 공공데이터 오류수정을 위한 전 처리 과정을 효율적으로 수행할 수 있을 것으로 기대한다.

      • KCI등재

        영화 흥행 실적 예측을 위한 빅데이터 전처리

        전희국(Hee-Gook Jun),현근수(Geun-Soo Hyun),임경빈(Kyung-Bin Lim),이우현(Woo-Hyun Lee),김형주(Hyoung-Joo Kim) 한국정보과학회 2014 정보과학회 컴퓨팅의 실제 논문지 Vol.20 No.12

        국제적 수준으로 성장한 한국의 영화 시장 환경은 더욱 타당한 자료 분석에 근거한 의사 결정수단을 필요로 하게 되었다. 또한 발전된 정보 환경으로 인해 실시간으로 생성되는 대규모 데이터를 신속히 처리하고 분석하여 보다 정밀한 결과를 예측할 수 있어야 한다. 특히 전처리 작업은 정보 분석 과정중 가장 많은 시간이 소요 되므로 대규모 데이터 기반 분석 환경에서도 합리적인 시간 내에 처리할 수 있어야 한다. 본 논문에서는 영화 흥행 예측을 위한 대용량 데이터 전처리 방법을 연구하였다. 영화 흥행 데이터의 특성을 분석해 전처리의 각 유형별 처리 방법을 설정했으며 하둡 기반 맵리듀스 프레임워크를 사용하는 방법을 사용하였다. 실험 결과 빅데이터 기법을 사용한 전처리가 기존의 방법보다 더 좋은 수행결과를 보이는 것을 확인하였다. The Korean film market has rapidly achieved an international scale, and this has led to a need for decision-making based on analytical methods that are more precise and appropriate. In this modern era, a highly advanced information environment can provide an overwhelming amount of data that is generated in real time, and this data must be properly handled and analyzed in order to extract useful information. In particular, the preprocessing of large data, which is the most time-consuming step, should be done in a reasonable amount of time. In this paper, we investigated a big data preprocessing method for predicting movie box office success. We analyzed the movie data characteristics for specialized preprocessing methods, and used the Hadoop MapReduce framework. The experimental results showed that the preprocessing methods using big data techniques are more effective than existing methods.

      • KCI등재

        안정적 데이터 수집을 위한 지능형 IIoT 플랫폼 개발

        조우진,이형아,김동주,구재회 국제문화기술진흥원 2024 The Journal of the Convergence on Culture Technolo Vol.10 No.4

        전 세계적으로 에너지 위기가 심각한 문제로 대두되고 있다. 대한민국의 경우 전체 에너지의 53% 이상 사용하며, 온실 가스 배출량 또한 대한민국 전체의 45% 이상을 차지하고 있는 산업 단지 관련 에너지 효율화 연구에 높은 관심을 가지고 있다. 그 연구 중 하나로 가상 에너지 네트워크 플랜트라는 산업 단지 내 동일 유틸리를 사용하는 공장 들 간의 공유 설비와 에너지 생산 공장과 수요 공장 간의 거래로 에너지를 절감하는 연구를 제시한다. 이러한 에너지 절감 연구에서는 분석, 예측 등 데이터의 활용처가 다양하기 때문에 데이터의 수집이 굉장히 중요하다. 하지만, 시계열 데이터를 안정적으로 수집하는데는 기존의 시스템들은 여러 부족함이 있었다. 본 연구에서는 그를 개선하기 위해 지능형 IIoT 플랫폼을 제안한다. 지능형 IIoT 플랫폼은 비정상 데이터를 식별하고 적시에 처리하기 위한 전처리 시스템을 포함하며, 이상과 결측 데이터를 분류하고 안정적인 시계열 데이터를 유지하기 위한 보간 기법을 제시한다. 또한 데이터베이스 최적화를 통해 시계열 데이터 수집을 효율화한다. 본 논문은 안정적 데이터 수집과 신속한 문제 대응을 통해 산업 환경에서의 데이터 활용성을 높이는데 기여하며, 다양한 챗봇 알림 시스템을 도입하여 데이터 수집 부담을 줄이고 모니터링 부하를 최적화하는데 기여한다. The energy crisis is emerging as a serious problem around the world. In the case of Korea, there is great interest in energy efficiency research related to industrial complexes, which use more than 53% of total energy and account for more than 45% of greenhouse gas emissions in Korea. One of the studies is a study on saving energy through sharing facilities between factories using the same utility in an industrial complex called a virtual energy network plant and through transactions between energy producing and demand factories. In such energy-saving research, data collection is very important because there are various uses for data, such as analysis and prediction. However, existing systems had several shortcomings in reliably collecting time series data. In this study, we propose an intelligent IIoT platform to improve it. The intelligent IIoT platform includes a preprocessing system to identify abnormal data and process it in a timely manner, classifies abnormal and missing data, and presents interpolation techniques to maintain stable time series data. Additionally, time series data collection is streamlined through database optimization. This paper contributes to increasing data usability in the industrial environment through stable data collection and rapid problem response, and contributes to reducing the burden of data collection and optimizing monitoring load by introducing a variety of chatbot notification systems.

      • KCI등재

        머신러닝&딥러닝 모델을 활용한 댐 일유입량 예측시 융적설을 고려하기 위한 데이터 전처리에 대한 방법 연구

        조영식,정관수 한국수자원학회 2024 한국수자원학회논문집 Vol.57 No.1

        댐유입량 예측에 대하여 데이터 기반 머신러닝 및 딥러닝(Machine Learning & Deep Learning, ML&DL) 분석도구들이 공개되어 다양한 분야에서 ML&DL의 적용연구가 활발히 진행되고 있으며, 모델의 자체 성능향상 뿐만 아니라 모델의 특성을 고려한 데이터의 전처리도 댐유입량을 정확하게 예측하게 하는 중요한 모델성능 향상의 요소라고 할 수 있다. 특히 기존 강우자료는 적설량을 열선 설비를 통하여 녹여 강우량으로 환산되어 있으므로, 융적설에 따른 강우와 유입량의 상관관계를 왜곡하게 된다. 따라서 본연구에서는 소양강댐과 같이 융적설의 영향을 받는 댐유역에 대한 댐일유입량 예측시 겨울에 강설량이 적설이 되어 적게 유출되는 현상과, 봄에 융설로 인하여 무강우나 적은 비에도 많은 유출이 일어나는 물리적 현상을 ML& DL모델로 적용하기 위하여 필요한 강우 데이터의 전처리에 대한 연구를 수행 하였다. 강우계열, 유입량계열을 조합하여 3가지 머신러닝(SVM, RF, LGBM)과 2가지 딥러닝(LSTM, TCN) 모델을 구축하고, 최적 하이퍼파라메터 튜닝을 통하여 적합 모델을 적용하고 한 결과, NSE 0.842~0.894로 높은 수준의 예측성능을 나타내었다. 또한 융적설을 반영한 강우보정 데이터를 만들기 위하여 융적설 모의 알고리즘을 개발하고, 이를 통하여 산정된 보정강우를 머신러닝 및 딥러닝 모델에 적용한 결과 NSE 0.841~0.896 으로 융적설 적용전과 비슷한 높은 수준의 예측 성능을 나타내었으나, 융적설 기간에는 조정된 강우로 학습되어 예측되었을 때 실측유입량에 근접하는 모의결과를 나타내었다. 결론적으로, 융적설이 영향을 미치는 유역에서의 데이터 모델 적용시에는 입력자료 구축시 적설 및 융설이 물리적으로 타당한 강우-유출 반응에 적합하도록 전처리과정이 중요함을 밝혔다. Research in dam inflow prediction has actively explored the utilization of data-driven machine learning and deep learning (ML&DL) tools across diverse domains. Enhancing not just the inherent model performance but also accounting for model characteristics and preprocessing data are crucial elements for precise dam inflow prediction. Particularly, existing rainfall data, derived from snowfall amounts through heating facilities, introduces distortions in the correlation between snow accumulation and rainfall, especially in dam basins influenced by snow accumulation, such as Soyang Dam. This study focuses on the preprocessing of rainfall data essential for the application of ML&DL models in predicting dam inflow in basins affected by snow accumulation. This is vital to address phenomena like reduced outflow during winter due to low snowfall and increased outflow during spring despite minimal or no rain, both of which are physical occurrences. Three machine learning models (SVM, RF, LGBM) and two deep learning models (LSTM, TCN) were built by combining rainfall and inflow series. With optimal hyperparameter tuning, the appropriate model was selected, resulting in a high level of predictive performance with NSE ranging from 0.842 to 0.894. Moreover, to generate rainfall correction data considering snow accumulation, a simulated snow accumulation algorithm was developed. Applying this correction to machine learning and deep learning models yielded NSE values ranging from 0.841 to 0.896, indicating a similarly high level of predictive performance compared to the pre-snow accumulation application. Notably, during the snow accumulation period, adjusting rainfall during the training phase was observed to lead to a more accurate simulation of observed inflow when predicted. This underscores the importance of thoughtful data preprocessing, taking into account physical factors such as snowfall and snowmelt, in constructing data models.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼