RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
        • 등재정보
        • 학술지명
        • 주제분류
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        혼합형태 심볼릭 데이터의 군집분석방법

        김재직,Kim, Jaejik 한국통계학회 2015 응용통계연구 Vol.28 No.6

        오늘날 데이터는 p-차원의 공간에서 점들로써 표현되는 전통적인 형태를 벗어나 시그널(signal), 함수, 이미지(image), 모양(shape) 등과 같은 다양한 형태의 자료들이 데이터로써 고려되고 분석되고있다. 그러한 종류의 새로운 종류의 데이터 중 하나로 심볼릭 데이터(symbolic data)를 고려할 수 있다. 심볼릭 데이터는 구간(interval), 히스토그램(histogram), 목록(list), 통계표, 분포, 또는 모형 등과 같은 다양한 형태들을 가질 수 있다. 지금까지의 연구가 주로 심볼릭 데이터의 각각의 형태별 자료를 고려했다면, 본 연구에서는 이를 확장하여 수집된 히스토그램과 멀티모달의 혼합된 형태로 이루어진 자료에 대한 계층 분할적 군집분석방법을 소개하고 이를 업종별 산업재해자료의 분석을 위해 이용한다. Nowadays we are considering and analyzing not only classical data expressed by points in the p-dimensional Euclidean space but also new types of data such as signals, functions, images, and shapes, etc. Symbolic data also can be considered as one of those new types of data. Symbolic data can have various formats such as intervals, histograms, lists, tables, distributions, models, and the like. Up to date, symbolic data studies have mainly focused on individual formats of symbolic data. In this study, it is extended into datasets with both histogram and multimodal-valued data and a divisive clustering method for the mixed feature-type symbolic data is introduced and it is applied to the analysis of industrial accident data.

      • SCOPUSKCI등재

        AE 신호를 이용한 HDD 슬라이더 공기베어링의 부상상태 측정

        김재직,정태건,Kim, Jae-Jic,Jeong, Tae-Gun 대한기계학회 2001 大韓機械學會論文集A Vol.25 No.9

        The AE measurement is one of the most convenient methods for detecting contacts between the slider and the disk. The AE method has been widely used in the investigation of the tribology of sliding interfaces due to its convenience. We examined the relationship between the AE signal and the flying height of a slider. We investigated the influence of the disk linear velocity on the AE rms signal by using the AE measurement system. The experiment also gives the relationship between the take-off velocity and the disk surface conditions. To investigate the behavior of the slider further, the variances of the AE signals are analyzed. The experimental results indicate that the increase in the magnitude of the AE rms signal does not necessarily mean the slider/disk contacts.

      • KCI등재

        서울 아파트 매매가 자료의 심볼릭 데이터를 이용한 군집분석

        김재직,Kim, Jaejik 한국데이터정보과학회 2015 한국데이터정보과학회지 Vol.26 No.6

        In this study, 64 administrative regions with high frequencies of apartment trade in Seoul, Korea are classified by the apartment sale price. To consider distributions of apartment price for each region as well as the mean of the price, the symbolic histogram-valued data approach is employed. Symbolic data include all types of data which have internal variation in themselves such as intervals, lists, histograms, distributions, and models, etc. As a result of the cluster analysis using symbolic histogram data, it is found that Gangnam, Seocho, and Songpa districts and regions near by those districts have relatively higher prices and larger dispersions. This result makes sense because those regions have good accessibility to downtown and educational environment. 이 논문에서는 아파트 매매가 활발히 일어나는 서울시내 64개 행정동들에 대해 아파트 전용면적별 실거래 매매가를 기준으로 군집분석을 실시하였다. 군집분석에 있어서 각 행정동의 실거래가에 대한 정보를 최대한 이용하기 위해 실거래가의 평균 뿐만 아니라 그 분포까지 고려할 수 있도록 전통적인 형태의 데이터를 히스토그램 형태의 데이터로 변환하여 분석을 하였다. 히스토그램 데이터는 심볼릭 데이터의 한 종류이고, 심볼릭 데이터는 기본적으로 구간, 목록, 히스토그램, 분포, 모형 등과 같이 데이터 자체가 내부적인 변동을 갖는 모든 형태의 데이터를 포함한다. 이러한 각 행정동들의 내부적인 매매가의 변동을 고려한 군집분석의 결과 강남구, 서초구, 송파구와 그에 인접한 행정동들이 상대적으로 다른 지역보다 매매가도 높았고 실거래가의 분포도 훨씬 더 넓은 것으로 조사되었다. 전반적으로 도심에 대한 접근성이 좋고 교육환경이 우수한 지역과 강북의 뉴타운 지역이 상대적으로 주변지역보다 더 높고 넓은 매매가 분포를 보이는 것으로 분석되었다.

      • KCI등재

        기계학습 접근법에 기반한 유전자 선택 방법들에 대한 리뷰

        이하정,김재직,Lee, Hajoung,Kim, Jaejik 한국통계학회 2022 응용통계연구 Vol.35 No.5

        Gene expression data present the level of mRNA abundance of each gene, and analyses of gene expressions have provided key ideas for understanding the mechanism of diseases and developing new drugs and therapies. Nowadays high-throughput technologies such as DNA microarray and RNA-sequencing enabled the simultaneous measurement of thousands of gene expressions, giving rise to a characteristic of gene expression data known as high dimensionality. Due to the high-dimensionality, learning models to analyze gene expression data are prone to overfitting problems, and to solve this issue, dimension reduction or feature selection techniques are commonly used as a preprocessing step. In particular, we can remove irrelevant and redundant genes and identify important genes using gene selection methods in the preprocessing step. Various gene selection methods have been developed in the context of machine learning so far. In this paper, we intensively review recent works on gene selection methods using machine learning approaches. In addition, the underlying difficulties with current gene selection methods as well as future research directions are discussed.

      • KCI등재

        텍스트 마이닝 기법을 이용한 게임 마케팅 비디오에서의 스피치 분석

        이여경,김재직 한국통계학회 2022 응용통계연구 Vol.35 No.1

        Nowadays, various social media platforms are widely spread and people closely use such platforms in daily life. By doing so, social influencers with a large number of subscribers, views, and comments have huge impact in our society. Following this trend, many companies are actively using influencers for marketing purpose to promote their products and services. In this study, we extract the speeches of influencers from videos for game marketing and analyze them using various text mining techniques. In the analysis, we distinguish game videos leading to successful marketing and failed marketing, and we explore and compare the linguistic features of the influencers for successful and failed marketings. 오늘날 다양한 소셜 미디어 플랫폼이 널리 퍼져 있고 사람들은 그들의 일상생활 속에서 밀접하게 그러한 플랫폼들을 이용하고 있다. 이에 따라, 많은 수의 구독자, 시청, 댓글 등을 보유한 인플루언서들은 우리 사회 속에서 큰 영향력을 가지게 되었다. 이러한 추세에 따라 많은 회사들은 그들의 상품과 서비스 판매의 촉진을 위한 마케팅 목적으로 인플루언서들을 적극 활용하고 있다. 본 연구에서는 게임 마케팅을 위한 비디오에서 인플루언서들의 스피치를 추출하고 텍스트화하여 이를 텍스트 마이닝 기술을 이용하여 탐색적으로 분석한다. 분석에 있어, 성공한 마케팅 비디오와 실패한 마케팅 비디오를 구분하고 성공, 실패한 마케팅 비디오에서 인플루언서들의 언어적 특징들을 비교 분석한다.

      • KCI등재

        자기조직화지도에서 연결강도에 기반한 새로운 군집타당성지수

        상민,김재직 한국통계학회 2020 응용통계연구 Vol.33 No.5

        자기조직화지도는 고차원의 원자료를 노드들로 이루어진 저차원의 공간으로 투영하는 비지도학습 방법이다. 이 방법은 고차원의 자료를 노드들을 사용하여 2 또는 3차원의 공간에서 시각화할 수 있고, 이를 통해 자료의 특성을 탐색하는데 유용하다. 자료의 구조를 파악하기 위해 종종 노드들에 대한 군집분석을 시도하는데, 군집분석의 중요한 문제중 하나는 군집의 개수를 결정하는 것이다. 이 문제를 해결하기 위해 다양한 군집타당성지수들이 지금까지 개발되어 왔고, 이러한 지수들은 자기조직화지도의 노드들의 군집분석에 직접적으로 적용될 수 있다. 그러나, 자기조직화지도가 원자료의 위상적 특성을 저차원 공간에 반영할 수 있다는 특징을 갖는데 반해, 이러한 일반적인 지수들은 이를 고려하지 않는 문제가 있다. 이에 본 연구에서는 원자료의 위상적 특성을 고려한 노드들 사이의 연결강도를 기반으로 하는 군집타당성지수를 제안한다. 이 새로운 군집타당성지수의 성능은 모의실험을 통해 기존의 군집타당성지수들과의 비교되고 검증된다. The self-organizing map (SOM) is a unsupervised learning method projecting high-dimensional data into low-dimensional nodes. It can visualize data in 2 or 3 dimensional space using the nodes and it is available to explore characteristics of data through the nodes. To understand the structure of data, cluster analysis is often used for nodes obtained from SOM. In cluster analysis, the optimal number of clusters is one of important issues. To help to determine it, various cluster validity indexes have been developed and they can be applied to clustering outcomes for nodes from SOM. However, while SOM has an advantage in that it reflects the topological properties of original data in the low-dimensional space, these indexes do not consider it. Thus, we propose a new cluster validity index for SOM based on connectivity between nodes which considers topological properties of data. The performance of the proposed index is evaluated through simulations and it is compared with various existing cluster validity indexes.

      • KCI등재

        희박한 데이터에 대한 선형판별분석에서 최적의 차원 수 결정

        신가인,김재직 한국통계학회 2017 응용통계연구 Vol.30 No.6

        Datasets with small n and large p are often found in various fields and the analysis of the datasets is still a challenge in statistics. Discriminant analysis models for such datasets were recently developed in classification problems. One approach of those models tries to detect dimensions that distinguish between groups well and the number of the detected dimensions is typically smaller than p. In such models, the number of dimensions is important because the prediction and visualization of data and can be usually determined by the K-fold cross-validation (CV). However, in sparse data scenarios, the CV is not reliable for determining the optimal number of dimensions since there can be only a few observations for each fold. Thus, we propose a method to determine the number of dimensions using a measure based on the standardized distance between the mean values of each group in the reduced dimensions. The proposed method is verified through simulations. 오늘날 관찰값의 개수에 비해 변수의 개수가 큰 희박한 데이터셋은 다양한 분야에서 쉽게 찾아볼 수 있고, 통계학에서 그러한 데이터셋에 대한 분석은 하나의 도전이 되어 왔다. 그러한 희박한 데이터에 대한 분류를 위해 판별분석모형들이 최근에 개발되었다. 그러한 판별분석모형들 중 하나의 접근법은 그룹들을 잘 구분해주는 차원들을 찾기를 시도하는데, 그러한 차원들은 데이터의 변수의 개수보다 훨씬 적다. 그러한 모형에서 차원의 수는 예측과 자료의 시각화를 위해 중요한 역할을 하고 일반적으로 K-묶음 교차타당성 방법에 의해 결정된다. 하지만, 희박한 데이터의 경우 K-묶음 교차타당성 방법 적용시 각 묶음에 대한 관찰값의 개수가 매우 적을 수 있기 때문에 교차타당성에 의한 차원 수 결정은 신뢰성이 떨어질 수 있다. 따라서, 본 연구에서는 그러한 희박판별분석모형에 의해 찾아진 차원들에서 각 그룹들의 평균 간의 표준화된 거리에 근거한 측도를 사용하여 최적의 차원 수를 결정하는 방법을 제안하고, 제안된 방법은 모의실험을 통해 검증된다.

      • KCI등재

        SIR 모형을 이용한 한국의 코로나19 확산에 대한 개입 효과 분석

        조수민,김재직,Cho, Sumin,Kim, Jaejik 한국통계학회 2021 응용통계연구 Vol.34 No.3

        코로나19 바이러스는 2020년에 전세계적으로 심각하게 확산되었고, 우리의 일상생활 전체에 상당한 영향을 미치고 있다. 현재 전세계는 이 유행병 사태 아래에 여전히 있고 한국 또한 이 상황에 대해 예외가 아니다. 이 유행병 기간동안 한국에서는 이 바이러스 확산을 방지하기 위한 또는 가속화시킨 몇 가지 사건들이 있었다. 감염병에 대한 방역 정책을 세우기 위해 이러한 사건들의 감염병 확산에 대한 개입 효과를 조사하는 것은 매우 중요하다. SIR 모형은 미분방정식을 통해 감염병 확산의 동적 행태를 파악하기 위해 자주 사용되는 방법이다. 그러나, SIR 모형은 관찰된 데이터의 불확실성을 고려하지 않는 결정적인 모형이다. 따라서 SIR 모형에서 데이터의 불확실성을 고려하기 위해 베이지안 접근법이 사용될 수 있고, 이러한 접근법은 SIR 모형에서 감염률에 대한 시간변이함수에 근거한 개입효과분석을 가능하게 한다. 본 연구에서는 베이지안 접근법에 근거한 확률적 SIR 모형을 이용하여 한국에서의 코로나19 바이러스의 확산 추세를 설명하고 그러한 사건들에 대한 개입효과를 조사한다. COVID-19 has spread seriously around the world in 2020 and it is still significantly affecting our whole daily life. Currently, the whole world is still undergoing the pandemic and South Korea is no exception to it. During the pandemic, South Korea had several events that prevented or accelerated its spread. To establish the prevention policies for infectious diseases, it is very important to evaluate the intervention effect of such events. The susceptible-infected-removed (SIR) model is often used to describe the dynamic behavior of the spread of infectious diseases through ordinary differential equations. However, the SIR model is a deterministic model without considering the uncertainty of observed data. To consider the uncertainty in the SIR model, the Bayesian approach can be employed, and this approach allows us to evaluate the intervention effects by time-varying functions of the infection rate in the SIR model. In this study, we describe the time trend of the spread of COVID-19 in South Korea and investigate the intervention effects for the events using the stochastic SIR model based on the Bayesian approach.

      • KCI등재

        범주형 반복측정자료를 위한 일반화 추정방정식의 소표본 특성

        동욱,김재직 한국통계학회 2002 응용통계연구 Vol.15 No.2

        Liang과 Zeger는 이산형 혹은 연속형 반복측정자료를 분석하기 위한 일반화 추정방정식 (GEE)을 제안하였다 GEE모형은 범주형 반복측정자료의 모형으로 확장될 수 있으며, 이 GEE추정량은 대표본인 경우 다변량 정규분포를 따른다. 그러나 GEE는 대표본근사이론에 기초한다. 본 논문에서는 소표본인 경우 반복 측정된 순서자료에 대한 GEE추정량의 성질을 연구한다. 우리는 두가지 방법을 사용하여 두그룹의 반복 측정된 순서자료를 생성하며 모의실험을 통하여 소표본인 경우 여러 개 범주를 갖는 순서반응 자료에 대하여 GEE추정량의 1종 오류율, 검정력, 상대효율, 두 그룹의 표본크기가 다를 경우 효과, 그리고 분산 추정량의 성질등을 연구한다. Liang and Zeger proposed generalized estimating equations(GEE) for analyzing repeated data which is discrete or continuous. GEE model can be extended to model for repeated categorical data and its estimator has asymptotic multivariate normal distribution in large sample sizes. But GEE is based on large sample asymptotic theory. In this paper, we study the properties of GEE estimators for repeated ordinal data in small sample sizes. We generate ordinal repeated measurements for two groups using two methods. Through Monte Carlo simulation studies we investigate the empirical type 1 error rates, powers, relative efficiencies of the GEE estimators, the effect of unequal sample size of two groups, and the performance of variance estimators for polytomous ordinal response variables, especially in small sample sizes.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼