        한국자료분석학회 웹사이트에 대한 웹로그 분석

        강창완,김규곤,김태완 한국자료분석학회 2009 Journal of the Korean Data Analysis Society Vol.11 No.1

        Recently, the field of scientific research has been moved from off-line spaces to on-line spaces of the computer via World Wide Web, due to the development in computer technology. Websites of academic societies provides lots of academical information to the researchers and play important role as a indicator in evaluating academic societies. Specially, the contents, structures and management system of academic societies' websites make it possible for the exchange and search of research information, and improve the satisfaction and also increase the participation of the members in academic societies. Therefore we can justify that the evaluation for the activities of academic societies could be done effectively by website log analysis. In this paper, we analyze weblog data of the Korean Data Analysis Society's website using Google Analytics, derive the current states of it and finally suggest some plans for the efficient managements of this website. The results showed that total number of visits is 411, the number of the pages per visit is 1.65 and the average time on the site is 1 minute. 최근 급속한 컴퓨터 기술의 발전으로 인하여 과학 기술 분야의 연구 정보의 장이 인터넷 공간으로 옮겨오고 있는 실정이다. 이러한 인터넷 시대에서 대부분 학술단체의 활동 중 학회 웹사이트를 이용한 정보 제공은 학회 활동의 평가지표로 매우 중요한 역할을 담당하고 있다. 특히, 학회 웹사이트의 구성 내용과 운영방식은 학회 정보를 이용하거나 연구 정보의 교환 및 탐색하는데 효율적인 밑바탕이 되고 이는 학회 구성원의 학회 참가도 및 만족도에 지대한 영향을 끼친다고 할 수 있다. 본 연구에서는 한국자료분석학회의 웹로그 분석을 하고 이를 통해 학회 웹사이트의 현황을 분석하고 학회 웹사이트의 효율적 운영을 위한 몇 가지 개선 방안을 제시한다. 웹로그 분석 결과 1달 동안에 본 학회를 방문한 방문자 수는 총 411번으로 나타났으며, 방문 당 페이지뷰 수는 1.65, 그리고 평균 머문 시간은 1분으로 나타났다.

      • KCI등재

        한국자료분석학회지에 대한 토픽분석

        강창완,김규곤,최승배 한국자료분석학회 2018 Journal of the Korean Data Analysis Society Vol.20 No.6

        Journal of the Korean Data Analysis Society founded in 1998 has played the role of a major application journal. In this study, we checked the objective of this journal by checking the abstracts for 10 years. Abstract data was crawled from the online journal site (kdas.jems.or.kr) and analyzed by topic model. As a result, we found 18 topics from 2680 abstracts that had several contents, for example, nursing, marketing, economics, regression, factor analysis, data mining and statistical inferences. Topic1 (regression) is most frequent with 460 documents and we found the usefulness of regression in the applied science area. We confirmed the significant 10 association rules using by Fisher’s exact test. Also, for exploring the trend of topics, we conducted the topic analysis for two periods which are 2006-2011 period and 2012-2016 period. We found that the control study was more frequent than survey study over time and regression and factor analysis were frequent regardless of time. 1998년에 창립한 한국자료분석 학회지는 자료분석에 기반한 다양한 전공분야를 위해 현재까지 응용학회지로서 역할을 해오고 있다. 본 연구에서는 이러한 한국자료분석 학회지의 본연의 목적을 잘 수행해오고 있는지 최근 10년간 학회지 요약문을 통해 분석하였다. 분석은 한국연구재단에서 제공한 온라인 저널 홈페이지를 통해 2006년부터 2016년까지의 영문 요약문 2680개를 웹크롤링하여 토픽모델을 적용하였다. 분석결과로 18개의 토픽이 선정되었으며 이에 대한 토픽을 해석한 결과 자료분석학회지는 간호학, 경영학(마케팅), 경제학 등 여러 분야를 다루고 있으며 분석방법으로 회귀분석, 가설검정, 데이터마이닝(연관성분석), 요인분석 등이 많이 이용되고 있음을 볼 수 있었다. 그리고 단어들의 연관성(association rule)분석을 통하여 통계적으로 유의한 연관성 규칙 10개를 제시하였다. 여기서 연관성규칙의 통계적 유의성검정은 피셔의 정확검정(Fisher’s exact test)을 사용하였다. 또한 연구주제(토픽)의 변화를 살펴본 결과 전반기에는 조사연구가, 후반기에는 대조 연구가 많아졌음을 볼 수 있고 또한 회귀분석과 요인분석은 전, 후반기 구분 없이 자료분석에서 공통적으로 많이 사용하는 통계적 방법임을 알 수 있었다.

      • KCI등재

        함수자료대응분석의 정형화 시도

        이광진 한국자료분석학회 2008 Journal of the Korean Data Analysis Society Vol.10 No.1

        A so-called 'functional data correspondence analysis' is not yet introduced in and is not yet commented about, which is combined with methodologies of recently-developed functional data analysis and a fundamental concept of classical correspondence analysis. So this paper makes an attempt to standardize it with an artificial problem of data analysis. Its main steps are followings: ①to estimate probability density functions by group, ②to make an optimal contingency table of which each row represents a group, each column a sub-interval, each cell-value an estimated frequency from the estimated pdf, ③to get row coordinates and column coordinates from a simple correspondence analysis of the last optimal contingency table, and finally ④to get a curve of correspondence function by smoothing the column coordinates. The decision on the proper number of sub-intervals depends maybe on the pattern of the values of chi-square statistic. 비교적 최근에 개발된 자료분석기법인 함수자료분석(functional data analysis)의 방법론과 전통적인 자료분석기법인 대응분석(correspondence analysis)의 기본개념이 결합된 소위 '함수자료대응분석(functional data correspondence analysis)'이란 기법은 아직까지 소개되거나 언급조차 된 적이 없다. 이에 본 연구에서는 가상의 한 자료분석 문제를 제기하고 이를 통해 '함수자료대응분석'이란 이름의 자료분석기법에 대해 그의 정형화를 시도한다. 기본 흐름은 다음과 같다. ①집단별 자료로부터 각 집단의 확률밀도함수를 추정하고, ②집단을 행, 부분구간을 열, 추정된 확률밀도함수에 근거하여 계산된 추정 자료수를 셀의 값으로 갖는 이원분할표들 중 카이제곱 통계량 값을 최대로 하는 이원분할표를 얻고, ③이에 대해 단순대응분석을 실시하여 행범주 및 열범주 좌표점들을 구한다. ④마지막으로 열범주 좌표점들에 대한 평활화를 통해 '대응함수곡선'을 구한다. 물론 부분구간의 적절한 개수 결정은 카이제곱통계량 값들이 변화하는 패턴을 참조하여 이루어진다.

      • KCI등재

        토픽모델링을 활용한 쟁점 분석

        임연수(Yon Soo Lim) 한국자료분석학회 2023 Journal of the Korean Data Analysis Society Vol.25 No.1

        이 연구는 사회적 쟁점을 추적하고 탐색하는 쟁점 분석 측면에서 토픽모델링의 활용 가능성을 탐지하는 데 목적이 있다. 토픽모델링 방식 중 잠재 디리클레 할당(Latent Dirichlet Allocation: LDA) 알고리즘에 기반한 토픽 분석과 구조적 토픽모델링(Structural Topic Modeling: STM) 방법은 연구 접근 방식에 따라 구분해서 사용할 필요가 있다. 가설 검증을 위한 확인적 자료 분석(Confirmatory Data Analysis) 방식에는 STM이 적합하고, 언론 보도에 대한 쟁점 분석과 같이 자료에 대한 탐색적 자료 분석(Exploratory Data Analysis)에는 LDA가 적합하다. LDA 기반 토픽 분석에서 문서 내 메타 정보를 활용해 문서 범주를 분류한다면 동태적 자료 분석도 가능할 수 있다. 이를 실증적으로 살피기 위해서 10개의 국내 주요 전국일간지에서 보도한 증오 관련 기사를 대상으로 LDA 기반 토픽 분석을 수행했다. 분석 결과, 모든 언론사에서 여성 증오 범죄를 2021년에 주요하게 다루고 있었고, 증오와 혐오 정치 토픽이 2022년에 상승하는 추세를 보였다. 증오문제에 대한 보도 방향이 언론사 간 큰 차이를 나타내지 않고 있으며, 정치적 편향에 따른 보도특성도 크지 않았다. 이는 증오 문제가 언론 보도에서는 중요한 쟁점으로 아직은 부상하지 않음을 나타낸다. 결론적으로, 이 연구는 쟁점을 추적하고 탐지하는 활동에 LDA 기반 토픽모델링 방법이 충분히 활용될 수 있다는 점을 실증 분석을 통해 보여준다. This study aims to explore the possibility of using topic modeling in terms of issue analysis in tracking and detecting social issues. Among the topic modeling methods, LDA(Latent Dirichlet Allocation) based topic analysis and STM(Structural Topic Modeling) need to be used separately according to the research approach. STM is suitable for Confirmatory Data Analysis for hypothesis test, and LDA is suitable for Exploratory Data Analysis, such as issue analysis on news media. Dynamic data analysis may be possible if document categories are classified using meta-information in documents in LDA based topic modeling. In order to empirically examine, an LDA based topic analysis was conducted on hatred articles reported by 10 major national daily newspapers in Korea. From the results, all newspapers mainly dealt with hatred crimes against women in 2021, and hatred politics of politicians showed an upward trend in 2022. The direction of news reporting on the hatred issue did not show much difference among newspapers, and the characteristics of news reporting due to political bias were not large. This indicates that the issue of hatred has not yet emerged as an important issue in news coverage. In conclusion, this study demonstrates through empirical analysis that LDA based topic modeling can be fully utilized for research activities that track and detect issues.

      • KCI등재

        다양한 대응분석을 활용한 농업인의 업무상 질병 관계 연구

        이상륜(Sangryun Lee),박진우(Jinwoo Park),홍승혁(Seunghyeok Hong),정형철(Hyeong Chul Jeong) 한국자료분석학회 2021 Journal of the Korean Data Analysis Society Vol.23 No.5

        본 연구에서는 2020년 농업인 업무상 재해 조사 자료에 근거하여, 농업인의 업무상 질병과 여러 요인들 간의 관련성을 찾는 연구를 다루었다. 이를 위해, 수량화 2법, 다중표가 있는 대응분석(multi-tables correspondence analysis), 다중대응분석(multiple correspondence analysis) 등의 분석을 실시하였다. 분석을 위해 농업인의 업무상 질병을 4개의 범주로 구분하였으며, 기타 13개 변수를 재범주화 하는 등, 총 14개 변수를 선정하여 이들 변수간의 관련성을 탐색하였다. 우선, 질병 4범주를 외적기준(종속변수), 다른 13개 변수를 내적기준(설명변수)로 놓고 외적 변수와 내적변수간의 정준상관을 실시한 후 중심화 기법을 사용하는 수량화 2법 분석을 실시하였다. 또한, 외적기준과 내적기준에 대한 13개의 ×  분할표를 하나로 통합한 자료에 대한 다중표 대응분석을 실시하였다. 끝으로, 외적기준과 내적기준에 대한 변수 구분 없이 이들 14개 범주형 변수 모두를 내적기준으로 간주한 다중대응분석을 실시하였다. 수량화 2법에서는 외적기준에 영향을 주는 내적기준 변수를 편상관이나 범위로 도출할 수 있는 반면, 다중대응분석에서는 두 축의 설명력이 분산되어 해석의 용이성을 주는 효과가 있었다. 결론적으로 이들 3가지 분석 모두 유사한 결과를 도출하였는데, 근골격계질환에 영향을 미치는 주요 요인은 농작업 환경 여건, 통증유무, 농업종류, 질병으로 인한 휴업 상태 등과 관련이 있음을 발견하였다. This study dealt with a study to find the relationship between occupational diseases of farmers and various factors based on the ‘2020 Korea farmers’ occupational disease and injury survey’ data. For this purpose, analyzes such as quantification 2 method, multi-tables correspondence analysis, and multiple correspondence analysis were performed. For the analysis, occupational diseases of farmers were divided into 4 categories, and a total of 14 variables were selected, including re-categorizing other 13 variables, and the relationship between these variables was explored. First, 4 categories of disease were set as the external criterion (dependent variable) and the other 13 variables were set as the internal criterion (explanatory variable), and canonical correlation was performed between the external and internal variables, and then quantification 2 analysis using the centralization technique was performed. In addition, a multi-tables correspondence analysis was performed on the data in which 13 contingency tables for external and internal criterions were integrated into one table. Finally, a multiple correspondence analysis was conducted in which all 14 categorical variables were regarded as the internal criterions, without discriminating the variables for the external and internal criterion. In the quantification method 2, the internal criterions that affect the external criterion can be derived as partial correlations or ranges, whereas in the multiple-correspondence analysis, the explanatory of the two axes is dispersed, which has the effect of giving ease of interpretation. In conclusion, all three analyzes yielded similar results, and it was found that the main factors affecting musculoskeletal disorders were related to the agricultural work environment conditions, the presence or absence of pain, the type of agriculture, and the state of suspension due to disease.

      • KCI등재

        DataGuide와 TS2000의 재무자료의 질에 대한 연구

        남현정 한국자료분석학회 2016 Journal of the Korean Data Analysis Society Vol.18 No.4

        The purpose of this research is to examine errors of financial data produced by Korean financial information database providers’ produce. In Korea, there are two major financial information database providers; DataGuide provided by FnGuide and TS2000 operated by Korea Listed Company Association. As these two financial information databases are the most prestige database, almost empirical researches in Korea use them. Additionally, we examine whether faulty financial data may affect or even mislead decision making by using bankruptcy prediction model suggested by Altman’s (1980) based on different data sources. The study examines errors and differences of financial data produced by two major Korean financial information database providers, DataGuide and TS2000. We analyze differences of ten variables for the 677 firms listed in the KSE and 20,310 observations over three years (2011-2013). We find 1,194 (5.88%) differences out of 20,310 observations from financial statement, income statement, and stock data provided by DataGuide and TS2000 and also five variables out of ten key variables are statistically significant different. We also test insolvent firm forecasting employing Altman (1968)’s bankruptcy prediction model using DataGuide and TS 2000. The empirical results shows that 8 (42.9%) insolvent firms are wrongly predicted as normal firms in using DataGuide while TS2000 predicts 7 (50%) insolvent firms as normal firms out of 14 insolvent firms. In addition, comparing Altman (1968) Z-score using DataGuide and TS2000 shows significant different results statistically. 본 연구의 목적은 재무정보회사에서 제공하는 재무자료를 비교하여 오류 가능성을 알아보는 것이다. 분석을 위하여 첫째, 상장사협의회에서 제공하는 TS2000의 재무자료와 FnGuide에서 제공하는 DataGuide의 재무자료를 비교하여 재무자료의 오류 여부를 살펴보고 이 때 발생한 오류가 사소한 오류인지 혹은 오류의 범위가 큰 심각한 오류인지를 알아볼 것이며 오류가 통계적으로 유의한 차이가 있는가를 파악한다. 둘째, Altman(1968)이 제시한 도산예측모형에 DataGuide와 TS2000의 데이터를 이용한 기업의 파산예측결과가 일치하는가를 살펴본다. 또한 Altman(1968)이 제시한 Z-score를 측정하여 재무정보회사의 자료간의 Z-score의 일치여부를 알아볼 것이다. 이를 위하여 한국의 677개 비금융 상장기업의 2011년에서 2013년에 해당하는 3년간의 자료를 사용하여 TS2000과 DataGuide의 재무상태표, 손익계산서 및 주가자료로 구성된 자료를 비교하였다. 20310개의 데이터의 오류를 비교한 결과, 1194개(5.88%)가 불일치하는 것으로 나타났으며, 10개의 변수 중 5개 변수에서 통계적으로 유의한 차이를 발견하였다. 또한 Altman(1968)의 파산예측모형을 도입하여 재무정보회사에 따라 부실기업의 예측력에 대한 분석결과, DataGuide의 자료를 이용한 경우, 14개의 기업 중 10개를 부실기업으로 예측하였으며 TS2000의 자료를 이용한 경우, 14개중 9개로 나타났다. 또한 Z-score의 경우, DataGuide와 TS2000의 자료의 차이가 유의하게 다른 것으로 나타났다. 이상의 연구결과는 한국시장을 대상으로 재무정보회사에서 제공하는 재무자료의 오류를 분석함으로써 지금까지 미국을 대상으로 시행된 연구의 갭을 보완할 수 있었다. 한편, 재무정보회사가 제공하는 재무정보는 신뢰성 높은 데이터로 간주되고 있으나, 재무정보회사에서 제공하는 재무자료의 오류 수준을 공개함으로써 재무정보회사의 재무자료의 질을 높일 수 있는 기회가 될 것이다.

      • KCI등재

        직업선호도검사 연구용 자료 구축을 위한 타당도 연구

        천영민,서현주 한국자료분석학회 2016 Journal of the Korean Data Analysis Society Vol.18 No.3

        This study analyzes the vocational preference inventory test S (short type) data of KEIS (Korea employment information service). The test was classified on-line test using Worknet and off-line test using PAPI (paper and pencil interview). Also this study executes a reliability analysis and a confirmative factor analysis, in order to examine the validity and reliability of test data, conducts a enrichment of data completeness through the coincidence and data cleaning between online test data and offline test data. The results of analysis showed that validity and reliability for 6 interested factors - reliability, investigative, artistic, social, enterprising, conventional – appropriate for this study. But, some goodness-of-fit indicators of confirmative factor analysis showed that need to look more closely at the results. For example, the results showed that should be analyzed to complement using standardization or centering of raw data. This paper aims to provide a complementary data that is connected with other vocational preference inventory test. This study has assumed significance in terms of making of the basis to enrich the vocational preference inventory test data of KEIS. 본 연구에서는 한국고용정보원에서 실시하는 직업심리검사 중에 하나인 직업선호도 검사 S형 자료를 이용하였다. 직업선호도검사는 워크넷을 통한 온라인 수검 검사와 지필로 실시하는 오프라인 검사로 구분된다. 두 검사 자료간 일치 및 자료 정제 작업을 통해 자료 완성도를 향상시키는 노력을 실시하였다. 한편, 검사 자료의 타당도와 신뢰도를 파악하기 위해 신뢰도분석과 확인적 요인분석을 실시하였다. 분석 결과를 통해 총 6개의 흥미 요인에 대한 타당도와 신뢰도를 확인할 수 있었는데, Cronbach α를 확인한 결과, 6가지 흥미 유형 중 탐구형이 0.888로 가장 낮았고, 하위 척도들 중에서는 탐구형의 일반성향이 0.654로 가장 낮았지만 충분히 신뢰할 수 있는 수준이었다. 그러나 확인적 요인분석의 일부 적합성 지표에 대해서는 추가적인 분석과 검토가 필요한 것으로 나타났다. 예를 들어, 원자료에 대한 표준화 또는 중심화(centering)를 통해 자료간 차이를 보완하여 분석하거나 구조모형방정식 적용 과정에서 다양하고 면밀한 비교 검토를 수반해야 함을 보여주는 결과이다. 향후 연구를 통해 보완된 결과를 제시하고, 이를 기반으로 자료간 연계 분석이 가능한 형태의 자료를 구성하여 연구자들의 원활한 자료 활용을 돕도록 하겠다. 본 연구를 통해 한국고용정보원에서 실시하는 직업심리검사 자료의 활용성을 강화할 수 있는 기반을 마련하였다는 점에서 의의를 둘 수 있을 것이다.

      • 한반도 강풍의 시공간적 특성 : 태풍시기와 비태풍시기를 구분하여

        나하나,정우식 한국자료분석학회 2022 한국자료분석학회 학술대회자료집 Vol.2021 No.2

        최근으로 올수록 기후변화에 따른 지구온난화 가속화로 인해 한반도에 영향을 미치는 태풍의 강도가 증가하고, 태풍급 강풍이라는 이름으로 비태풍 시기 발생하는 강풍의 빈도와 강도가 급 격히 증가하며, ‘강풍’으로 인한 피해가 증가하고 있다. 한반도 강풍에 대한 선행연구는 다수 수 행되었으나, 근대기상관측이 수행된 초기의 자료부터 최근 자료가 포함되지 않아 장기적 관점에서의 분석적 연구가 필요하다 할 수 있다. 이에 본 연구에서는 근대기상관측 이후 약 100여년 이상의 장기간 자료를 활용하여 한반도 태풍시기와 비태풍시기에 대한 강풍에 대한 분석을 수행하였으며, 강풍의 시,공간적 특징 파악을 위하여 연도별, 월별, 계절별 분석 및 지점별 분석을 수행하였다. 이들 결과를 바탕으로 향후 우리나라에서 발생하는 강풍에 대한 사전방재 측면에서의 대비에 활용 가능한 정보 제공에 있어 기초자료가 될 수 있을 것으로 사료된다.

      • KCI등재후보

        다중선택 자료에 대한 연관성 측도와 주성분분석

        강현철,한상태 한국자료분석학회 2004 Journal of the Korean Data Analysis Society Vol.6 No.6

        The multiple choice data, which can be considered a sort of multivariate binomial response data, is frequently observed in many applications of marketing research. For this type of data, a principal component analysis based on the correlation matrix(or covariance matrix), which is a Euclidean measure of association, is commonly used method. But actually a wide choice is available since such measures have been developed over the years which embody Euclidean as well as non-Euclidean properties. In this study, we propose several measures of association which can be used for multiple choice data when carrying out a principal component analysis. Also, some results are accompanied by the associated marketing research examples. 마케팅 리서치에서 자주 다루게 되는 자료의 형태 중 하나는 다중선택(multiple choice) 자료이며 이는 일종의 이항반응(binomial response) 다변량 자료로 간주될 수 있다. 일반적으로 이항반응 다변량 자료에 대해서 변수들의 구조적 연관성을 파악하기 위해 마케팅 리서치에서 가장 널리 사용되는 방법 중 하나는 상관행렬(또는 공분산행렬)에 기초한 주성분분석(또는 인자분석)이다. 그러나 다중선택 자료는 통상적인 이항반응 자료와는 약간 독특한 성격을 가지고 있기 때문에 그러한 성질을 고려할 수 있는 연관성 측도와 분석기법을 사용하는 것이 바람직한 경우가 종종 있다. 본 연구에서는 이러한 문제점을 보완하기 위해 자료분석적 측면에서 실제적으로 사용할 수 있는 몇 가지 연관성 측도들을 제시하고 사례분석을 통해 그 결과를 살펴보았다.

      • 기상관측이 시작된 이래 장기간 기상자료를 활용한 태풍에 동반된 기상 극값변화

        나하나,정우식 한국자료분석학회 2022 한국자료분석학회 학술대회자료집 Vol.2021 No.2

        우리나라의 여러 자연재해 가운데 태풍으로 인한 피해는 꾸준히 증가하고 있다. 특히, 2000년 대에 영향을 준 태풍 루사와 매미 시기에는 각각 일 강수량 극값 1위와 최대순간풍속 극값 1위 를 기록하면서 우리나라 역사상 최악의 재산피해를 발생시켰다. 피해의 증가와 태풍의 강도가 강해짐에 대한 태풍의 이론적인 연구는 다수 선행되었으나, 신뢰성 있는 장기간의 기상관측자료를 활용한 실제 태풍 강도의 증가를 분석한 연구는 매우 부족하다. 본 연구에서는 한반도에서 기상관측이 시작된 1904년부터 2020년까지의 한반도 영향태풍에 대한 극값, 즉 최대풍속, 최대순간풍속, 누적강수량, 최저기압 등에 대한 분석을 수행하였다. 본 연구의 결과는 기상청에서 공식적으로 관측이 수행된 1904년부터 2020년까지의 전 기간에 대한 한반도 영향태풍의 관측자료를 분석한 결과로써, 방재적인 측면에서 태풍에 대한 정책 결정의 기준으로써, 중요한 기초자료가 될 수 있을 것으로 사료된다.

