http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
안정적 유전자 특징 선택을 위한 유전자 발현량 데이터의 부트스트랩 기반 Lasso 회귀 분석
조정희(Jeonghee Jo),윤성로(Sungroh Yoon) 한국정보과학회 2017 정보과학회 컴퓨팅의 실제 논문지 Vol.23 No.9
많은 수의 유전자 데이터를 이용해서 Lasso 회귀 분석을 할 때, 유전자 발현량 값들 사이의 높은 상관성으로 인하여 회귀 계수의 추정값이 회귀 분석의 반복 시행마다 달라질 수 있다. L1 정규화에 의해 축소되는 회귀 계수의 불안정성은 변수 선택을 어렵게 하는 요인이 된다. 본 연구에서는 이러한 문제를 해결하기 위하여 부트스트랩 단계를 반복 시행하여 높은 빈도로 선택된 유전자들을 이용한 회귀 모형들을 만들고, 각 모형들에서 안정적으로 선택되는 특징 유전자들을 찾고, 그 유전자들이 위양성 결과가 아님을 입증하였다. 또한, 회귀모형 별 예측지수의 정확도를 실제지수와의 상관관계를 이용해 측정하였는데, 선택된 특징 유전자들의 회귀계수 부호의 분포가 정확도와 관련성을 보임을 확인하였다. When large-scale gene expression data are analyzed using lasso regression, the estimation of regression coefficients may be unstable due to the highly correlated expression values between associated genes. This irregularity, in which the coefficients are reduced by L1 regularization, causes difficulty in variable selection. To address this problem, we propose a regression model which exploits the repetitive bootstrapping of gene expression values prior to lasso regression. The genes selected with high frequency were used to build each regression model. Our experimental results show that several genes were consistently selected in all regression models and we verified that these genes were not false positives. We also identified that the sign distribution of the regression coefficients of the selected genes from each model was correlated to the real dependent variables.
깊은 스파이킹 신경망을 위한 뉴럴 아키텍처 탐색 알고리즘 성능 분석
류준규(Jungyu Ryu),조정희(Jeonghee Jo),김재욱(Jaewook Kim),정연주(YeonJoo Jeong),박성식(Seongsik Park) 대한전자공학회 2023 대한전자공학회 학술대회 Vol.2023 No.6
This paper presents analyses of the performance of three different search algorithms, including random, greedy, and Bayesian, in the neural architecture search (NAS). To conduct this study, we used Autokeras, a keras-based AutoML framework, to search architectures of deep neural networks (DNNs) and deep spiking neural networks (SNNs). We evaluated the performance of NAS algorithms on searching deep SNNs and DNNs on CIFAR-10 datasets. Our experimental results showed that the Bayesian algorithm outperformed the other two in terms of accuracy, while the greedy algorithm achieved the best accuracy on DNNs. Our findings suggest that the Bayesian algorithm is promising in NAS for both DNNs and SNNs.
한혜림(Hyerim Han),조정희(Jeonghee Jo),박종길(Jongkil Park),박성식(Seongsik Park) 대한전자공학회 2023 대한전자공학회 학술대회 Vol.2023 No.6
Multimodal models have been studied as promising model that can overcome the disadvantages of the unimodal models. However, not much research has been conducted on the effectiveness of multimodality in spiking neural networks (SNNs), which have been considered a next-generation artificial neural network for their energy efficiency. Thus, in this paper, we analyzed the effectiveness through experiments on modality, model size, and noise. According to our analysis, we validated that SNNs showed greater effectiveness in multimodality than DNNs.
시퀀스 유사도에 기반한 유전체 데이터베이스 압축 및 영향 분석
권선영(Sunyoung Kwon),이병한(Byunghan Lee),박승현(Seunghyun Park),조정희(Jeonghee Jo),윤성로(Sungroh Yoon) 한국정보과학회 2017 정보과학회 컴퓨팅의 실제 논문지 Vol.23 No.4
유전체 데이터의 급증 및 정밀의료 등 응용 분야 확대에 따라 유전체 데이터베이스의 효율적 관리에 대한 중요성이 커지고 있다. 전통적인 압축 기법을 통해 유전체 데이터를 압축할 경우, 압축효과는 크지만, 압축된 상태에서 데이터베이스를 비교하거나 검색하는 등의 작업이 용이하지 않게 된다. 유전체 데이터 분석에 소요되는 시간은 데이터베이스에 존재하는 시퀀스 수에 비례하며, 중복되거나 유사한 시퀀스가 다수 존재한다는 점에 착안하여, 본 논문에서는 유전체 데이터베이스 상에 존재하는 유사 시퀀스를 제거함으로써 전체 데이터베이스 크기를 줄이는 기법을 제안한다. 실험을 통해 시퀀스 유사도 1% 기준으로도 전체의 약 84% 시퀀스가 제거되며, 약 10배 빠른 분류분석이 가능함을 보인다. 또한 큰 폭의 압축효과에도 불구하고, 범주 다양성 및 분류 분석 등에 미치는 변화가 미미함을 확인함으로써, 시퀀스 유사도 기반의 제안 압축 기법이 유전체 데이터베이스 압축에 효과적인 방법임을 제시한다. Given the explosion of genomic data and expansion of applications such as precision medicine, the importance of efficient genome-database management continues to grow. Traditional compression techniques may be effective in reducing the size of a database, but a new challenge follows in terms of performing operations such as comparison and searches on the compressed database. Based on that many genome databases typically have numerous duplicated or similar sequences, and that the runtime of genome analyses is normally proportional to the number of sequences in a database, we propose a technique that can compress a genome database by eliminating similar entries from the database. Through our experiments, we show that we can remove approximately 84% of sequences with 1% similarity threshold, accelerating the downstream classification tasks by approximately 10 times. We also confirm that our compression method does not significantly affect the accuracy of taxonomy diversity assessments or classification.