http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
단백질 상호작용 네트워크 및 유전자 발현값을 이용한 중복 허용 단백질 복합체 탐색 방법
안재균(Jaegyoon Ahn),여윤구(Yunku Yeu),윤영미(Youngmi Yoon),박상현(Sanghyun Park) 한국정보과학회 2012 정보과학회논문지 : 데이타베이스 Vol.39 No.3
단백질 복합체(protein complex)를 찾아내는 것은 생물학적인 현상들을 이해하는 데 있어서 가장 기본적으로 선행되어야 할 과제 중 하나이다. 단백질 복합체를 찾는 방법 중 가장 널리 쓰이는 방법은 단백질 상호 작용 네트워크(protein interaction network)의 군집화(clustering)를 이용하는 것이다. 그러나 이러한 방법을 이용할 경우 단백질 상호 작용 네트워크의 각 간선(protein interaction)은 높은 거짓 긍정(false positive) 및 거짓 부정(false negative) 오류율을 보이기 때문에, 네트워크로부터 단백질 복합체를 정확히 찾아내는 것은 어려운 작업이다. 따라서 본 연구에서는 네트워크 데이터 외에도 유전자 발현값 데이터를 추가적으로 이용해서 단백질 복합체를 찾는 방법을 제시한다. 이 방법은 어떤 단백질은 여러 단백질 복합체에 속할 수 있으므로, 중복을 허용하는 네트워크 탐색 방법을 사용한다. 결과적으로, 본 연구에서 제시한 방법을 이용했을 경우 기존의 단백질 복합체 탐색 방법보다 정확하게 단백질 복합체를 찾음을 확인할 수 있었다. Detecting protein complexes is essential work for understanding biological functions and processes. Most protein complexes detecting methods are based on clustering the protein interaction network. However, one of the difficulties in these methods originates from the fact that protein interactions suffer from high false positive rate. We propose a protein complex detecting algorithm which employs gene expression data, as well as protein interaction network. The proposed algorithm allows overlapping of the protein complexes based on the fact that some proteins can be involved in several complexes at the same time. As a result, we could confirm that our algorithm is more accurate than existing algorithms.
안재균 ( Jaegyoon Ahn ),윤영미 ( Youngmi Yoon ),신은지 ( Eunji Shin ),박상현 ( Sanghyun Park ) 한국정보처리학회 2009 한국정보처리학회 학술대회논문집 Vol.16 No.2
본 논문에서는 이상 표식 유전자를 사용하는 기존 분석방법과 달리, 두 유전자 사이의 관계를 측정하여 정상 클래스와 암 클래스에서의 상관관계가 변화된 정도를 분석하여 차이가 두드러지는 유전자 쌍(gene pair)을 질병 분류자(classifier)로 선택하는 방법을 제시한다. 제안한 암 분류 방법의 실험 결과, 소수의 분류자를 선택하여 높은 정확도로 암을 분류함으로써 그 유용성을 검증하였다.
서상민(Sangmin Seo),안재균(Jaegyoon Ahn) Korean Institute of Information Scientists and Eng 2019 정보과학회논문지 Vol.46 No.10
Characterizing the interactions between compounds and proteins is an important process for drug development and discovery. Structural data of proteins and compounds are used to identify their interactions, but those structural data are not always available, and the speed and accuracy of the predictions made in this way ware limited due to the large number of calculations involved. In this paper, compound-protein interactions were predicted using S2SAE (Sequence-To-Sequence Auto-Encoder), which is composed of a sequence-to-sequence algorithm used in machine translation as well as an auto-encoder for effective compression of the input vector. Compared to the existing method, the method proposed in this paper uses fewer features of protein-compound complex and also show higher predictive accuracy.
유전체 단위 반복 변이(CNV) 발견을 위한 개선된 SW-ARRAY
문명진(Myungjin Moon),안재균(Jaegyoon Ahn),윤영미(Youngmi Yoon),박치현(Chihyun Park),박상현(Sanghyun Park) 한국정보과학회 2008 한국정보과학회 학술발표논문집 Vol.35 No.1
최근 유전체 단위 반복 변이(CNV)의 중요성이 부각되고 있다. CNV란 DNA가 복제될 때 일부가 만들어지지 않거나 혹은 많이 만들어져 그 양이 차이가 나게 되는 것으로, 인간의 질병이나 형질과 밀접한 관련을 가진다고 알려져 있다. 이에 따라 CNV와 관련된 연구가 활발히 진행되었으며, CNV를 찾기 위한 다양한 방법들이 나오게 되었다. 본 논문에서는 CNV를 찾아내는 대표적인 기법 중 하나인 SW-ARRAY에 대해서 알아보고, 여기에 페널티 값과 점수에 따른 가변 임계값을 적용하여 보정함으로써 기존 SW-ARRAY의 문제점을 해결하는 방법을 제안한다. 이를 실제 Array-CGH 데이터에 적용한 결과 긍정 오류 값이 줄어들어 기존의 방식에 비해 정확한 값을 얻게 되었다.
유전자 발현량 데이터의 클러스터링을 이용한 다중 클래스 분류 모델
김현진 ( Hyun Jin Kim ),안재균 ( Jaegyoon Ahn ),박치현 ( Chihyun Park ),윤영미 ( Youngmi Yoon ),박상현 ( Sanghyun Park ) 한국정보처리학회 2011 한국정보처리학회 학술대회논문집 Vol.18 No.2
본 논문에서는 여러 개의 클래스가 존재할 때, 각 클래스 내에서 샘플들을 클러스터링하고 서로 다른 클래스들과 분산도를 비교하여 클러스터가 가장 겹치지 않는 유전자 쌍들을 찾는다. 각 유전자 쌍에서 테스트 샘플과 가장 가까운 클러스터를 찾음으로써 클래스를 분류하고, 최종적으로 과반수 의결(Majority vote)하여 가장 많이 분류된 클래스를 최종 클래스로 확정한다. 그 결과, 해당 모델이 여러 개의 클래스를 가진 데이터에서 다른 비교 알고리즘의 모델들보다 높은 정확도를 나타내었다.
김현지(Hyunji Kim),안재균(Jaegyoon Ahn) Korean Institute of Information Scientists and Eng 2021 정보과학회논문지 Vol.48 No.7
Identifying prognostic genes and using them to predict the prognosis of cancer patients can help provide them with more effective treatments. Many methods have been proposed to identify prognostic genes and predict cancer prognosis, and recent studies have focused on machine learning methods including deep learning. However, applying gene expression data to machine learning methods has the limitations of a small number of samples and a large number of genes. In this study, we additionally use a gene network to generate many random gene paths, which we used for training the model, thereby compensating for the small sample problem. We identified the prognostic genes and predicted the prognosis of patients using the gene expression data and gene networks for five cancer types and confirmed that the proposed method showed better predictive accuracy compared to other existing methods, and good performance on small sample data.
고수현(Soohyun Ko),박치현(Chihyun Park),안재균(Jaegyoon Ahn) Korean Institute of Information Scientists and Eng 2021 정보과학회논문지 Vol.48 No.2
Numerous computer-based methods have been investigated in attempts to reduce the time and cost of drug development. In particular, with the recent development of deep learning techniques, various generation models for generating the chemical formulas of candidate compounds and reinforcement learning models to generate chemical formulas that satisfy specific conditions have been presented. In this paper, we propose a reinforcement learning model that exploits predicted binding affinity information between specific proteins and generated compounds. More specifically, the generative model used in this paper is Stack-RNN, and reinforcement learning is implemented by using Stack-RNN as a policy to ensure that the generated formula has specific chemical properties and high binding affinity with specific proteins. The proposed model generates paper, we generated the chemical formulas of compounds that are similar to three anti-cancer drugs (Sorafenib, Sunitinib, and Dasatinib) by using the target protein information of these three anti-cancer drugs.
권창혁(ChangHyuk Kwon),함인철(Incheol Ham),백석철(Suk-Chul Back),안재균(Jaegyoon Ahn) 융복합지식학회 2019 융복합지식학회논문지 Vol.7 No.1
IT 분야에서는 몇몇 앱 스토어나 개발자 센터를 이용하여 많은 앱이 개발되고 있지만, 생물학 분야에서는 2016년 MIT 10대 Breakthrough 기술로 유전자 앱 스토어가 선정되었지만, 생물학자들의 다양한 요구를 충족시키면서 편리한 개발툴이 개발되지 않았고, 아직 초기 단계에 머물러 있다. 우리는 생물학자나 의료 지식을 가진 사람뿐만 아니라 일반인도 쉽게 앱을 만들어서 배포할 수 있는 앱 개발 센터와 유전체 파일을 가진 사람들이 자유롭게 파일을 올려서 다양한 앱을 돌려보고 해석할 수 있는 웹 기반의 DNA App Center(DNA App Center for Developers)를 배포한다. 기본 템플릿을 이용하여 1~2 시간 만에 앱을 제작할 수 있고, 아이디어만 있으면 프로그래밍을 하지 않고도 디자인, 제작 및 배포까지 가능하다. In the IT field, many apps are being developed using some app stores and developer centers. In the biology field, the DNA App Store was selected by MIT"s 10 breakthrough technologies in 2016, but the development tools that meet the diverse needs of biologists, It has not been developed yet and is still in its early stages. We release a web-based DNA App Center for Developers that allows people with genome files to freely upload files and view and interpret various apps as well as App Builder that make it easy for people to create and distribute apps as well as biologists and medical professionals. You can build your app in 1-2 hours using the default template, and you can design, build and distribute without programming with the idea.
암의 예후 예측을 위한 그래프 기반의 준지도 학습 방법
박치현(Chihyun Park),박상현(Sanghyun Park),김현진(Hyunjin Kim),여윤구(Yunku Yeu),안재균(Jaegyoon Ahn) 한국정보과학회 2013 정보과학회 컴퓨팅의 실제 논문지 Vol.19 No.2
본 논문에서는 준지도 학습 방법에 기반하여 더욱 정확하게 암의 예후를 예측할 수 있는 방법을 제안한다. 제안하는 방법은 유전자 발현을 측정한 마이크로어레이 데이터를 그래프 기반의 준지도 학습에 적용하기 위해서 샘플 기반의 그래프 모델 구축하는 단계와 구축된 그래프 모델에서 비용함수를 이용하여 최종 클래스 레이블을 예측할 수 있는 부분으로 구성되어 있다. 클래스 레이블이 없는 샘플들이 많은 암 예후 관련 데이터에 대해서 결과적으로 비교 방법보다 우수한 분류 정확도를 보임을 확인하였다. In this paper, we propose a graph-based semi-supervised learning method for accurate prediction of cancer prognosis. Our method consist of two parts, one is about transforming mRNA microarray data into graph data structure for learning and the other is about predicting the class labels of unlabeled samples using cost function. As a result, we achieved that our method has outstanding accuracy compared to other methods in the prognosis related cancer data which have many unlabeled samples.