http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
Zipf 법칙과 TV 드라마 대본의 고차 N-gram 분포
김준식(Joon Shik Kim),이충연(Chung-Yeon Lee),장민수(Minsu Zhang),김경태(Kyoung-Tae Kim),남문곤(Mun-Gon Nam),남준희(Jun-Hee Nam) 한국지능시스템학회 2012 한국지능시스템학회 학술발표 논문집 Vol.22 No.1
일반 문서는 빈도수가 높게 자주 사용되는 소수의 단어들과 적은 빈도로 쓰이는 다수의 단어들로 구성되며, 문서에 등장하는 단어들의 빈도수를 내림차순으로 정렬하면 멱법칙(power law)을 따르는 것으로 알려져 있다. 이렇게 지수분포를 따르는 현상을 Zipf law이라고 한다. Log-log 데이터 분포를 1차 선형 함수로 근사시키면 앞쪽의 작은 절대값의 음수 기울기 부분과 뒤쪽의 큰 절대값의 음수 기울기 부분으로 나뉘는 현상이 밝혀졌다. 특히 하나의 단어에 대한 빈도수 분포를 Unigram 분석이라고 한다. 본 논문에서는 Unigram 분석을 확장하여 연속된 다수의 단어의 빈도수를 살펴보는 N-gram 분석법을 적용함으로써 구 단위의 언어망 구조의 Zipf law의 유효성을 살펴보았다. N-gram 분석법을 TV 드라마 대본에 적용하여 구어체의 자연어 대사를 분석한 연구는 현재까지 없었다. TV 드라마 236편의 전체 영어 대본을 데이터로 사용하여 등장인물 여섯 명의 대사들에 대해서 Unigram, Bigram, Trigram의 분포를 비교하였다. 여섯 명의 Unigram 분석 결과 모두 Zipf law를 따름을 알 수 있었다. Bigram도 Zipf law를 따름을 알 수 있었다. 그러나 Trigram의 결과는 Zipf law와 다른 양상을 보였다. 즉 Log-log 데이터의 앞쪽의 음수 기울기의 절대값이 뒤쪽의 음수 기울기의 절대값보다 큰 값을 가졌으며 이는 알려진 Zipf law와 다른 결과이다. 주인공의 대사 모음과 비슷한 크기의 단어 종류와 단어 수를 가지는 무작위로 생성된 문서에 대해서 Unigram, Bigram, Trigram의 분포를 분석하였다. Unigram, Bigram, Trigram 분석결과 빈도수가 매우 적어서 자연어 대본의 결과와 다른 패턴을 보였다. 우연에 의한 fluctuation 효과로 생각된다. 본 연구 결과는 일상 구어체 자연어 대사의 경우 일반적인 문서와는 달리 Trigram에서 많이 사용되는 소수의 단어들과 적은 빈도로 쓰이는 대다수의 단어들로 이루어지는 더욱 강한 power law를 따름을 의미한다.
김준식(Joon-Shik Kim),박찬훈(Chan-Hoon Park),이은석(Eun-Seok Lee),장병탁(Byoung-Tak Zhang) 한국정보과학회 2008 정보과학회논문지 : 시스템 및 이론 Vol.35 No.3·4
We studied the variety and affinity between the successive words in the text document. A number of groups were defined by the frequency of a following word in the whole text (corpus). In the previous studies, the Zipf's power law was explained by Chinese restaurant process and hub node was searched after by examining the edge number profile in scale free network. We have observed both a power law and a hub profile at the same time by studying the conditional frequency and degeneracy of a group. A symmetry between the affinity and the variety between words were found during the data analysis. And this phenomenon can be explained within a viewpoint of "exploitation and exploration." We also remark on a small symmetry breaking phenomenon in TIPSTER data. 전체문서(corpus)에서의 두 단어 간 연결 상태를 파악하여 앞 단어 다음에 오는 단어의 빈도수를 기반으로 여러 형태의 그룹을 분류하여 단어 간 다양성과 긴밀성을 살펴보았다. 기존의 연구에서 Zipf’s Power Law는 Chinese Restaurant Process로 설명되었고 Scale Free Network에서는 edged의 수에 따른 노드의 profile을 조사하여 hub들을 찾는 연구가 수행되었다. 본 연구에서는 단어 간 연결의 유일성과 다양성을 조사하여 Zipf's Power Law와 hub profile을 동시에 살펴보았다. 데이타 분석 결과 단어 간 연결의 긴밀성과 다양성 사이에서 대칭성으로 함축되는 유의한 결과를 얻었으며 이는 소위 ‘exploitation’과 ‘exploration’의 관점에서 설명될 수 있다. 또한 분석 자료인 TIPSTER에서 관찰된 약간의 대칭성 깨짐(symmetry breaking)에 대해서도 논한다.
fMRI 데이터에 적용한 인디언 뷔페 프로세스 닮은 성분 분석법
김준식(Joon Shik Kim),김은솔(Eun-Sol Kim),임병권(Byoung-Kwon Lim),이충연(Chung-Yeon Lee),장병탁(Byoung-Tak Zhang) 한국정보과학회 2011 한국정보과학회 학술발표논문집 Vol.38 No.1C
문서를 이루는 단어들의 빈도수가 지수법칙(power law)를 따른다는 지프의 법칩(Zipf’s law)이 있다. 이러한 단어분포를 고려하여 문서의 토픽을 찾아내는 기계학습법이 디리쉴레 프로세스(Dirichlet process) 이다. 이를 발전시켜서 데이터의 잠재 요인(latent factor)들을 베이즈 확률모델에 기반한 샘플링 바탕으로 찾는 방법이 인디언 뷔페 과정(Indian buffet process) 이다. 우리는 25가지의 특징(feature)들에 대한 점수(rating)들이 볼드(blood oxygen dependent level) 신호와 함께 주어지는 PBAIC 2007 데이터에 주성분 분석법(principal component analysis)를 적용했다. PBAIC 2007 데이터는 비디오 게임을 수행하며 기능적뇌영상(functional magnetic resonance imaging, fMRI) 촬영을 하여 얻어진 공개데이터이다. 우리의 연구에서는 주성분 분석법을 이용하여 10개의 독립 성분(independent component)들을 찾았다. 그리고 1.75초 마다 촬영된 BOLD 신호와 10개의 고유벡터(eigenvector)들간의 내적을 취하여 가중치(weight)를 구하였다. 성분들의 가중치를 낮은 순서로 정렬함으로써 각 시간마다 주도적으로 영향을 미치는 성분들을 알아낼 수 있었다.
하이퍼에지의 돗수분포를 이용하여 원숭이 뇌신경 네트워크의 허브 뇌영역 찾기
김준식(Joon Shik Kim),김은솔(Eun-Sol Kim),임병권(Byoung-Kwon Lim),양진산(Jinsan Yang),장병탁(Byoung-Tak Zhang) 한국정보과학회 2010 한국정보과학회 학술발표논문집 Vol.37 No.2C
Sporns 외[1] 연구에서는 원숭이의 신경다발연결 데이터 베이스인 코코맥(CoCoMac)을 이용하여 허브 영역들을 찾은 바 있다. 이 연구에서는 그래프의 네트워크 척도의 하나인 차(degree)가 높은 영역들을 허브로 찾았다. 우리는 이를 연장하여 하이퍼에지의 돗수분포를 이용하여 허브영역을 구하여 보았다. 이때 하이퍼에지는 클릭(clique)를 의미한다. 기존의 연구의 허브들과 비교할 때 9개중 4개의 영역에서 일치하였다. 또한 마루엽(intraparietal) 영역과 시각영역(visual area)가 추가로 허브영역으로 찾아졌다. 본 연구에서는 높은 차수(order)의 하이퍼에지를 고려하여 조합의 용량(combinatorial capacity)을 기준으로 허브 영역을 찾아보았다. 이 논문의 결과에서 추가된 5영역은 “where”관련 정보를 처리하는 영역들이며 이는 생존에 필수적인 시각관련 영역이다.
김준식(Joon Shik Kim),이충연(Chung-Yeon Lee),김은솔(Eun-Sol Kim),장병탁(Byoung-Tak Zhang) 한국정보과학회 2011 한국정보과학회 학술발표논문집 Vol.38 No.2B
Small world 특성은 인적 네트워크 브레인 네트워크뿐만 아니라 단어들의 연결 그래프에서도 나타나 있다고 알려져 있다. 이러한 네트워크 분석에 있어서 단어의 중요도를 나타내는 대표적인 척도로는 closeness centrality와 betweenness centrality가 있다. 본 논문에서는 TV 드라마 Friends의 대본에 나오는 대사들을 이러한 centrality 척도를 사용하여 분석하였다. 연구의 주제는 각 등장인물들의 특성을 규정짓는 keyword를 추출하는 것이다. Betweenness centrality를 이용하여 Friends 드라마의 여섯 명의 주인공의 social network를 만들 수 있었다. Monica는 세 명의 남자주인공들과 모두 연결되어 있었고 다른 여자 주인공 Phoebe의 연결 또한 발견되었다.
김준식(Joon Shik Kim),이은석(Eun Seok Lee),노영균(Yung-Kyun Noh),장병탁(Byoung-Tak Zhang) 한국정보과학회 2006 한국정보과학회 학술발표논문집 Vol.33 No.1
본 연구는 특정 사물을 계속 접하면서 그 사물에 대한 기억 강도가 의식적 노력 없이도 점점 강화되는 암묵적 기억 인출과정associative memory retrieval의 DNA 연산 가능성을 논한다. 예를 들어 한 표적 단어에 대한 노출이 이를 관찰하는 시스템에게 그 단어의 기억 강도를 강화시키는 반면, 그와 유사한 다른 단어는 천천히 감소되고 나머지 가장 다른 단어는 일찍 잊혀지는 현상을 생각할 수 있다. 이들 단어들과 알파벳 철자들을 DNA 염기서열로 표현하고 simulated annealing을 통하여 결합 결과를 얻는다. Ridge regression 형태의 supervised 학습을 통하여 한 가지 표적 단어가 많이 생성되도록 DNA 조각들의 개수 분포를 변화시켜 진행한다. 실험 예로 ‘tic’ ‘tac’ ‘toe’ 세 가지 단어를 그 아이템으로 정하여 계속 자극받는 표적 단어의 갯수가 증가함을 DNA annealing 시뮬레이션을 통하여 확인할 수 있다. 또한 ‘tac’ 과 ‘t’ 와 ‘c’를 공유하는 ‘tic’ 의 감소 정도가 ‘t’만을 공유하는 ‘toe’ 보다 느림을 확인할 수 있다. 위의 실험들을 통해 연합기억associative memory의 암묵적인출과정을 분자 층위에서 표현할 수 있음을 확인할 수 있다.
하이퍼그래프 모델을 이용한 fMRI Brain Network 의 허브 모듈 분석
김준식(Joon Shik Kim),임병권(Byoung-Kwon Lim),김은솔(Eun-Sol Kim),양진산(Jinsan Yang),장병탁(Byoung-Tak Zhang) 한국정보과학회 2010 한국정보과학회 학술발표논문집 Vol.37 No.2A
본 논문에서는 하이퍼그래프의 고유벡터를 척도로 하여 fMRI기반 Brain Network를 분석하여 중요한 허브노드를 찾는 방법론을 제시한다. 이 방법을 비디오게임을 수행하면서 촬영한 기능적 자기뇌영상(fMRI) 데이터인 PBAIC 2007 데이터셋에 대하여 그 유용성을 검증하였다. 이 데이터는 각 20분씩 세 세션을 촬영한 것이며 처음 두 세션에는 13가지의 감정 항목의 평가치가 각 스캔마다 주어진다. 한 피험자의 첫번째 세션 데이터로부터 13가지 감정 항목에 대하여 상관관계가 높은 각각의 복셀(voxel)들을 추출하였다. 이 13가지의 복셀들의 집합들을 각각 하이퍼에지로 보고 하이퍼그래프를 구성하였다. 하이퍼그래프로부터 인접 행렬(adjacency matrix)를 구성한 후 고유치(eigenvalue)와 고유벡터(eigenvector)를 구하였다. 여기서 고유치가 가장 큰 고유벡터의 원소들은 각 복셀들의 중앙성(centrality), 즉 중요성을 나타내며 이로부터 감정과 관련된 중요한 허브 복셀들과 그들의 국소적 집합인 모듈을 찾았다. 모듈들은 감정 및 작업기억(working memory)과 관련된 뇌 영역들의 클러스터(cluster)로 추정된다.