http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
신유현 ( Youhyun Shin ),박성빈 ( Seongbin Park ) 한국컴퓨터교육학회 2013 한국컴퓨터교육학회 학술발표대회논문집 Vol.17 No.1
시맨틱 웹은 컴퓨터가 스스로 정보를 처리할 수 있도록 표현이 된 웹의 확장된 형태이다. 이에 기계가 이해할 수 있는 환경으로 구성되어 있는 시맨틱 웹을 바탕으로 의미적으로 유사한 결과물을 찾아내는 방법에 대한 연구가 이루어지고 있다. 본 연구에서는 시맨틱 웹의 항해가능성에 영향을 주는 요소들 및 그 요소들을 반영한 시맨틱 웹의 구조에 대해 연구를 하였다. 본 연구의 결과를 토대로 사용자가 원하는 것을 얼마나 쉽게 찾을 수 있는지를 나타내는 항해가능성 공식을 만들 수 있고, 항해가능성이 높은 시맨틱 웹을 만들 수 있으리라 기대된다.
wav2vec2.0을 활용한 한국어 음성 감정 분류를 위한 데이터 샘플링 전략
신미르 ( Mirr-shin ),신유현 ( Youhyun Shin ) 한국정보처리학회 2023 한국정보처리학회 학술대회논문집 Vol.30 No.2
음성 기반의 감정 분석은 인간의 감정을 정확하게 파악하는 데 중요한 연구 분야로 자리잡고 있다. 최근에는 wav2vec2.0과 같은 트랜스포머 기반의 모델이 음성 인식 분야에서 뛰어난 성능을 보이며 주목받고 있다. 본 연구에서는 wav2vec2.0 모델을 활용하여 한국어 감성 발화 데이터에 대한 감정 분류를 위한 데이터 샘플링 전략을 제안한다. 실험을 통해 한국어 음성 감성분석을 위해 학습 데이터를 활용할 때 감정별로 샘플링하여 데이터의 개수를 유사하게 하는 것이 성능 향상에 도움이 되며, 긴 음성 데이터부터 이용하는 것이 성능 향상에 도움이 됨을 보인다.
적은 양의 음성 및 텍스트 데이터를 활용한 멀티 모달 기반의 효율적인 감정 분류 기법
신미르 ( Mirr Shin ),신유현 ( Youhyun Shin ) 한국정보처리학회 2024 정보처리학회논문지. 소프트웨어 및 데이터 공학 Vol.13 No.4
In this paper, we explore an emotion classification method through multimodal learning utilizing wav2vec 2.0 and KcELECTRA models. It is known that multimodal learning, which leverages both speech and text data, can significantly enhance emotion classification performance compared to methods that solely rely on speech data. Our study conducts a comparative analysis of BERT and its derivative models, known for their superior performance in the field of natural language processing, to select the optimal model for effective feature extraction from text data for use as the text processing model. The results confirm that the KcELECTRA model exhibits outstanding performance in emotion classification tasks. Furthermore, experiments using datasets made available by AI-Hub demonstrate that the inclusion of text data enables achieving superior performance with less data than when using speech data alone. The experiments show that the use of the KcELECTRA model achieved the highest accuracy of 96.57%. This indicates that multimodal learning can offer meaningful performance improvements in complex natural language processing tasks such as emotion classification.
변형된 비속어 탐지를 위한 토큰 기반의 분류 및 데이터셋
고성민 ( Sungmin Ko ),신유현 ( Youhyun Shin ) 한국정보처리학회 2024 정보처리학회논문지. 소프트웨어 및 데이터 공학 Vol.13 No.4
Traditional profanity detection methods have limitations in identifying intentionally altered profanities. This paper introduces a new method based on Named Entity Recognition, a subfield of Natural Language Processing. We developed a profanity detection technique using sequence labeling, for which we constructed a dataset by labeling some profanities in Korean malicious comments and conducted experiments. Additionally, to enhance the model's performance, we augmented the dataset by labeling parts of a Korean hate speech dataset using one of the large language models, ChatGPT, and conducted training. During this process, we confirmed that filtering the dataset created by the large language model by humans alone could improve performance. This suggests that human oversight is still necessary in the dataset augmentation process.