RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
          펼치기
        • 등재정보
          펼치기
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        BERT를 활용한 상표 의견제출통지서 거절이유 분류모델 개발

        윤성식,전재헌,정상일,정찬식,이석준 대한경영정보학회 2021 경영과 정보연구 Vol.40 No.3

        멀티미디어 콘텐츠의 증가와 스마트 기기의 보급으로 다양한 종류의 데이터가 폭발적으로 생산되고 있다. 특히, 텍스트 데이터는 오랜 시간 인류의 의사 표현수단이었으며, 텍스트 분석에 대한 수요 및 필요성은 다 양한 분야에서 지속적으로 증가하고 있다. 최근에는 다양한 분야에서 뛰어난 성능을 보이는 딥러닝과 텍스트 를 의미적으로 벡터화하는 워드 임베딩 (word embedding) 방식이 결합된 ELMo (embeddings from language model), GPT (generative pre-training of a language model), BERT (bidirectional encoder representations from transformers)와 같은 모델들이 개발되어왔다. 특히 구글이 개발한 BERT는 현재 자연 어처리 분야에서 가장 뛰어난 성능을 보이는 언어모델로 손꼽히고 있다. 하지만 ‘영어’나 소셜미디어 데이터 와 같은 ‘일반 텍스트’에 특화된 BERT는 ‘한국어’나 ‘R&D 문서, 지식재산권 문서 등’ 전문 분야에 특화된 텍 스트에서 최적의 성능이 구현되지 않기 때문에 전문 분야에 맞는 말뭉치(corpus)를 학습하는 등의 최적화 과 정을 통해 최적의 성능을 도출할 수 있다. 따라서 본 연구에서는 한글 상표 분야에 특화된 BERT를 개발하 기 위해 상표 의견제출통지서 내 거절이유 텍스트 말뭉치를 활용하여 상표 관련 전문 문서에 특화된 토크나 이저 (tokenizer) 모델을 학습하고 이를 BERT에 활용하였다. 제안 모델의 분류 정확도는 기존의 다국어 BERT 모델의 분류 정확도 성능보다 약 4.97%p 높은 96.89%를 기록하였다. 해당 결과를 통해 자연어 분야 에서 높은 성능을 보였던 BERT가 전문 용어로 구성된 말뭉치 데이터에서도 높은 분류 정확도를 보일 수 있 다는 것을 확인하였다. The increase of multimedia contents and the spread of smart devices have resulted in explosive production of various kinds of data. In particular, text data has been a means of expressing human opinion for a long time, and the demand and necessity for text analysis are continuously increasing in various fields. Recently, models such as the ELMo (embeddings from language model), GPT (generating pre-training of a language model), BERT (bidirectional encoder representations from transformation) have been developed that combine deep learning, which is showing excellent performance in various fields, and the word embedding method that semantically vectorizes text. In particular, BERT developed by Google is considered to be one of the most outstanding language models in the field of natural language processing. However, BERT specialized in 'English' and plain text, such as social media data, does not implement optimal performance in specialized texts such as 'Korean' or 'R&D documents, intellectual property documents', so it can achieve optimal performance through optimization such as learning specialized corpus. Therefore, In this study, in order to develop a BERT specialized in the field of Korean trademarks, a tokenizer model specialized in trademark-related professional documents was learned using a text corpus for rejection in the trademark opinion submission notice and used for BERT. The classification accuracy of the proposed model was 96.89%, which is 4.97% higher than the classification accuracy performance of the existing multilingual BERT model. The results showed that BERT, which showed high performance in the field of natural language, could show high classification accuracy even in corpus data composed of specialized terms.

      • KCI우수등재

        BERT 기반 2단계 분류 모델과 Co-Attention 메커니즘을 이용한 치매와 조현병 관련 질병 진단

        정민교,나승훈,김고운,신병수,정영철 한국정보과학회 2022 정보과학회논문지 Vol.49 No.12

        Noting the recently increasing number of patients, we present deep learning methods for automatically diagnosing dementia and schizophrenia by exploring the use of the novel two-stage classification and the co-attention mechanism. First, the two-stage classification consists of two steps - the perplexity-based classification and the standard BERT-based classification. 1) the perplexity-based classification first prepares two types of BERTs, i.e., control-specific and patients-specific BERTs, pretrained from transcripts for controls and patients as the additional pretraining datasets, respectively, and then performs a simple threshold-based classification based on the difference between perplexity values of two BERTs for an input test transcript; then, for ambiguous cases where the perplexity difference only does not provide sufficient evidence for the classification, the standard BERT-based classification is performed based on a fine-tuned BERT. Second, the co-attention mechanism enriches the BERT-based representations from a doctor’s transcript and a client’s one by applying the cross-attention over them using the shared affinity matrix, and performs the classification based on the enriched co-attentive representations. Experiment results on a large-scale dataset of Korean transcripts show that the proposed two-stage classification outperforms the baseline BERT model on 4 out of 7 subtasks and the use of the co-attention mechanism achieves the best F1 score for 4 out of 8 subtasks. 최근 환자가 많이 증가함에 따라 사회적 문제를 야기하는 치매와 조현병 진단을 위한 모델을 제안한다. 의사와 내담자의 대화 음성 시료를 전사 작업한 스크립트를 이용해 치매와 조현병의 세부적인 분류를 시도하였다. 두 단계 과정으로 분류를 진행하는 2단계 분류 모델과 Co-Attention 메커니즘을 이용한 분류 모델을 제안하였다. 2단계 분류 모델은 정상군과 환자군 각각의 발화에서 계산되는 perplexity 차이에 기반한 분류와 미세 조정한 BERT 모델을 이용한 분류의 통합을 시도한 모델이다. Co-Attention 메커니즘을 이용한 분류 모델은 의사와 내담자 발화를 분리해 각 발화에 대해 표상을 구하고, 이를 바탕으로 표상 간의 어텐션 가중치 공유를 통해 분류하는 모델이다. BERT 모델을 미세 조정하여 분류를 시도한 Baseline 모델과의 F1 점수 비교를 통해 2단계 분류 모델은 7개 분류 태스크 중 4개의 태스크에서 성능 향상을 확인 하였고, Co-Attention 메커니즘 모델은 8개 분류 태스크 중 4개의 태스크에서 가장 높은 F1 점수를 보인 것을 확인하였다.

      • KCI등재

        BERT 기반 Variational Inference와 RNN을 이용한 한국어 영화평 감성 분석

        박천음,이창기 한국정보과학회 2019 정보과학회 컴퓨팅의 실제 논문지 Vol.25 No.11

        최근 자연어처리 분야에서 많은 성능 향상을 보이고 있는 BERT는 양방향성을 가진 트랜스포머(transformer)를 기반으로 한 모델이다. BERT는 OOV (Out Of Vocabulary) 문제를 해결하기 위하여 BPE (Byte Pair Encoding)를 적용하며, 이를 기반으로 언어 모델을 사전 학습하고 출력 층(layer)을 추가하여 자연어처리 태스크를 fine-tuning한다. 감성 분석은 주어진 문장에 대한 잠재적 의미를 분석하고 분류하는 문제이다. 본 논문에서는 감성 분석에 BERT로부터 생성되는 토큰 표현을 이용하기 위하여 대용량 한국어 코퍼스로 언어 모델을 학습한 BERT 모델을 사용한다. 또한 문맥 정보를 인코딩하는 RNN을 BERT 함께 사용하는 방법과, RNN으로 인코딩한 hidden state에 variational inference를 이용하여 감성 분석을 수행하는 방법을 제안한다. BERT is a model based on a bidirectional transformer and has demonstrated immense improvement in performance in the field of natural language processing. BERT applies BPE (Byte Pair Encoding) to solve OOV (Out Of Vocabulary) problem, and pre-trains language model based on the BPE and fine-tunes natural language processing task by adding an output layer. Sentimental analysis is a task of analyzing and classifying the potential meaning of a given sentence. In the present work, we have employed the BERT model which trains the language model with large capacity Korean Corpus to use the token representation generated from BERT for sentimental analysis. In addition, we propose a method of using BERT along with RNN, which encodes context information and a method of performing sentimental analysis using variational inference in hidden state encoded by RNNv.

      • KCI등재

        인공지능기반 사전학습언어모델 적용방안에 관한 연구

        배재권(Jae Kwon Bae) 글로벌경영학회 2024 글로벌경영학회지 Vol.21 No.2

        사전학습언어모델(Pre-trained Language Model)은 대량의 텍스트 데이터를 활용하여 사전에 학습(pre-training)된 자연어 처리 모델을 의미한다. 사전학습언어모델이 다양한 영역에서 활용되고 있으나 전문용어 학습데이터가 부족한 영역에서 도메인에 특화된 용어를 이해하지 못하는 한계점을 가진다. 따라서 최근 BERT(Bidirectional Encoder Representations from Transformers)와 GPT(Generative Pretrained Transformer)를 기반으로 추가 사전학습을 통해 변형된 도메인 특화 언어모델의 필요성이 강조되고 있다. 본 연구에서는 BERT의 사전훈련방법과 BERT 기반의 변형기법(ALBERT, RoBERTa, ELECTRA)을 분석하고, 대표적인 도메인 특화 분야인 바이오의학, 금융, 법률 도메인에서 활용 가능한 사전학습언어모델을 제안하고자 한다. 바이오의학 특화 사전학습모델은 바이오의학 분야의 전문 용어, 의학적 문장 구조, 의학적 개체명 인식 등의 도메인 특정 언어 특성을 학습하도록 설계된다. 이것은 주로 BERT의 사전훈련방법과 아키텍처를 기반으로 전이학습을 통해 바이오의학 작업에 적용될 수 있도록 조정된다. 바이오의학 특화 사전학습모델은 의료 문서 분류, 의료 개체명 인식, 의료 질문 응답, 바이오의학 관련 정보 검색 등의 다양한 자연어 처리 작업에 사용될 수 있다. 금융 특화 사전학습모델은 금융 전문 용어, 금융 시장 동향, 금융 상품 및 서비스에 관련된 문장 구조 등을 이해하고 처리할 수 있는 모델이다. 금융 시장 동향에 관한 자동화된 뉴스 기사를 생성하고, 금융 보고서, 보도 자료 등과 같은 긴 텍스트를 간결하게 요약하여 핵심 정보를 추출하는 작업에 활용될 수 있다. 또한 금융 특화 사전학습모델은 금융 분석가들이 기업의 재무 상태, 성과 및 전망에 대한 투자 제안을 생성하는 데 도움을 준다. 마지막으로 법률 특화 사전학습모델은 법률 문서에 적합한 언어 모델로 법률 문서 분류 및 요약, 법률 문서 유사성 평가 등에 활용된다. 법률 특화 사전학습모델은 BERT 모델을 법률 분야의 특수한 텍스트에 대해 사전학습하고, 이를 통해 법률 문서에 특화된 특성을 학습한다. 이러한 특성은 법률 분야의 특수한 용어, 문맥, 문법 등을 포함한다. 법률 특화 사전학습모델은 법률 말뭉치를 사용한 스크래치 사전학습과 추가 사전학습을 통해 법률 관련 태스크를 해결하도록 성능을 고도화할 수 있다. Pre-trained Language Model(PLM) refers to a natural language processing(NLP) model that has been pre-trained using large amounts of text data. The PLM has the limitation of not being able to understand domain-specific terminology due to a lack of training data for terminology. Therefore, the need for a domain-specific language model modified through BERT- or GPT-based pre-trained learning has recently been emphasized. In this study, we analyze BERT's pre-training method and BERT-based transformation techniques (ALBERT, RoBERTa, ELECTRA) and propose a PLM that can be used in biomedical, financial, and legal domains. The biomedical-specific pre-trained learning model is designed to learn domain-specific language characteristics such as technical terminology, medical sentence structure, and medical entity name recognition in the biomedical field. It is mainly adjusted to be applied to biomedical tasks through transfer learning based on BERT's pre-training method and architecture. For this purpose, it is pre-trained with pre-trained biomedical text data, and this pre-training transfers domain-specific knowledge to the model through learning representations for biomedical-related texts. The finance-specific pre-trained learning model is a model that can understand and process financial terminology, financial market trends, and sentence structures and vocabulary related to financial products and services. It can be used to generate news articles about financial market trends and to extract key information by concisely summarizing long texts such as financial reports and corporate press releases. Additionally, finance-specific pre-trained models help financial analysts generate investment recommendations based on a company's financial condition, performance, and prospects. The legal-specific pre-trained model is a language model suitable for legal documents and is used for legal document classification, legal document summarization, and legal document similarity evaluation. The legal-specific pre-learning model was created by pre-training the BERT model on special texts in the legal field, and through this, it learns characteristics specialized for legal documents. The performance of the legal-specific pre-training model can be improved to solve legal-related tasks through scratch pre-training and additional pre-training using legal corpora.

      • KCI등재

        Improving BERT-based Sentiment Analysis Model using Graph-based Ranking Mechanism

        Junekyu Park(박준규),KyungAh Sohn(손경아) 한국정보과학회 2021 정보과학회 컴퓨팅의 실제 논문지 Vol.27 No.2

        문서 처리의 자동화에 대한 필요성이 대두됨에 따라 인공지능을 통한 자연어 처리(Natural Language Processing) 분야에서 연구가 활발하게 진행되고 있다. 본 연구에서는 자연어 처리 분야 중 특히 감정분석(Sentiment Analysis) 분야에서 그래프 기반의 순위화 메커니즘을 통해 추출한 형태소, 또는 요약 기반의 벡터인 GRAB vector(GRAph-Based vector)를 제안하고 이를 통해 기존의 BERT(Bidirectional Embedding Representations from Transformers)모델에 적용한다. 이를 통하여 더욱 강인하고 성능이 향상된 GRAB-BERT 모델을 제안한다. 또한, GRAB vector가 모델에 미치는 영향을 분석하기 위하여 재귀적 인공신경망(Recurrent Neural Network) 기반 모델들과 BERT 기반 모델에 시퀀스 입력 길이를 각각 다르게 학습한 경우 GRAB vector의 적용 여부에 따른 성능을 한국어와 영어에 대하여 분석한다. 결과적으로 형태소 단위로 추출된 벡터가 BERT와 같은 병렬적으로 문자를 처리하는 모델의 경우, 더욱 강인한 학습이 가능하며 성능이 향상됨을 보인다. 추가로, BERT 기반의 모델과 반대로 재귀적 인공신경망 기반모델들의 경우 형태소 기반이 아닌 그래프 기반 요약문 추출을 통한 벡터를 적용한 경우가 더 효과적임을 보인다. Due to the need for automated document processing, artificial intelligence research has been actively conducted in the field of natural language processing(NLP). In this paper, we propose the GRAB vector(GRAph-Based vector), which consists of vectorized keyword-based morphemes or summaries extracted from the graph-based ranking mechanism. Next, we applied the GRAB vector to the sentiment analysis task, which is an NLP task, and we proposed a more accurate and robust model, GRAB-BERT(GRAB vector-BERT model). Then, to analyze the effect of the GRAB vector on this model, we compared the performances of recurrent neural network models(RNNs) and BERT models with or without the application of the GRAB vector on both English and Korean text samples with different sequence sizes. Our results demonstrate that applying the GRAB vector to models such as BERT to process inputs in parallel improves the robustness of the model and its performance. Furthermore, unlike BERT-based models, RNN models are more effective when applying graph-based extracted summaries than when applying morpheme-based summaries.

      • KCI등재

        BERT와 지식 그래프를 이용한 한국어 문맥 정보 추출 시스템

        유소엽,정옥란 한국인터넷정보학회 2020 인터넷정보학회논문지 Vol.21 No.3

        Along with the rapid development of artificial intelligence technology, natural language processing, which deals with human language, is also actively studied. In particular, BERT, a language model recently proposed by Google, has been performing well in many areas of natural language processing by providing pre-trained model using a large number of corpus. Although BERT supports multilingual model, we should use the pre-trained model using large amounts of Korean corpus because there are limitations when we apply the original pre-trained BERT model directly to Korean. Also, text contains not only vocabulary, grammar, but contextual meanings such as the relation between the front and the rear, and situation. In the existing natural language processing field, research has been conducted mainly on vocabulary or grammatical meaning. Accurate identification of contextual information embedded in text plays an important role in understanding context. Knowledge graphs, which are linked using the relationship of words, have the advantage of being able to learn context easily from computer. In this paper, we propose a system to extract Korean contextual information using pre-trained BERT model with Korean language corpus and knowledge graph. We build models that can extract person, relationship, emotion, space, and time information that is important in the text and validate the proposed system through experiments. 인공지능 기술의 비약적 발전과 함께 사람의 언어를 다루는 자연어 처리 분야 역시 활발하게 연구가 진행되고 있다. 특히 최근에는 구글에서 공개한 언어 모델인 BERT는 대량의 코퍼스를 활용해 미리 학습시킨 모델을 제공함으로써 자연어 처리의 여러 분야에서좋은 성능을 보이고 있다. BERT에서 다국어 모델을 지원하고 있지만 한국어에 바로 적용했을 때는 한계점이 존재하기 때문에 대량의한국어 코퍼스를 이용해 학습시킨 모델을 사용해야 한다. 또한 텍스트는 어휘, 문법적인 의미만 담고 있는 것이 아니라 전후 관계, 상황과 같은 문맥적인 의미도 담고 있다. 기존의 자연어 처리 분야에서는 어휘나 문법적인 의미를 중심으로 연구가 주로 이루어졌다. 텍스트에 내재되어 있는 문맥 정보의 정확한 파악은 맥락을 이해하는 데에 있어 중요한 역할을 한다. 단어들의 관계를 이용해 연결한 지식그래프는 컴퓨터에게 쉽게 문맥을 학습시킬 수 있는 장점이 있다. 본 논문에서는 한국어 코퍼스를 이용해 사전 학습된 BERT 모델과 지식 그래프를 이용해 한국어 문맥 정보를 추출하는 시스템을 제안하고자 한다. 텍스트에서 중요한 요소가 되는 인물, 관계, 감정, 공간, 시간 정보를 추출할 수 있는 모델을 구축하고 제안한 시스템을 실험을 통해 검증한다.

      • KCI등재

        BERT-Fused Transformer 모델에 기반한한국어 형태소 분석 기법

        이창재,나동열 한국정보처리학회 2022 정보처리학회논문지. 소프트웨어 및 데이터 공학 Vol.11 No.4

        Morphemes are most primitive units in a language that lose their original meaning when segmented into smaller parts. In Korean,a sentence is a sequence of eojeols (words) separated by spaces. Each eojeol comprises one or more morphemes. Korean morphologicalanalysis (KMA) is to divide eojeols in a given Korean sentence into morpheme units. It also includes assigning appropriatepart-of-speech(POS) tags to the resulting morphemes. KMA is one of the most important tasks in Korean natural language processing(NLP). Improving the performance of KMA is closely related to increasing performance of Korean NLP tasks. Recent research on KMAhas begun to adopt the approach of machine translation (MT) models. MT is to convert a sequence (sentence) of units of one domaininto a sequence (sentence) of units of another domain. Neural machine translation (NMT) stands for the approaches of MT that exploitneural network models. From a perspective of MT, KMA is to transform an input sequence of units belonging to the eojeol domain intoa sequence of units in the morpheme domain. In this paper, we propose a deep learning model for KMA. The backbone of our modelis based on the BERT-fused model which was shown to achieve high performance on NMT. The BERT-fused model utilizes Transformer,a representative model employed by NMT, and BERT which is a language representation model that has enabled a significant advancein NLP. The experimental results show that our model achieves 98.24 F1-Score. 형태소는 더 이상 분리하면 본래의 의미를 잃어버리는 말의 최소 단위이다. 한국어에서 문장은 공백으로 구분되는 어절(단어)의 조합이다. 형태소분석은 어절 단위의 문장을 입력 받아서 문맥 정보를 활용하여 형태소 단위로 나누고 각 형태소에 적절한 품사 기호를 부착한 결과를 생성하는것이다. 한국어 자연어 처리에서 형태소 분석은 가장 핵심적인 태스크다. 형태소 분석의 성능 향상은 한국어 자연어 처리 태스크의 성능 향상에직결된다. 최근 형태소 분석은 주로 기계 번역 관점에서 연구가 진행되고 있다. 기계 번역은 신경망 모델 등으로 어느 한 도메인의 시퀀스(문장)를다른 도메인의 시퀀스(문장)로 바꾸는 것이다. 형태소 분석을 기계 번역 관점에서 보면 어절 도메인에 속하는 입력 시퀀스를 형태소 도메인 시퀀스로변환하는 것이다. 본 논문은 한국어 형태소 분석을 위한 딥러닝 모델을 제안한다. 본 연구에서 사용하는 모델은 기계 번역에서 높은 성능을 기록한BERT-fused 모델을 기반으로 한다. BERT-fused 모델은 기계 번역에서 대표적인 Transformer 모델과 자연어 처리 분야에 획기적인 성능 향상을이룬 언어모델인 BERT를 활용한다. 실험 결과 형태소 단위 F1-Score 98.24의 성능을 얻을 수 있었다.

      • KCI등재

        BERT 학습에서 GEMM 연산의 낮은 GPU 활용도 분석

        이선정,안정호 한국정보과학회 2022 정보과학회 컴퓨팅의 실제 논문지 Vol.28 No.4

        Graphics processing units (GPUs) are mainly used for deep neural network training based on efficient parallel computation. However, due to the computational characteristics of GEMM when executing BERT training, GPUs do not provide maximum performance. In this paper, we analyze the reasons behind why GPUs cannot be utilized efficiently when GPUs perform the GEMM operation, which is the most important task in BERT training. We identify challenges that the GPU does not allocate tasks evenly to parallel computing units due to the limitation of DRAM capacity and the structural characteristics of BERT. In addition, we analyze the trade-off between increasing the parallelism of the GPU by dividing the number of tasks into smaller units and the memory bandwidth. We confirm that even if the parallelism increases, the performance of the actual GPU is reduced due to the memory bandwidth bottleneck. Based on our results, we explain the importance of the DRAM capacity and bandwidth of the memory hierarchy in the GPU. GPU는 효율적인 병렬화 연산을 바탕으로 딥 뉴럴 네트워크(Deep Neural Network) 학습에 주로 사용된다. 하지만, BERT 학습 간 나타나는 GEMM의 연산 특성으로 인해 GPU는 최대 성능을 제공하지 못한다. 본 논문에서 우리는 V100, A100 GPU를 이용하여 BERT 학습의 가장 중요한 연산인 GEMM을 수행했을 때 GPU가 연산기들을 효율적으로 활용하지 못하는 원인들을 분석하였다. 이를 통해 DRAM 용량의 제한과 BERT의 구조적인 특성으로 인해 GPU가 일을 균등하게 할당받지 못하는 문제를 확인하였다. 추가적으로, 일의 양을 작은 단위로 나누어 GPU의 병렬성을 높이는 방법과 메모리 계층의 대역폭의 트레이드-오프에 대해서 분석하였으며 병렬성을 높이더라도 메모리 대역폭 병목에 의해서 실제 GPU의 성능은 낮아지는 것을 확인하였다. 이러한 분석 결과들을 바탕으로 GPU의 DRAM 용량과 메모리 계층 구조에서 대역폭의 중요성을 확인한다.

      • KCI우수등재

        CBCA 준거 분류에서의 BERT 기반 모델 성능 비교

        신준호,신정수,조은경,윤여훈,정재희 한국정보과학회 2022 정보과학회논문지 Vol.49 No.9

        In the case of child sex crimes, the victim's statement plays a critical role in determining the existence or innocence of the case, so the Supreme Prosecutors' Office classifies the statement into a total of 19 criteria according to Criteria-Based Content Analysis (CBCA), a victim's statement analysis technique. However, this may differ in criteria classification according to the subjective opinion of the statement analyst. Thus, in this paper, two major classification methods were applied and analyzed to present an criteria classification model using BERT and RoBERTa. The two methods comprise of a method of classifying the entire criterion at the same time, as well as method of dividing it into four groups, and then classifying the criteria within the group secondarily. The experiment classified statements into 16 criteria of CBCA and performed comparative analysis using several pre-trained models. As a result of the classification, the former classification method performed better than the latter classification method in 13 of the total 16 criteria, and the latter method was effective in three criteria with a relatively insufficient number of training data. Additionally, the RoBERTa-based model performed better than the BERT-based model in 15 of the 16 criteria, and the BERT model, which was pre-trained using only Korean conversational colloquial language, classified the remaining one criterion uniquely. This paper shows that the proposed model, which was pre-trained using interactive colloquial data is effective in classifying children's statement sentences. 아동 성범죄의 경우 피해자의 진술은 사건의 유, 무죄를 판별함에 있어서 매우 중요하게 작용하기 때문에, 대검찰청에서는 피해자 진술 분석 기법인 Criteria-Based Content Analysis (CBCA)에 따라, 진술 내용을 총 19개의 준거로 분류하여 진술 전체의 신빙성을 판단한다. 그러나 이는 진술분석관의 주관적 의견에 따라 준거 분류가 상이할 수 있다. 따라서 본 논문에서는 BERT와 RoBERTa를 사용하여 객관적 분류 모델을 제시하기 위하여 크게 두가지 분류 방식을 적용하여 비교 분석하였다. 두 가지 방법은 전체 준거를 동시에 분류하는 방식과 4개의 그룹으로 나누어 1차 분류 후 해당 그룹 내에서 어떠한 준거인지 2차 분류하는 방식으로 구성하였다. 진술 문장을 CBCA의 중복 분류되는 준거를 제외한 16개 준거로 분류하고, 여러 사전 학습 모델을 사용한 비교 분석을 수행하였다. 분류 결과, 전자의 분류 방식이 총 16개의 준거 중 13개의 준거에서 후자의 분류 방식보다 성능이 높았으며, 학습 데이터의 수가 상대적으로 부족한 3개의 준거에서 후자의 방식이 효과적임을 확인하였다. 또한 RoBERTa 기반 모델이 16개의 준거 중 15개의 준거에서 BERT 기반 모델보다 성능이 높았으며, 나머지 1개의 준거에서는 한국어 대화형 구어체만으로 사전학습한 BERT 모델만이 유일하게 분류하였다. 이는 대화형 구어체 데이터로 사전 학습된 모델이 아동의 진술 문장을 분류함에 있어서 효과적임을 알 수 있다.

      • KCI등재

        Deep learning can contrast the minimal pairs of syntactic data

        Kwonsik Park,Myung-Kwan Park,Sanghoun Song 경희대학교 언어정보연구소 2021 언어연구 Vol.38 No.2

        The present work aims to assess the feasibility of using deep learning as a useful tool to investigate syntactic phenomena. To this end, the present study concerns three research questions: (i) whether deep learning can detect syntactically inappropriate constructions, (ii) whether deep learning’s acceptability judgments are accountable, and (iii) whether deep learning’s aspects of acceptability judgments are similar to human judgments. As a proxy for a deep learning language model, this study chooses BERT. The current paper comprises syntactically contrasted pairs of English sentences which come from the three test suites already available. The first one is 196 grammatical -ungrammatical minimal pairs from DeKeyser (2000). The second one is examples in four published syntax textbooks excerpted from Warstadt et al. (2019). The last one is extracted from Sprouse et al. (2013), which collects the examples reported in a theoretical linguistics journal, Linguistic Inquiry. The BERT models, base BERT and large BERT, are assessed by judging acceptability of items in the test suites with an evaluation metric, surprisal, which is used to measure how ‘surprised’ a model is when encountering a word in a sequence of words, i.e., a sentence. The results are analyzed in the two frameworks: directionality and repulsion. The results of directionality reveals that the two versions of BERT are overall competent at distinguishing ungrammatical sentences from grammatical ones. The statistical results of both repulsion and directionality also reveal that the two variants of BERT do not differ significantly. Regarding repulsion, correct judgments and incorrect ones are significantly different. Additionally, the repulsion of the first test suite, which is excerpted from the items for testing learners’ grammaticality judgments, is higher than the other test suites, which are excerpted from the syntax textbooks and published literature. This study compares BERT’s acceptability judgments with magnitude estimation results reported in Sprouse et al. (2013) in order to examine if deep learning’s syntactic knowledge is akin to human knowledge. The error analyses on incorrectly judged items reveal that there are some syntactic constructions that the two BERTs have trouble learning, which indicates that BERT’s acceptability judgments are distributed not randomly.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼