
http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
소셜 미디어 지성을 이용한 다중 감성 어휘 구축 및 색채 기반 시각화 방법에 관한 연구
정보화 사회가 가속화됨에 따라 정치, 경제, 문화 등 사회 전반적인 영역에서 정보를 중심으로 문제를 이해하고 현상을 분석하여, 의견을 수렴하고 문제를 해결하는 등 다양한 형태로 이용하려는 노력이 시도되고 있다. 특히, 소셜 미디어와 같은 비정형 데이터는 대중들의 전반적인 의견을 나타내는 중요한 정보로 사용될 수 있기 때문에, 여론을 수렴하여 의사 결정하는 과정에 많은 도움을 줄 수 있다 감성 분석은 주관적인 데이터로부터 대중의 전체적인 의견을 분석하여 유용한 정보를 판단 할 수 있도록 한다. 감성 분석의 중요성은 특정 대상에 대한 주관적 의견들이 모여 하나의 여론을 형성하기 때문에, 감성 분석을 통해 객관적인 형태의 정보로 분석될 수 있고, 주관적인 의견을 표현하지 않은 다른 개인, 집단 또는 기업과 같은 제 3의 대상에게 의사 결정 과정에서 도움을 줄 수 있는 정보를 제공할 수 있다는 점이다. 감성 분석에 대한 사회적 요구와 중요성이 점점 커지면서 감성 분석에 대한 다양한 연구가 진행되고 있지만, 여전히 해결해야 하는 과제가 여러 가지 있다. 첫째, 감성 어휘 집합 구축 문제이다. 시간이나 한정된 의미 관계에 따른 한계를 극복할 수 있는 감성 어휘 구축 방법과 하나의 어휘에 여러 가지 감성을 표현할 수 있는 연구가 필요하다. 둘째, 객관적 표현(objectivity)에 의한 감성 분석 문제이다. 많은 수의 객관적 표현들이 감성을 나타낼 수 있기 때문에, 다양한 감성 어휘 자원 구축과 감성 분석을 위해서는 객관적 표현에 의한 감성을 고려할 수 있는 연구가 필요하다. 본 논문에서는 감성 분석 연구에서 반드시 고려되어야 하는 대표적인 두 가지 과제인 감성 어휘 집합 구축의 어려움과 객관적 표현에 의한 감성 분석 문제를 해결하기 위해 소셜 미디어 지성을 통해 감성 어휘 집합을 구축하는 새로운 방법을 제안하였고, 색채를 통해 감성을 시각화하여 실천적으로 감성을 분석하는 방법을 제안하였다. 구축 된 감성 어휘 집합을 통해 실험 및 평가한 결과 다음처럼 여섯 가지의 결론을 도출하였다. 첫째, 감성의 주관적인 특징을 반영한 어휘 집합 구축. 기존 연구 결과와 감성 분석 정확도와 감성 분류 성능을 비교한 결과 사람이 판단하는 감성과 유사한 것을 알 수 있었고, 가장 좋은 성능을 보였다. 둘째, 객관적 표현에 의한 감성 분석. 명사 중심의 객관적인 표현에 의한 감성을 분석한 결과 긍정, 부정 및 불안 감성에서 서로 다른 의미적인 특징을 발견하였다. 셋째, 소셜 미디어에 나타난 어휘의 용례를 반영한 감성 어휘 확장. 기존 연구에서 볼 수 없었던 많은 수의 감성 어휘를 발견할 수 있었고 감성 어휘 부족 문제를 보완할 수 있음을 보였다. 넷째, 감성 어휘의 다양한 감성 극성 표현. 다중 감성에서의 극성을 하나의 벡터로 표현함으로써 어휘 기반의 감성 분석에서 공통적으로 나타나는 낮은 재현율에 의한 감성 분류 성능 문제를 향상 시킬 수 있었다. 다섯째, 색채로 표현 된 불안 감성의 특징. 부정과 불안 감성이 의미적으로 유사해 보이지만, 분명하게 독립적인 영역으로 표현되는 것을 통해 부정과 구별되는 불안 감성의 특징을 발견하였다. 여섯째, 색채로 표현 된 중립 감성의 특징. 중립 감성은 어떤 감성에도 치우치지 않고 모든 감성에서 낮은 극성을 나타내는 것을 볼 수 있었다. 본 논문에서 제안하는 방법을 통해 구축 된 감성 어휘를 이용하여 다양한 관점에서 실험하고 평가한 결과 감성 분석 연구의 어려움을 보완하고 해결 할 수 있었다. 특히, 색채를 통해 감성을 시각화함으로써 정치, 정책 등 사회 분야, 영화, 음악 등 문화 분야, 또는 제품, 서비스 등 산업 분야에서 대중의 감성을 분석하는 도구로 활용될 수 있음을 보여주었다.
윤현애 연세대학교 일반대학원 2025 국내박사
This study investigates how appraisals of target objects are linguistically realized in Korean product reviews under the goal of sentiment analysis. From the Functionalist linguistics perspective, language exists as a tool for communication, and speakers may choose particular lexis, grammatical structures, or broader patterns to convey their intentions. In other words, meaning emerges from “language in use,” placing greater emphasis on semantic and functional aspects rather than formal ones. This study begins with the question: which expressions do speakers employ to reveal their own cognitive attitudes toward a target? Speakers may directly encode appraisals or judgments—using descriptors such as “good,” “bad,” or “beautiful”—but they also often utilize fact-stative expressions (e.g., “there are many flowers”) to convey an evaluation of a target’s aesthetic state indirectly. Notably, when such fact-stative expressions occur in contexts that communicate experiences of tourist sites, they can be interpreted as appraisals. This observation suggests that whether a factual description is construed as an appraisal depends on shared knowledge and contextual prerequisites among discourse participants. Indeed, delineating precisely which linguistic expressions in discourse qualify as evaluations of a target is a highly demanding undertaking. J. Martin’s systemic-functional Appraisal Theory further exemplifies this challenge, as it continually uncovers the intricate and arduous nature of mapping the correlation between linguistic expressions and evaluative functions. In this way, the correlation between a given linguistic expression and its appraisal in discourse must take into account a variety of conditions—such as the type of appraisal target, the language community’s expectations of that target, the contextual factors surrounding the appraisal, and the relationships among interlocutors. However, because these factors are highly variable and complex, systematically defining and analyzing them is exceedingly difficult. However, under the goal of sentiment analysis, it is feasible to identify the linguistic characteristics of speakers’ direct and indirect appraisals of a target. Because sentiment analysis focuses on publics’ positive and negative evaluations of items, the scope of appraisal targets can be narrowed to those entities or issues that attract public attention. In particular, when the discourse under investigation consists of product reviews, shared knowledge among interlocutors is confined to a specific product, and any omitted sentence elements can often be recovered easily from the product-review context. Moreover, since sentiment analysis centers on “positive–negative evaluation,” the difficulty of determining which expressions qualify as appraisals is somewhat alleviated. In other words, sentiment-analysis research conducted within the contextual constraints of product-review discourse—where both the appraisal target and context are relatively circumscribed—is well suited to exploring the linguistic realization of appraisal in discourse. Meanwhile, much of the existing work in sentiment analysis has concentrated on individual words, constructing lexicons of positive and negative terms. In many dataset-building procedures, the text is first morphologically analyzed and POS-tagged, after which verbs and adverbs are extracted and assigned polarity labels. However, in actual language use, speakers do not restrict their appraisals to single words—word-focused methods centered on verbs and adverbs therefore have inherent limitations. Moreover, such lexicon-centric approaches often fail to account for instances where a potentially positive term’s evaluative force is neutralized or altered by specific grammatical constructions. Consequently, it is essential to move beyond word-level techniques and to analyze both lexical and grammatical expressions that realize appraisal in discourse, investigating their full range of semantic characteristics. However widespread generative language models (LLMs) have become, the need for meticulously constructed sentiment‐analysis datasets remains high when accuracy and practical applicability are taken into account. Because appraisals are inherently context-dependent—even when defined simply as positive or negative evaluations—relying solely on general-domain LLMs limits one’s ability to perform fine-grained, domain- and context-specific sentiment analysis. Accordingly, this study presents a comprehensive inventory of lexical and grammatical expressions that convey positive and negative sentiment, together with an analysis of their semantic and functional characteristics. The resulting catalog can serve as a set of seed words and constructions for researchers and practitioners across both academic and industrial contexts. More broadly, our findings offer a valuable starting point for understanding the linguistic features through which speakers express appraisal in discourse. This study defines appraisal as the act of judging some aspect of an existing target as positive or negative. We broaden our scope beyond predicates and adverbs to include all parts of speech—including nouns—and extend our analysis to phrases and clauses. The objectives of the present study are twofold: (1) To identify which semantic properties of lexical items in product‐review discourse signal appraisal. (2) To determine how grammatical meanings in product‐review discourse express or modulate appraisal. In Chapter 2, we first survey both domestic and international research on sentiment and emotion analysis, alongside lexical classification studies conducted in Korean linguistics and language informatics. This review reveals that investigations into sentiment and emotion analysis have been pursued continuously across multiple arenas—from individual and corporate projects to national initiatives. However, dataset construction for sentiment analysis remains largely domain-specific. Accordingly, there is a pressing need to conduct cross-domain analyses that distinguish between (a) expressions that consistently convey positive or negative evaluations regardless of domain and (b) expressions whose evaluative force is confined to particular domains. Although the importance of such a distinction has been emphasized repeatedly, few studies have empirically attempted to extract truly domain-independent evaluative expressions through multi-domain analysis. Furthermore, certain classification categories—such as “price” or “design”—may function as universal sentiment dimensions across domains, underscoring the necessity of rigorous, empirical research in this area. Secondly, it is somewhat regrettable that many sentiment‐analysis studies stop at the stage of listing lexical items without providing semantic justification for why those expressions convey positive or negative appraisal. If we understand the underlying semantic motivations, we can more effectively extend the inventory to include semantically similar expressions, thereby constructing sentiment lexicons with greater efficiency. Moreover, by examining how grammatical constructions themselves encode or modulate evaluative meaning, we can further enhance the accuracy of sentiment‐analysis systems. Thirdly, although recent research has advanced toward fine‐grained, attribute‐based sentiment analysis, many studies still do not thoroughly address the problem of attribute extraction. As Kim Hansaem(2022) observes, distinguishing between entities and their evaluative attributes in annotated corpora is a challenging undertaking that demands dedicated investigation. By tackling this distinction head‐on, we can better support the development of high‐precision sentiment‐analysis resources. Drawing on Korean lexical‐classification studies, we identified several shared criteria for distinguishing among parts of speech. In verb‐classification research—whether focused on case‐frame patterns or semantic properties—scholars commonly differentiate between eventivity and stativeity, as well as the animacy of the subject and whether the verb describes the subject’s psychological experience. In noun‐classification work, the prevailing distinctions concern whether a noun denotes a concrete entity (human or object) versus an abstract concept, and whether it expresses relational meaning with other lexical items. On this basis, our study adopts [eventivity], [stativeity], and the presence or absence of psychological‐state description as key semantic features for categorizing lexical items. Furthermore, in line with ontological and thesaurus‐based knowledge‐base practices, we abstract away from traditional part-of-speech boundaries, classifying expressions purely by their conceptual and semantic properties. We then examine how these semantically motivated categories relate to the realization of appraisal in product‐review discourse. In Chapter 3, this study describes the research methodology. We constructed an 82,289-words, multi-domain corpus for sentiment analysis by extending the National Institute of Korean Language’s Attribute-Based Sentiment Analysis Corpus 2021 with additional product-review data. Four domains—beauty products (small-sized goods), home appliances (large-sized goods), lodging establishments (place-based services), and films (content products)—were each normalized to approximately 20,000 words to ensure balanced representation. To maximize the density of appraisal expressions, non-evaluative sentences from the primarily blog-style NIKL corpus were filtered out. In the beauty-product and film domains, roughly 70 percent of the original NIKL data were retained and supplemented with randomly sampled Naver beauty-product reviews from 2023 and Naver movie reviews from January through June 2024. For the home-appliances domain, we randomly sampled Naver product reviews from 2019, and for the lodging-establishment domain, we collected randomly sampled TripAdvisor reviews from 2023. This rigorously curated, multi-domain corpus enables a systematic exploration of appraisal expressions across varied product contexts while preserving both comparability and domain-specific richness. I define the core terminology of this study. I distinguish sentiment expressions from appraisal expressions as follows. Sentiment expressions are those linguistic items that, by themselves, overtly convey a positive or negative evaluation of a target. In contrast, appraisal expressions form a broader category: they comprise any lexical or grammatical expression that, when accompanied by specific morphological or syntactic markers (e.g., attribute modifiers, evaluative particles), can function as a sentiment expression. Put differently, because our framework is grounded in attribute-based sentiment analysis, we treat sentiment expressions as the concatenation of an attribute expression and an appraisal expression—only in their combination does a full evaluative meaning emerge. Also, this study also delineates the distinction between entities and attributes. Although entities ordinarily refer to a product’s components and attributes to its properties, this binary proves difficult to uphold in practice. In attribute-based sentiment analysis, attributes take precedence: they are the specific aspects or elements of a target that speakers judge positively or negatively. Consequently, the scope of an attribute varies with the analyst’s evaluative objectives and is formalized via the sentiment-analysis taxonomy. For the present study, we therefore define attributes as the concrete targets or elements that bear positive or negative evaluative polarity within attribute-based sentiment analysis. I outline a seven-stage analysis procedure: (1) Preprocessing: segmented the corpus into sentences—each assigned a unique index—and imported them into Excel to align with my clause-level analytical unit. (2) Framework Development: established an attribute-based sentiment-analysis schema, defining the criteria for identifying appraisal expressions and tagging attributes. (3) Polarity Annotation: applied this schema to assign positive or negative polarity to each evaluative instance. (4) Expression & Attribute Tagging (5) Distinguished into Attribute-Implicit and Attribute-Explicit expressions I introduced two novel appraisal categories: - Attribute-Implicit Expressions (속성내포형): Surface forms that do not overtly mark the attribute but whose semantics imply it (e.g., moisturizing). - Attribute-Explicit Expressions (속성명시형): Forms that lexically specify the attribute being evaluated (e.g., rich in hydration, good moisturizing effect). Although steps 2–4 were conducted interactively to ensure alignment between my schema and the data, this structured pipeline enabled a rigorous, reproducible analysis of appraisal expressions in product-review discourse. I term linguistic expressions denoting attributes—such as 수분감 (moisture sensation) and 보습력 (moisturizing power)—as attribute expressions. To qualify as an attribute expression, I require three conditions to be met: (1) It must constitute a separable linguistic unit at least at the phrase level. (2) It must represent a specific positive or negative aspect of the product. (3) The expression alone must not suffice to determine a positive, negative, or neutral evaluation. Next, I conducted a correlation analysis between the semantic properties of lexical and grammatical expressions and their evaluative force. The central question was: “On what basis can a sentiment expression be interpreted as conveying positive or negative appraisal?” For example, the positive appraisal of expressions like “상품 좋다” (“the product is good”) and “디자인 예쁘다” (“the design is pretty”) rests on the fact that 좋다 and 예쁘다 carry positive lexical meanings. In contrast, the positive appraisal of “사용할 만하다” is licensed by the grammatical construction ‘-(으)ㄹ 만하다’ (pronounced [-(eu)l manhada]), which grammatically encodes the positive sense of “to be worth doing.” Thus, an expression’s evaluative polarity in discourse may derive either from its inherent lexical semantics (as in the first case) or from the semantic contribution of a grammatical marker (as in the second). In this study, I analyzed whether each extracted sentiment expression’s evaluative basis is attributable to its lexical-semantic properties or to the semantics of its grammatical construction. When the basis for sentiment expressions resides in lexical items, I first conducted semantic‐feature grouping, followed by an analysis of the correlation between semantic features and appraisal. Semantic‐feature grouping began with initial lexical clusters derived from existing semantic‐attribute classification studies; I then iteratively refined these clusters by typologically analyzing the list of sentiment expressions extracted from the corpus. In Chapter 5, I present the correlation‐analysis results by dividing the clusters into three types. By contrast, for the correlation analysis between grammatical expressions and appraisal realization, I did not perform semantic‐feature grouping. Instead, I directly analyzed the correlation across all grammatical constructions observed in the data. This approach reflects the tendency—already noted in this study—for lexical items, rather than grammatical forms, to bear the primary evaluative load. For the grammatical analysis, I relied on the Kim et al (2005) dictionary of grammatical constructions. In Chapter 4, I present the results of sentiment analysis across the four selected domains. This chapter details the factors considered in constructing the sentiment classification schema, the attribute analysis, and the domain‐specific inventory of attribute‐implicit and attribute‐explicit sentiment expressions. Its purpose is not merely to report the evaluative profiles of beauty products, home appliances, lodging establishments, and films, but to reveal how reviewers perceive the contextual framing of each product type and linguistically realize their appraisals. Overall, the material‐goods domains (beauty products and home appliances) and the place‐service domain (lodging establishments) share common evaluative dimensions—such as price, design (aesthetic qualities), tactile experience, and service quality. In contrast, the film domain, as a content product, exhibits minimal overlap with these categories, aside from “fame” and “target audience.” Moreover, the film reviews demonstrate that a complete understanding of cinematic evaluation often requires integrating emotion analysis alongside sentiment analysis. This chapter’s findings offer practical guidance for analysts on the domain‐specific considerations essential to accurately capturing appraisal expressions in product‐review discourse. In Chapter 4, I move beyond a mere report of sentiment‐analysis results for the four domains. Instead, I introduce and justify the novel distinction between attribute-implicit and attribute-explicit expressions—thereby addressing long-neglected questions of attribute definition, delimitation, and extraction. As attribute-based sentiment analysis gains traction, the critical issue becomes how analysts should conceptualize attributes, construct classification schemas, and handle product-review corpora in practice. - Attribute-implicit expressions can be directly mapped to domain-specific appraisal categories within each sentiment‐classification framework. - Attribute-explicit expressions, as composites of an attribute expression and an appraisal expression, suggest a two-stage lexicon approach: (1) build separate attribute and appraisal dictionaries, then (2) establish domain-appropriate mapping rules between them to efficiently manage and extend both resources. Moreover, by applying synonym-expansion techniques to both dictionaries, one can enrich coverage with expressions not attested in the original corpus. These strategies collectively provide a scalable, systematic method for capturing evaluative language in diverse product‐review contexts. In Chapter 5, I investigate how the semantic characteristics of both lexical and grammatical expressions correlate with positive and negative appraisal in product‐review discourse. First, I identify two classes of lexical items that consistently function as evaluative markers: affective expressions (e.g., terms denoting pleasure or displeasure) and sensory expressions (e.g., descriptors of texture or scent). Affective expressions further subdivide into domain-independent items that convey approval or disapproval regardless of context and domain-dependent items whose evaluative force varies by product category. Sensory expressions—since they reflect the reviewer’s direct perceptual experience—almost invariably participate in appraisal across all four domains. Next, I turn to lexical expressions whose evaluative status depends on contextual or syntactic conditions. Appearance descriptors such as aesthetic or cleanliness terms generally carry appraisal, whereas descriptions of shape or passive constructions only do so when paired with specific attribute expressions or within particular domains. Property-descriptive terms tend to map onto concrete product attributes and exemplify the attribute-implicit category introduced earlier. Emotion terms likewise display varying behavior: core feel-good words (joy, fun, awe, relief, confidence) and core feel-bad words (resentment, disgust, aversion, embarrassment) appear universally as evaluative, while a second set of emotions (trust, hope, gratitude, regret, worry) requires morpho-syntactic support to function as appraisal. In the film domain, additional emotion words (empathy, anger, sadness, fear, surprise, bittersweetness) bridge sentiment and emotion analysis. Perceptual-cognitive expressions—aside from a few like “understand”—also need co-occurrence with attribute markers or contextual cues to convey evaluation, and eventivity expressions that imply repeat purchase or ongoing use consistently signal positive appraisal. Finally, I examine non-lexical items—comparatives, degree modifiers, and material descriptors—that themselves lack inherent polarity but serve as functional operators completing the appraisal when combined with attribute expressions. Together, these findings clarify the precise conditions under which various linguistic features realize positive and negative evaluations in product‐review discourse, offering a nuanced account of how speakers linguistically encode appraisal across diverse domains. In Chapter 6, I investigate the correlation between grammatical constructions and evaluative polarity in product‐review discourse. I first identify a set of grammatical markers that consistently convey positive or negative appraisal: ‘-(으)ㄹ 만하다’, ‘-어/아 보세요’, ‘-(으)ㄹ 수 있다’, ‘-(으)면 되다’, ‘-어/아도 되다’, and ‘-기는 하다’. Each of these constructions either inherently encodes a positive meaning or is employed in evaluative contexts so reliably that it functions as a grammatical appraisal expression. Beyond these unambiguous cases, I show that certain mood and modality markers—those expressing unmet conditions ([condition]), desire ([wish]), or volition ([will])—serve evaluative functions only when combined with particular lexical items. For example, ‘-(으)면’ in the conditional yields a positive appraisal when its protasis is negated and its apodosis contains a regret‐laden term; when followed by simple approval verbs like ‘좋다’ or ‘괜찮다’, it signals weak positive or neutral appraisal. The necessity marker ‘-어/아야’, when paired with positively valenced descriptions, conveys neutral-to-weakly negative evaluation by implying obligation. The wish construction ‘-(으)면 좋겠다’, combined with positive appraisal verbs, paradoxically delivers a negative evaluation by highlighting the absence of the desired state; its variant used in film‐review contexts (e.g., “I wish there were a sequel”) functions as a positive appraisal. Volitional forms (e.g., ‘-겠-’, ‘-어/아야겠다’, ‘-(을) 것이다’, ‘-(으)ㄹ게요’) become evaluative only when they express intention to repurchase or continue use. I also explore how case particles contribute to evaluation. The comparative particle ‘만큼’, when used with expectation nouns or price attributes, carries evaluative weight, while the limiting particle ‘만’, when followed by action‐oriented verbs or positive appraisal adjectives, distributes positive appraisal to the specified attribute and negative appraisal elsewhere. The copular particle ‘이다’ assists in realizing appraisal by asserting the presence of a valued attribute (e.g., “has a sea view”). Lastly, I document several context‐dependent appraisal constructions—such as the imperative ‘-(으)세요’, the retrospective ‘-(으)ㄹ 텐데’ and ‘-(으)ㄹ걸’, the obligation marker ‘-어/아야 하다’, and aspectual ‘-어/아 버리다’—noting that some (e.g., causatives ‘-게 하다’, ‘-게 만들다’) are evaluative only in the film domain or when combined with perceptual‐cognitive terms, and that certain markers (e.g., ‘-(으)ㄹ 때’) can neutralize a preceding appraisal. Through this comprehensive analysis, Chapter 6 delineates the precise grammatical conditions under which Korean evaluative meanings emerge in product‐review discourse. In Chapters 5 and 6, I examine how distinct semantic features shape positive and negative polarity judgments from the perspectives of lexis and grammar, respectively. In Chapter 5, I demonstrate that simple affective terms and sensory descriptors invariably signal evaluative polarity, making them prime candidates for inclusion in appraisal lexicons. Aesthetic- and cleanliness-related appearance descriptors, together with certain property descriptors and emotion terms whose polarity is unambiguous, likewise function consistently as evaluative markers. By contrast, the remaining appearance and property descriptors, as well as many emotion, perceptual-cognitive, and eventivity expressions, require specific contextual or attribute-expression conditions before their polarity can be resolved; this insight informs domain-sensitive sentiment‐analysis strategies. Notably, my finding that comparative, degree-modifier, and material expressions serve primarily as functional operators—while the attribute expressions themselves determine evaluative value—highlights the existence of different classes of attribute expressions: some merely denote product features or components, while others, by virtue of being mentioned, presuppose the presence of an attribute and thus influence polarity judgment. Distinguishing between these attribute classes will be an important focus for future research. Chapter 6 of this study is significant in that it ventures into a largely unexplored territory: the relationship between grammatical constructions and positive–negative appraisal judgments. While most sentiment-analysis research has focused on lexical items and produced extensive word lists, I demonstrate that certain purely grammatical markers—though devoid of inherent evaluative meaning—become integral components of sentiment expressions when combined with other elements. These constructions not only contribute to the assignment of polarity but, in some cases, actually trigger polarity shifts or neutralization. This finding underscores the need for future sentiment-analysis frameworks and datasets to extend beyond the lexicon and systematically incorporate grammatical phenomena. Nonetheless, a limitation of Chapter 6 is that it stops at cataloguing the grammatical appraisal expressions that influence polarity decisions. Although it is plausible that these constructions’ modal nuances play a crucial role in their evaluative function, the present study does not undertake a deep examination of their modality features. Subsequent research that probes these morphosyntactic subtleties would not only enrich our understanding of how speakers linguistically realize appraisal but also enhance the precision and sophistication of sentiment-analysis methodologies. When humans evaluate a target, they may employ direct lexical or expressive means—such as affective or emotion terms that reveal the speaker’s judgment or psychological state—but they also frequently use ostensibly factual descriptions (e.g., appearance or property descriptors) to convey positive or negative appraisal. Furthermore, under certain contextual conditions, expressions of obligation or volition can likewise function as evaluative markers. While lexical semantic features exert the primary influence on the realization of evaluative polarity, grammatical semantics also contribute to the expression or neutralization of such judgments; hence, both lexical and grammatical meanings must be considered in appraisal analysis. Many expressions—such as fact‐descriptive language, eventivity terms, and volitional or deontic constructions—are interpretable as evaluative only by virtue of interlocutors’ expectations and the shared knowledge of the discourse community. The sentiment analysis presented here ultimately concerns the study of how speakers’ evaluations are linguistically manifested, underscoring that any research engaging with the semantic dimension of Korean text must be grounded in rigorous linguistic inquiry. Because sentiment analysis interrogates both the latent meanings of expressions and the speaker’s intent, careful interpretation of surface‐level language forms is inseparable from linguistic theory. By integrating linguistics’ conceptual frameworks and empirical findings with the goals of sentiment analysis, this study provides a model for the definition, development, and application of analytical methods required to bridge theory and practice. 기능주의 관점에서 언어는 의사소통의 도구로서 존재하며 ’사용으로서의 언어(language in use)’일 때 언어의 실제 의미를 알 수 있다고 본다. 그렇다면 화자는 어떤 표현을 사용하여 대상에 대한 자신의 인지적 태도를 드러내는가? 본 연구는 이 문제를 탐구하기 위해 시작되었다. 사실상 담화에서 어느 언어 표현까지가 대상에 대한 평가를 나타내는가의 문제를 규명하는 일은 평가 대상 및 맥락 요소, 화청자 간의 공유 지식이 매우 다변적이고 복합적으로 얽혀 있다는 점에서 매우 어려운 과업이다. 그러나 상품평 담화 대상의 감성분석(sentiment analysis)은 ‘대상에 대한 대중의 긍부정 평가’이기 때문에 평가 대상과 맥락 요소가 어느 정도 한정되므로 담화에서 평가하기의 언어적 실현을 탐구하는 것이 가능해진다. 본 연구는 상품평 담화의 감성분석이라는 목적 아래 한국어 담화에서 대상에 대한 평가가 어떤 언어적 특질을 보이며 실현되는가에 대해 탐구한 연구이다. 연구의 대상은 용언, 부사, 명사를 포함한 모든 품사와 구, 절 단위까지 포괄하였으며 연구의 목적은 상품평 담화에서 어휘와 문법의 어떤 의미가 긍부정 평가를 나타내거나 혹은 조정할 수 있는지를 밝히는 데 두었다. 2장에서는 이론적 논의를 주제별로 감성분석과 감정분석 연구 분야 중 데이터 구축과 관련한 국내외 성과, 국어학과 언어 정보학의 어휘 분류 연구에 대하여 살펴보았다. 3장에서는 본 연구의 감성분석용 말뭉치의 구성과 분석 방법에 대해 기술하였다. 분석용 말뭉치는 국립국어원의 '속성 기반 감성분석 말뭉치 2021'를 기본 토대로 구성하였으며 부족분에 대해서는 네이버 및 트립어드바이저 상품평을 추가 수집하였다. 말뭉치는 총 82,289 어절로서 미용제품, 가전제품, 숙박업소, 영화 이렇게 총 4개의 도메인으로 구성되었다. 분석 방법은 먼저 4개 도메인 대상으로 감성 분류 체계를 수립하고 감성분석을 수행한 후 개체와 속성을 구분하였다. 그다음에 ‘속성내포형’과 ‘속성명시형’의 개념을 정립 후 감성표현을 이 두 유형별로 제시하였다. 속성내포형은 속성이 언어적으로 드러나지 않고 그 의미가 어휘에 포함된 형태이며 속성명시형은 속성이 언어적으로 명시된 형태를 가리킨다. 이 두 분류를 기초로 하여 4장에서 각 도메인별 속성 분석 결과와 속성별 감성분석 결과를 제시하였다. 4장을 통해 총 4개 도메인의 감성 분류 체계의 구성 예시와 각 도메인별 속성 표현, 감성표현 목록, 속성과 감성의 구분 문제에 대해 고찰해 볼 수 있었다. 미용·가전·숙박업소 도메인에서는 가격, 디자인, 사용감, 서비스 등 공통 평가 항목이 존재했으나, 영화는 유명도와 이용대상 외에는 겹치는 평가 항목이 거의 없었고 감정분석까지 함께 수행해야 평가가 완전해짐을 확인했다. 또한 속성 분석을 통해 동일한 속성 표현이 함께 결합하는 평가 표현에 따라 지시 속성이 달라질 수 있다는 점 등을 추가로 확인할 수 있었다. 5장에서는 어휘 표현을 의미 특성별로 유형화하여 이 의미 특성이 상품평 담화에서의 긍부정 평가 판별에 어떤 상관성이 있는지를 분석하였다. 상품평 담화에서 항상 긍부정 평가를 나타낼 수 있는 어휘 평가 표현은 호감도 표현, 감각 표현이 있었다. 맥락 조건 혹은 형태·통사적 조건이 주어질 때만 제한적으로 긍부정 평가를 보이는 어휘 평가 표현으로는 외형 묘사 표현, 성질 묘사 표현, 감정 표현, 지각인지 표현, 행위성 표현이 있었다. 마지막으로 비교 표현, 정도성 표현, 소재 표현은 감성표현을 구성하는 기능어로서의 역할을 담당하고 있었다. 6장에서는 문법 표현의 의미가 상품평 담화에서 긍부정 평가 실현에 어떤 영향을 미치는지를 분석하였다. 상품평 담화에서 항상 긍부정 평가를 보이는 문법 평가 표현은 긍부정 의미를 내포하거나 담화 내 쓰임이 긍부정 판단의 묘사인 경우였는데 ‘-(으)ㄹ 만하다’, ‘-어/아 보세요’, 가능의 ‘-(으)ㄹ 수 있다’, ‘-(으)면 되다’, ‘-어/아도 되다’. ‘-기는 하다’가 해당하였다. 둘째로 담화에서 특정한 어휘 평가 표현과 결합할 때 제한적으로 긍부정 평가를 보이는 문법 표현들로는 [조건], [소망], [의지]와 같이 미경험 전제의 문법 표현, 조사 ‘만큼, 만, 이다’, [명령]. [후회], 사동, [의무], ‘-어/아 버리다’, ‘-어/아 보이다’, [비유] 문법 표현이 있었다. 그리고 [목적], [시간] 문법 표현은 단순 만족도 표현과 같이 전형적으로 긍부정 평가를 드러내는 어휘 평가 표현과 결합 시 오히려 어휘의 긍부정 평가를 상실시키는 효과를 냈다. 본고의 연구 결과는 향후 다방면에서 감성분석용 지식 구축 시 필수적으로 고려해야 하는 감성 분류 체계, 속성 표현, 감성표현, 속성과 감성의 구분 문제에 대해 실제적으로 도움을 줄 수 있을 것이다. 또한 한국어 상품평 담화에서 긍부정 평가 판단에 영향을 미치는 어휘와 문법의 의미 특성을 규명하고 그 목록과 고려 요인을 제공하였다는 점에서 언어학 연구 성과를 실제 감성분석에 접목한 충분한 가치를 지닌다.
제 목 : 감성분석을 통한 금융 뉴스가 주가에 미치는 영향 본 연구는 야후파이낸스(finance.yahoo.com)와 CNN(edition.cnn.com)의 개별 종목 주가의 뉴스를 감성분석하여 주가를 예측한다. 분석 사례 기업으로 테슬 라와 애플 기업의 뉴스 기사를 크롤링하여 주가 예측에 사용하고자 했다. 먼 저 위 2개 웹사이트에서 테슬라와 애플 관련한 뉴스 기사를 데이터베이스에 저장하여 해당일의 뉴스 정보를 긍정, 중립, 부정으로 나누고 각각 뉴스에 따 라 감성분석 결과를 이용하여 뉴스가 보도되기 전후의 종가의 변화율과의 관 계를 살펴보고자 했다. 기존의 연구들이 개별 기업보다는 지수 예측에 관심을 두고 예측했고, 해당 뉴스가 보도된 날의 종가와의 관계를 분석한 것이라면 본 연구는 장 마감후의 뉴스의 경우 오늘 종가와 다음날 종시가의 변화량을 계산하여 뉴스의 직접적 효과를 보고자 하였다. 또한 국내의 연구들은 BERT 를 이용하여 감성분석을 했지만, 본 논문에서는 보다 금융분야에 특화된 FinBERT의 효과성도 측정하느 면에서 이들의 효과도를 비교하고자 했다. 즉 BERT의 모델 중 많은 양의 데이터를 학습한 BERT와 금융 도메인을 사전 학 습한 모델인 FinBERT의 뉴스의 감성분석 결과를 이용한 주가 예측율이 어떻 게 다른지 살펴보고자 했다. 본 연구를 위해 야후파이낸스(finance.yahoo.com)의 종목 게시판의 2023년 4 월부터 2023년 5월까지의 최근 뉴스 기사, CNN의 경우 2010년부터 2023년까 지의 개별종목 테슬라와 애플의 뉴스 기사를 크롤링하였다. 비교를 좀 더 다 양하게 분석하기 위해 CNN의 나머지 빅테크 기업인 구글, 아마존, 마이크로소 프트, 메타, 엔비디아를 2020년부터 2024년까지 뉴스 기사를 크롤링을 추가하 였다. 데이터베이스에 미국 년도별 서머타임을 고려하여 주식 장 전, 중, 후를 구분했고, 주가 데이터수집 라이브러리(yfinance)를 이용하여 종가 변화량을 계산하여 저장하였다. 수집된 뉴스를 바탕으로 감성분석에는 기본모델이면서 가장 많은 말뭉치로 훈련된 BERT모델과 금융 도메인을 사전 학습한 모델인 FinBERT를 활용해 긍정, 중립, 부정 뉴스의 개수와 감성분석 점수를 평균하여 라벨링 하였다. 라벨링 한 감성분석 점수는 당일 긍정점수의 평균값은 1과 2 사이, 중립점수는 0과 1사이, 부정점수는 –1과 0의 값으로 연속형 변수로 만들 었다. 총 4개의 변수, 즉 감성분석 결과 긍정, 중립, 부정의 뉴스 개수와 감성 스코어를 독립변수로 하고, 뉴스 공지 후 주가의 변화율을 종속변수로 회귀분 석을 하였다. 연구결과는 다음과 같다. 첫째 테슬라의 BERT와 FinBERT감성분석 결과 BERT는 긍정 571, 중립 1462, 부정 586, FinBERT의 경우 긍정 361, 중립 1611, 부정 651의 분류로 비슷한 값을 보였다. 회귀분석결과 BERT보다 FinBERT를 이용한 회귀분석결과 긍정뉴스의 개수가 더 높은 t값과 유의한 p 값을 보여주었다. 둘째, BERT와 FinBERT의 경우 통계적으로 유의한 차이는 없었지만 회귀분석결과 부정뉴스의 개수가 많을수록 하락하는 것은 유의한 것 으로 나타났고, 긍정이나 중립의 뉴스개수는 큰 영향을 주지 않는 것으로 나 타났다. 감성분석스코어의 경우 유의하지는 않지 이 값이 높을수록 주가가 하 락하는 것으로 나타나서 감성분석스코어를 이용하여 주가를 예측하는 것에 한 계가 있었음을 보여주었다. 위의 결과를 종합해 볼 때 투자자는 어쩌면 뉴스 의 내용보다는 뉴스의 개수에 영향을 많이 받고, 긍정뉴스보다는 부정뉴스에 민감하게 반응한다는 것을 알 수 있었다. This study predicts stock prices by analyzing news on individual stock prices from Yahoo Finance (finance.yahoo.com) and CNN (edition.cnn.com). As analysis case companies, we wanted to crawl news articles about Tesla and Apple companies and use them to predict stock prices. First, news articles related to Tesla and Apple from the above two websites are stored in the database, the news information of the day is divided into positive, neutral, and negative, and the sentiment analysis results are used according to each news to determine the rate of change in the closing price before and after the news is reported. I wanted to look at the relationship with . While existing studies focused on predicting indices rather than individual companies and analyzed the relationship with the closing price on the day the news was reported, this study calculated the amount of change between today's closing price and the next day's closing price in the case of news after the market closes. So, we wanted to see the direct effect of the news. In addition, domestic studies conducted sentiment analysis using BERT, but this paper sought to compare the effectiveness of FinBERT, which is more specialized in the financial field, by measuring its effectiveness. In other words, we wanted to examine how the stock price prediction rates using the news sentiment analysis results of BERT, which learned a large amount of data among BERT models, and FinBERT, a model that pre-trained the financial domain, differed. For this study, recent news articles from April 2023 to May 2023 on Yahoo Finance's (finance.yahoo.com) stock bulletin board, and news articles about individual stocks Tesla and Apple from 2010 to 2023 on CNN. crawled. To make the comparison more diverse, CNN added news articles from the remaining big tech companies, Google, Amazon, Microsoft, Meta, and NVIDIA, from 2020 to 2024. In the database, we classified before, during, and after the stock market by taking into account daylight saving time for each year in the United States, and used the stock price data collection library (yfinance) to calculate and store the closing price change. For sentiment analysis based on the collected news, BERT model, which is the basic model and trained with the largest corpus, and FinBERT, a model pre-trained in the financial domain, were used to average the number of positive, neutral, and negative news and the sentiment analysis score to label them. . The labeled emotional analysis score was made into a continuous variable with the average positive score of the day being between 1 and 2, the neutral score being between 0 and 1, and the negative score being -1 and 0. A total of four variables, that is, the number of positive, neutral, and negative news and emotional score as a result of emotional analysis, were used as independent variables, and the rate of change in stock price after news announcement was used as a dependent variable. The research results are as follows. First, as a result of Tesla's BERT and FinBERT sentiment analysis, BERT showed similar values with a classification of positive 571, neutral 1462, and negative 586, and FinBERT was classified as positive 361, neutral 1611, and negative 651. As a result of regression analysis using FinBERT rather than BERT, the number of positive news showed a higher t value and a significant p value. Second, in the case of BERT and FinBERT, there was no statistically significant difference, but the results of regression analysis showed that the decline was significant as the number of negative news increased, and the number of positive or neutral news did not appear to have a significant effect. In the case of the sentiment analysis score, it was not significant, but the higher the value, the lower the stock price, showing that there were limitations in predicting stock prices using the sentiment analysis score. Considering the above results, it can be seen that investors are probably more influenced by the number of news stories than the content of the news, and that they react more sensitively to negative news than to positive news.
감성분석을 통한 온라인 구전과 판매 성과에 대한 요인 연구 : 웹사이트 스팀을 중심으로
배급사가 소매점을 통해 게임이 유통되었던 과거와 다르게 현재에는 온라인 웹사이트를 통해 직접 판매를 하거나 세계적으로 가장 큰 디지털 콘텐츠 유통 채널인 벨브 코퍼레이션의 웹사이트 스팀(Steam)을 통해 판매하고 있다. 게임을 즐기는 사용자들은 간편하게 게임을 구매하고 자신의 계정에 등록하고 바로 게임을 즐길 수 있는 스팀을 많이 선호하고 있다. 스팀에는 게임을 쉽게 구매할 수 있는 장점뿐만 아니라 구매자 개인이 구매 페이지에 추천이나 비추천 리뷰를 작성할 수 있으며 이러한 리뷰는 다른 사용자의 구매 의도에 영향을 준다. 본 연구에서는 이러한 사용자의 리뷰가 판매변화량에 미치는 영향을 알아보기 위하여 온라인상의 구전인 eWOM을 크기, 평점, 사용자 리뷰의 감성지수를 독립변수로 하여 종속변수인 판매변화량에 대하여 회귀분석을 실시한다. 이 과정에서 본 연구에서는 각 게임 리뷰에 해당하는 감성지수를 산출하기 위해 지지벡터 머신(SVM) 알고리즘을 활용한 기계학습을 적용하여 감성분석을 실시한다. 감성지수는 감성사전인 SentiWordNet을 게임 리뷰데이터에 적용하여 산출하고 이를 독립변수로 활용하여 회귀분석에 사용될 수 있는지 알아보고자 한다.
소셜 미디어 상에서의 여론 변화 추이 분석을 위한 감성사전 구축 방안 연구: 원자력 관련 트윗을 중심으로
소셜 미디어는 온라인상에서 다양한 이슈들이 논의되고 교환될 뿐만 아니라 새로운 이슈에 대하여 공론화가 가능한 커뮤니케이션 채널로써 발전하며, 정보의 높은 파급력과 신속성으로 인하여 지속적으로 많은 관심을 받고 있다. 소셜 미디어 상에서 이루어지는 커뮤니케이션은 문자, 이미지, 비디오 등 다양한 비정형 데이터의 형태를 지니며, 효과적인 분석 방안에 대한 연구들이 진행되고 있다. 또한 이를 바탕으로 기업의 온라인 마케팅 도구로의 활용이나 정부의 정책 수립 등 실무적 측면에서 다양하게 활용하고자 하는 노력들이 이루어지고 있다. 이러한 연구 동향의 일환으로 본 논문에서는 트위터 상에서 실시간으로 빠르게 발생되는 특정 주제에 대한 감성분석 방안과 감성분류 시 활용되는 감성사전의 지속적인 유용성 확보를 위한 활용 방안에 대하여 제시하고자 한다. 감성용어 사전을 활용한 기존의 오피니언 마이닝과 관련된 다수의 연구들은 특정 주제에 대한 긍정·부정의 감성분류 방안만이 주요 연구 주제였다. 그러나 이는 추후 특정 주제나 관련 이슈의 변화에 따라 소셜 미디어나 기타 온라인 커뮤니케이션 채널에서 사용되는 단어의 의미적 극성 또한 유동적으로 변화 가능함을 고려하면, 기간의 경과에 따라 지속적으로 직접 확인하고 재정의해야 하는 비효율성의 한계점이 존재한다. 또한 실시간으로 수백만 건의 메시지가 작성되고 공유되며 변화하는 빅 데이터의 특성을 갖는 소셜 미디어에서 향후 지속적인 여론 분석을 위한 감성사전의 유용성을 높이기 위해서는 보다 정확하고 자동화 된 감성사전 구축 방안의 연구가 필요하다. 이를 위하여, 본 논문에서는 감성사전 구축을 통한 감성분석 방안과 SO-PMI (Semantic Orientation from Pointwise Mutual Information) 기법을 활용하여 최초 구축된 감성사전에서의 긍정·부정 용어와 연관이 높은 감성용어들을 새롭게 추출하여 기계학습에 기반을 둔 감성사전 확장 방안에 대하여 제시하며, 그 유용성을 검증하였다. 이를 통하여 특정 주제에 대한 이슈 변화를 고려한 감성사전의 활용과 긍정·부정 분류 정확도의 확보가 가능하다. 본 논문은 특정 주제에 대하여 온라인상에서 발생되는 비정형 텍스트 데이터를 수집·가공·분석하여 긍정·부정 의견을 확인하고, 범용 감성사전이 아닌 주제가 갖는 특성을 반영한 감성사전의 구축과 활용 방안을 제시하며, 온라인상에서의 다양한 의견에 대한 지속적인 이슈 탐지와 변화 추이를 확인하고자 하였다. 이를 바탕으로 설문조사와 같은 기존의 사회 조사 분석 방법이 갖는 양적 측면과 질적인 측면에서의 한계를 극복하고 특정 주제에 대하여 온라인상에서 발생되는 의견인 대용량 텍스트 데이터를 활용하여 다양한 의견들의 변화 추이 분석과 확인이 가능할 것이다.
소셜 미디어에 대한 감성분석 방법 개발 : 한국어-중국어를 중심으로
잠재적 소비자들이 소셜 미디어 상에 기록한 글을 통해 제품 또는 기업 이미지에 대한 감성분석을 수행하는 것은 소셜 미디어 기반 마케팅에서 중요한 활동이다. 글로벌화 된 소셜 미디어의 경우 기업이 게재한 특정 미디어에 대해 여러 나라의 소비자들이 각자의 언어로 댓글을 작성하며, 이들을 감성분석하기 위해서는 특정 언어로 통일하기 위해 번역 작업을 수행하게 된다. 그러나 이러한 과정에서 단어의 의미가 왜곡되는 등의 원인은 감성분석의 정확도를 저해하는 요인이 된다. 따라서 본 연구는 다중 언어로 수집되는 텍스트를 번역하지 않고, 해당 언어별로 텍스트를 분리한 다음 각각 감성분석을 진행하고, 나중에 각각의 극성치를 종합하는 방법을 제안하고자 한다. 구체적으로 유투브나 인스타그램과 같이 한 페이지에 여러 언어권의 텍스트가 존재하지만 한 단위 글에는 하나의 언어로만 작성된 경우의 다국어 감성분석을 제안하고자 한다. 그리고 본 연구는 여러 언어들 중에서 중국어와 한국어가 결합된 경우의 감성분석에 집중하고자 한다. The potential consumers to analyze sentiment polarity on the product or company image through written comments or reviews on social media is an important marketing activity. If the company upload specific media in the global social media platform like Youtube, the consumers who are in several countries writhe comments or a reviews by their own language, and in order to analyze sentiment polarity of comments, many studies using translation method to translate them in a particular language. However, the translation method distorts the meaning of the words and it is a factor that inhibits the accuracy of the analysis sensibility. Therefore, this study does not translate text to one language, we would like to remove the text by the each language and then proceed to analyze each sensibility, and later to propose a comprehensive way to each polarity value. Specifically, we propose a method of analyze sentiment polarity of multilingual social media comments which one unit of comments is written in only one language but on one page the whole comments are written in several languages, Furthermore, this research is focus on the sentiment analysis which combined Chinese and Korean among several languages.
본 연구에서는 사용자 생성 컨텐츠(User-Generated Content: UGC)를 대상으로 Latent Dirichlet Allocation(LDA)기법을 이용하여 고객 리뷰에 대해 다중 토픽 수준의 감성분석 연구 모형을 제시한다. Tripadvisor.com에서 세계 7대 관광 도시의 호텔에 남겨진 고객의 온라인 리뷰를 대상으로 총 104,039개를 수집하였다. LDA기법을 통해 모든 고객 리뷰에서 호텔과 관련된 토픽 30개를 추출하였다. 추출된 토픽들을 대상으로 호텔에 관련된 6 가지 주요 토픽(value, cleanliness, rooms, service, location, sleep quality)을 선정하고, 제안된 연구 모형에서 고객 리뷰별로 6 가지 토픽에 해당하는 문장에 대해 감성사전을 사용하여 감성을 분석하였다. 고객 리뷰의 토픽별 감성분석 결과와 고객이 직접 호텔 속성별로 평가한 세부점수를 비교하여 제안된 연구모형의 성능을 검증하였다. 제안모형의 정확도(accuracy)와 재현율(recall)의 값을 분석한 결과 제안모형의 성과가 우수한 것으로 분석되었다. 본 연구의 결과를 이용하면 여행자의 온라인 리뷰를 대상으로 고객의 세부 감성을 다양한 토픽별로 분석할 수 있어 고객에게 여러 속성별로 리뷰작성을 요구하지 않고도 고객의 호텔 속성별 감성을 분석할 수 있다.
빅 데이터를 이용한 제품디자인의 감성반응 분석 : 스마트폰을 대상으로
Recently, research has been performed in various areas such as public administration, marketing, medical area, IT industry, and manufacturing area to analyze and apply big data. This study uses big data to structurally analyze the sentimental response of consumers on product design. Engineered analysis system using N-gram analysis and TF-IDF algorithm was developed to identify the possibility with alternative method about limitation of survey method used in sentimental analysis of general design, and the non-cognitive situations were acquired and analyzed. Big data created from Twitter based on smart phones was collected to analyze by separating into preprocessing, processing, and postprocessing. Preprocessing is the stage of removing span and useless words in the collected data. Processing was classified into 14 categories including price, function, design, psychology, usability, advertisement, location, type comparison, prediction, period, brand, product name, purchase, and others to the consumer response about the products through pre- and post- investigation by applying the weighted value after extracting the key words in the text data by applying N-gram analysis and TF-IDF System. The classified categories were performed with sentimental analysis, active analysis, and design response analysis. For sentimental analysis, 71 words were extract by using the 5 categories including psychology, design, function, price, and purchase by applying the opinion mining method. A chart was composed according to the frequency of word appearance. polar analysis was performed into positive, negative, and neutral on the extracted words. For design response analysis, the response on the products were classified into function, usability, maintenance, economic, psychology, social, sensual, and environmental areas. Details were used to extract the factors with influence in the design response. The post-processing used wordcloud to effectively deliver the keyword, sentimental analysis, and result of polar analysis to the users. Then, these results were visualized, and factorial analysis, regression analysis, and statistical processing were executed on the 11 categories excluding the 3 categories including location, brand, and product name. As a result of the factor analysis, the main components including life photo function in comparison with iPhone 6S and 6S+ were extracted. In relations to the purchase opinion, significant influence was identified in the usability, purchase opinion, and psychological properties in relations to the new functions of iPhone. As time passes to the response on the product, data was regularly collected to check the change of the main contents through tracking analysis. When comparing October analysis result, the new products showed high factors related to new function, price, and purchase according to release of product. For November, psychological response and various public opinions related to the review, price, and new function were identified. Through the polar analysis, the accumulated data was collected to provide response comparison of before and after the product. Comparison analysis of sentimental value on leading to brand loyalty is also possible. Also, this thesis paper can be used for feedback data and consumer response prediction through the change of public opinion, and it can be used as data for market analysis.
빅데이터 마이닝에 의한 환경민원의 감성분석 및 공간패턴분석
홍석은 인하대학교 공학대학원 2018 국내석사
최근 정부 및 공공기관에서는 데이터가 중요한 가치창출의 원천임을 인지하고 있다. 이에 정부에서는 현재 공공 데이터 대국민 공개 및 빅 데이터 마스터 플랜 구축 등의 지속적인 노력을 기울이고 있다. 한국행정연구원의 조사 자료에 따르면 시민들의 의식수준 향상에 따른 관심 증가와 더불어 도시발전이 빠르게 진행됨에 따라 민원이 급속도로 증가하고 있다. 그러나 민원은 매우 복합적이며 원인에 따라 다양한 특성을 가지고 있어, 발생 원인에 대한 규명과 해소방안에 대한 연구는 명확하지 않은 상황이다. 현재 환경 분야의 민원은 생태환경, 기후 대기환경, 물 환경, 폐기물, 환경보건 등과 같이 다양한 분야에서 발생하고 있으며 주로 문서(민원서류), 전화, SNS 등 다양한 형태로 접수되고 있다. 이렇듯 현재 개별 건 단위 민원접수에 대한 처리 결과는 단순한 게시판 형태로 공개 처리하고 있다. 하지만 이러한 게시글 형태의 데이터는 1차원적인 데이터로써, 민원 유형과 원인, 지역적 현황에 대한 종합적 분석에는 한계가 존재한다. 이에 본 연구에서는 방대하게 수집된 디지털 민원 텍스트 자료로부터 민원의 유형과 이슈를 추출하고 민원 간 연관관계를 정의하여 의미 있는 토픽을 제시할 수 있는 빅 데이터 분석방안을 제시하고자 하였다. 이를 위해 본 연구에서는 환경민원 빅 데이터를 활용하여 비정형 텍스트 마이닝 기법과 민원인의 감성 척도를 산정하기 위해 토픽 모델링과 감성분석을 실시하였다. 2016년 이후부터 2017년 상반기까지의 새올전자민원 데이터를 추출하여 민원 데이터에 대한 단어 사전을 구축하였으며 LDA(Latent Disrichlet Allocation) 알고리즘을 이용하여 민원 문장과 단어와의 관계 속에 주제문장을 분류하는 토픽 모델링을 수행하고, 마지막으로 민원 유형별 대표단어에 대한 감성 점수를 산정하여 공간분포를 제시하였다. 본 연구의 1장에서는 연구배경 및 필요성, 목적과 방법을 소개하였으며 2장에서는 이론적 배경과 선행연구에 대한 고찰을 작성하였다. 3장에서는 데이터 수집과 전처리 작업 후 토픽모델링에 대한 연구를 진행하였다. 3장의 연구내용은 다음과 같다. 먼저 민원 데이터 단어 사전 구축을 위해 2016.01.01.~2017.06.30. 기간 내 서울특별시 25개 구를 대상으로 새올전자민원창구 온라인민원상담 내용을 수집하였다. 즉 온라인민원상담 사이트에서 ‘환경’ 키워드로 검색 후 민원내용 웹 스크래핑(web Scraping)을 실시하고 빈도분석을 통한 민원 데이터 단어 사전을 구축하였다. 구축결과 공사, 소음, 쓰레기와 같은 키워드를 포함한 환경민원들이 높은 빈도를 차지하였으며 주민, 주변과 같은 일반적인 단어에 대해서도 단어 사전을 구축하였다. 토픽모델링이란 비교사(Non-training) 기계학습의 하나로 문장들의 코퍼스(corpus)에 내재되어 있는 화제(토픽)를 끌어내는 방법론이다. 환경민원들의 토픽(주제)을 도출하기 위해 토픽모델링을 사용하였으며 이를 위해 토픽을 찾아내어 문장을 분류할 수 있는 LDA(Latent Disrichlet Allocation) 알고리즘 적용하였다. LDA 알고리즘은 깁스샘플링 방식을 채택하므로 분류성공률이 높아 많이 사용되는 방법이며 본 연구에서는 이 알고리즘을 적용하기 위해 R의‘topicmodels’패키지와 ‘lda’패키지를 사용하여 구현하였다. 4장에서는 환경민원 빅 데이터의 감성분석 및 공간패턴 분석을 하였다. 4장에서 감성분석을 위해 사용한 헤도노미터(Hedonometers) 점수는 트위터 데이터를 이용해 사용자들의 행복도를 측정할 수 있는 분석 툴로 미국 버몬트(Vermont)대학 연구팀 개발한 것이다. 개별 단어들의 행복 점수를 기준으로, 매일 5,000만 개의 트윗을 추출하여 데이터베이스상의 단어들과 매칭 시키는 작업을 통해 점수를 측정한 것이다. 이에 본 연구에서도 헤도노미터 기준을 사용하여 토픽 단어에 대한 매칭 분석을 실시하고, 유형별 대표단어에 대한 순위와 점수를 산출하였으며 모든 단어의 점수는 가장 낮은 1점부터 가장 높은 9점 사이에 존재하도록 하였다. 산출한 점수를 토대로 민원 내용에 출현하는 단어별 빈도수를 이용하여 환경민원 감성점수(EC_Score, Environment Complaint Score)라는 점수를 정의하였으며 이 점수를 이용하여 각 민원 별 감성점수를 산출하였다. 이 감성점수는 환경민원의 토픽별 심각성과 우선순위를 위한 수치이다. 환경민원의 경우 발생 원인에 대한 근본적인 시공간적인 현상 분석이 동반되어야 적합한 해소방안과 예방을 위한 민원 행정의 기초자료로 활용 될 수 있다. 이에 산정된 감성점수의 공간적 패턴을 분석하였으며 환경민원은 민원이 발생한 지점 뿐 만 아니라 주변 지역에도 영향이 있을 것이므로 공간적 패턴을 분석하였다. 토픽모델링의 결과로 환경민원을 크게 ‘공사/소음’, ‘건축심의’, ‘도시미관’, ‘생활편의’, ‘안전단속’ 과 같이 5개의 토픽으로 구분 할 수 있었으며 감성분석을 통해 각각의 민원에 대해 환경민원 감성점수(EC_Score, Environment Complaint Score)를 부여하였고 토픽별 환경민원 감성점수의 공간적 분포를 확인할 수 있었다. 본 연구결과는 민원정보의 유형화와 감성 분석을 통해 민원 정보의 가치를 극대화하고, 민원에 대한 선제적 대응체계를 구축할 수 있을 것이며 시민의 소리를 파악하여 적합한 해소방안을 모색하고 예방할 수 있도록 하는 등 환경민원 처리를 위한 우선순위 도출과 지역적인 환경지표와 환경관리시설 및 규제성 등 관련 분야의 정책 수립 기초 자료로 활용될 수 있을 것으로 생각된다. Recently, governments and public institutions have recognized that data is a source of significant value creation. The government is currently making efforts to publicize public data and build a big data master plan. According to the survey data of the Korean administrative research institute, civilization is rapidly increasing as the urban development is rapidly progressed along with the increase of interest due to the improvement of citizens' consciousness level. However, complaints are very complex and have various characteristics depending on the cause. Therefore, it is not clear how to identify the cause of the occurrence and how to solve it. Currently, civil complaints in the field of environment are occurring in various fields such as ecological environment, climate air environment, water environment, waste, environmental health, etc. and they are received in various forms such as civil documents, telephone and SNS. As a result, the results of the process of accepting individual civil complaints are now publicly posted in the form of simple bulletin boards. However, this type of bulletin data is one-dimensional data, and there is a limit to the comprehensive analysis of the types of civil complaints, causes and local conditions. In this thesis, we propose a big data analysis method that can extract meaningful topics by extracting types and issues of complaints from digital collective texts collected and collecting complaints. In this study, we conducted topic modeling and emotional analysis to estimate atypical text mining techniques and civilian emotional scales using environmental data. Topic modeling that classifies topic sentences in relation to civil application sentences and words by using LDA(Latent Disrichment Allocation) algorithm is constructed by extracting data of petition application from 2016 to 2017, Finally, the spatial distribution is presented by calculating emotional scores for the representative words by civil application type. Section 1 introduces the background, necessity, purpose and method of this study. Section 2 describes the theoretical background and previous studies. In Chapter 3, we studied about topic modeling after data collection and preprocessing. The research contents of Chapter 3 are as follows. First, for the construction of the complaint data word dictionary, 2016.01.01. ~ 2017.06.30. During the period, the contents of consultation for online application were collected from 25 districts of Seoul Metropolitan City. In other words, web scraping of civil complaints was conducted using the keyword 'environment' in the online complaint counseling site, and complaint data word dictionary was constructed through frequency analysis. As a result of construction, environmental complaints including keywords such as construction, noise, and garbage took a high frequency, and a word dictionary was constructed for common words such as residents and surrounding people. Topic modeling is a method of extracting topics that are embedded in the corpus of sentences as part of non-training machine learning. We used topic modeling to derive topics of environmental complaints. We applied LDA(Latent Disrichment Allocation) algorithm to find out topics and classify sentences. Since LDA algorithm adopts Gibbs sampling method, it is widely used because it has high classification success rate. In this study, we implemented it using R 'topicmodels' package and 'lda' package to apply this algorithm. In Chapter 4, emotional analysis and spatial pattern analysis of environmental data were conducted. In Section 4, the Hedonometers score used for emotional analysis was developed by Vermont University research team as an analysis tool that can measure users' happiness using Twitter data. Based on the scores of happiness of the individual words, the score is measured by extracting 50 million tweets everyday and matching them with words in the database. In this study, we also conducted a matching analysis on topic words using the hedonometer standard, and calculated the ranking and scores of representative words by type. The scores of all words were between the lowest point 1 and the highest point 9 . Based on the scores, the score of EC_Score(Environment Complaint Score) was defined using frequency of words appearing in the contents of civil affairs. This emotional score is a measure of the level and priority of environmental complaints. In the case of environmental civil complaints, it should be accompanied by fundamental temporal phenomenon analysis on the cause of occurrence, and it can be used as a basic data of the civil service administration for proper solution and prevention. The spatial patterns of the emotional scores were analyzed and the spatial patterns were analyzed because the environmental complaints would affect not only the points where the complaints occurred, but also the surrounding areas. As a result of topic modeling, environmental complaints can be divided into five topics such as 'construction/noise', 'architectural deliberation', 'city aesthetics', 'life style', 'safety interception' The EC_Score(environmental complaint score) was given to the complaints, and the spatial distribution of the environmental complaint sensitivity score per topic was confirmed. The result of this study is to maximize the value of civil petition information through the typification of the petition information and emotional analysis, to build a preemptive response system for the petition, to identify the voice of the citizen, And environmental management facilities and regulatory environment. The results of this study can be summarized as follows.