Введение Актуальность исследования. В современном мире общение с помощью интернет-ресурсов занимает довольно значительную часть жизни человека, как то различные социальные сети, новостные сайты, мессенджеры и т.д. К сожалению, при взаимодействии через интернет-пространство не всегда удается избежать агрессивной лексики от оппонента, которая может быть использована как намеренно, так и не преднамеренно, однако в обоих случаях способна вызывать негативные последствия. В связи с этим возникает потребность в разработке автоматической классификации агрессивной лексики в неструктурированных текстах, которыми является значительная часть информации, представленной в интернет-пространстве. Одной из ключевых проблем классификации вербальной агрессии является её широкий спектр выражения. Так, речевая агрессия может принимать различные формы: от простейших угроз до более сложных и неоднозначных формулировок, что, соответственно, усложняет процесс классификации вербальной агрессии. Следует отметить, что одним из возможных подходов к классификации агрессивной лексики может явиться использование машинного обучения. Для создания и обучения модели автоматической классификации агрессивной лексики необходим довольно большой и предварительно размеченный набор данных. Помимо этого, при разработке модели классификации агрессивной лексики важным аспектом является защита приватности и свободы слова, то есть необходимо учитывать, что такая классификация способна привести к ошибочному или несправедливому исключению определенных выражений, которые могут быть важны для дискуссии или свободного обмена мнениями. Соответственно важно разрабатывать сбалансированные подходы, которые учитывают контекст и индивидуальные особенности каждого случая. Следует отметить, что вопросам классификации вербальной агрессии посвящено достаточно работ (в том числе как лингвистов, например, Седов К.Ф. [86], Енина Л.В. [87], Михалская А.К. [88], Паламарчук Н.А. [89],Щербинина Ю.В. [90;118], Шейгал Е.И. [91], Смирнов П.Ю., Новикова Т.Ф. [85], а также Басс А [68] ), но не существует автоматической классификации. Помимо этого, классификацией неструктурированных текстов занимаются многие исследователи – инженеры, в том числе Рубцова Ю.В. [4],Капитанов А.И. [100], Бровкин [101], Рыцарев И.А. [102], Козлов П.Ю. [103], Кижаева Н.А. [107], Котельников Е.В. [110] и др., но не исследована классификация вербальной агрессии в неструктурированных текстах. Следует отметить, что набирающие популярность нейросети, которые могут работать с текстом, не могут классифицировать агрессивную лексику. В связи с вышеизложенным тематика данного диссертационного исследования является современной и актуальной, поскольку у лингвистов нет программного обеспечения для автоматической классификации вербальной агрессии, а у инженеров нет именно классификации агрессивной лексики в неструктурированных текстах. Объект исследования: агрессивная лексика в неструктурированной текстовой информации. Предмет исследования: методика и алгоритм автоматической классификации агрессии в неструктурированной текстовой информации в интернет-пространстве. Цель исследования: разработка автоматической классификации агрессивной лексики в неструктурированных текстах. Для достижения поставленной цели в диссертации решаются следующие задачи: аналитический обзор различных векторных моделей, таких как TF- IDF, Bag of Words, Word2Wec, HashVectorizer; алгоритмы классификации: метод k-ближайших соседей, метод опорных векторов, деревья решений, логистическая регрессия, наивный баейсовский классификатор, мультиномиальный наивный баейсовский классификатор; также различные виды машинного обучения, такие как с учителем, без учителя и с подкреплением; помимо этого разбираются понятия структурированных, неструктурированных и слабоструктурированных данных ; аналитический обзор существующих классификаций вербальной агрессии, как с лингвистической стороны, так и с психологической, а также даны её определения, выбрано и обосновано одно из них; введено понятие речевой манипуляции; проанализированы классификации причин возникновения вербальной агрессии, выбрана и обоснована одна из них; проанализированы мотивы и способы выражения агрессии, а также способы речевого воздействия; помимо этого приведены языковые средства выражения агрессии, её формы и последствия, к которым она может привести, а также правила поведения для предотвращения последствий ; создание программного комплекса автоматической классификации агрессивной лексики в неструктурированных текстах (КРА). Методы исследования: в ходе проведения диссертационных исследований применялись основные положения системного анализа, методов оптимизации, модели и методы искусственного интеллекта, компьютерной лингвистики, а также филологические положения. Научная новизна заключается в следующих основных результатах: предлагается классификация вербальной агрессии, основанная на одной из предложенных лингвистических классификаций, отличающаяся тем, что подходит для машинного обучения; предлагается программный комплекс, позволяющий автоматически классифицировать вербальной агрессии в неструктурированных текстах в информационном пространстве. Достоверность полученных результатов диссертационной работы определяется корректностью практической реализации применения полученных результатов. Практическая значимость работы заключается в алгоритме автоматической классификации вербальной предложенном агрессии в неструктурированных текстах информационного пространства. Данный алгоритм может быть полезен не только для фильтрации контента в социальных сетях, мессенджерах, но и использоваться для анализа общественного мнения и возможного предсказания конфликтных ситуаций. Разработка и совершенствование автоматических систем классификации агрессивной лексики имеет большое значение в современном информационном обществе, поскольку позволяет повысить качество онлайнкоммуникаций, предотвращать возможные негативные сценарии. Данный алгоритм используется при ведении учебных занятий в ФГБОУ ВО ВГУ по дисциплине «Искусственный интеллект». Личный вклад автора заключается в следующих положениях, выносимых на защиту, которые получены автором лично, в частности: аналитический обзор существующих векторных моделей, алгоритмы классификации, а также различные виды машинного обучения; аналитический обзор существующих классификаций вербальной агрессии, как с лингвистической стороны, так и с психологической; программная реализация автоматической классификации. Апробация работы. Основные положения и результаты диссертационной работы были представлены на: IX международной научной конференции «Книга в современном мире: когнитивные аспекты», 2021 г.; Международной научной конференции «Актуальные проблемы прикладной математики, информатики и механики»,2022 г.; Международной научной конференции «Актуальные проблемы прикладной математики, информатики и механики», 2023 г.; XXIII Международной научно-практической конференции им. Э.К. Алгазинова, 2023 г.; XXIV Международной научно-практической конференции им. Э.К. Алгазинова, 2024 г. Публикации. По теме диссертационной работы опубликовано 7 научных работ, в том числе 2 в издании из перечня ВАК. Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения, списка литературы. Общий объем работы составляет 103 страниц, в том числе 19 формул и 61 рисунок. Во введении обосновывается актуальность темы, формулируются цели и задачи работы, указана научная новизна, приводится список публикаций и апробация исследования. Помимо этого, обосновывается практическая значимость работы, а также достоверность полученных результатов, указан личный вклад автора и приводится краткое содержание глав. В первой главе приведен анализ существующих классификаций вербальной агрессии, как с психологической точки зрения, так и с филологической. Помимо классификаций рассмотрены и проанализированы причины появления агрессии, виды и мотивы, языковые средства, а также способы её выражения, последствия и возможные способы предотвращения. Выбрана, обоснована и дополнена одна из существующих классификаций, которая подходит для решения задачи классификации вербальной агрессии в неструктурированных текстах. Во второй главе рассмотрены и проанализированы основные виды данных в информационном пространстве, обоснован выбор машинного обучения. Рассмотрены и проанализированы векторные модели, обоснован выбор конкретной модели. Рассмотрены и проанализированы алгоритмы классификации, обоснован выбор алгоритма, легшего в основу автоматического классификатора. Проанализированы виды машинного обучения, обоснован выбор одного из них. В третьей главе произведен анализ существующих разработок в области классификации неструктурированных текстов, а также различных языковых моделей. Помимо этого, автором были проведены эксперименты с предварительно обученными моделями. В четвертой главе рассматривается разработка алгоритма автоматической классификации агрессивной лексики в неструктурированных текстах в интернет-пространстве. Помимо этого, был проведен анализ скоростей и точности различных векторизаторов, для выбора наиболее оптимального для поставленных задач. В заключении диссертационной работы подведены итоги решения поставленных в исследовании задач. Переход от первой главы (лингвистической) ко второй (где выбор машинного обучения и т.д.) Данная классификация подходит для задачи классификации неструктурированных текстов, но необходимо добавить еще одно условие – «нейтральная лексика». Именно в таком виде она будет использоваться в диссертационной работе. На сегодняшний день, вопросами вербальной агрессии занимаются множество специалистов: лингвисты, психологи, культурологи, юристы и политологи, но пока не выведено точного определения вербальной агрессии, а также единой классификации речевой агрессии в интернет-пространстве. Следует отметить, что в информационном пространстве выявлять вербальную агрессию все же несколько же сложнее, чем при личном общении. Еще сложнее привлечь к ответственности обидчика. В связи с этим разрабатывается программный комплекс для определения вербальной агрессии. Помимо классификаций самой речевой агрессии в главе рассматриваются причины, виды и мотивы, языковые средства, способы вербальной агрессии, последствия и способы её предотвращения. Заключение В ходе выполнения диссертационной работы для решения поставленной научно-технической задачи исследования были проведены исследования и получены следующие результаты. 1. Произведен анализ существующих классификаций вербальной агрессии, а так же даны её определения, выбрано и обосновано одно из них; введено проанализированы понятие речевой манипуляции; классификации причин возникновения вербальной агрессии, выбрана и обоснована одна из них; проанализированы мотивы и способы выражения агрессии, а также способы речевого воздействия; помимо этого приведены языковые средства выражения агрессии, её формы и последствия, к которым она может привести, а также правила поведения для предотвращения последствий. Обоснован выбор классификации [91] с добавлением еще одного классификатора, необходимого при машинном обучении. 2. Проанализированы различные векторные модели, такие как TFIDF, Bag of Words, Word2Wec, HashVectorizer; алгоритмы классификации: метод k-ближайших соседей, метод опорных векторов, деревья решений, логистическая регрессия, наивный баейсовский классификатор, мультиномиальный наивный баейсовский классификатор; также различные виды машинного обучения, такие как с учителем, без учителя и с подкреплением; помимо этого разбираются понятия структурированных, неструктурированных и слабоструктурированных данных. 3. Проанализированы классификации выявлено работ, существующие разработки неструктурированных связанных с текстов, проблемой в области однако не автоматической классификацией агрессивной лексики в неструктурированных текстах в информационном пространстве. 4. Предложен программный комплекс автоматической классификации вербальной агрессии в неструктурированных текстах. Основные итоги диссертационной работы были представлены на: IX международной научной конференции «Книга в современном мире: когнитивные аспекты», 2021 г.; Международной научной конференции «Актуальные проблемы прикладной математики, информатики и механики»,2022 г.; Международной научной конференции «Актуальные проблемы прикладной математики, информатики и механики», 2023 г.; XXIII Международной научно-практической конференции им. Э.К. Алгазинова, 2023 г.; XXIV Международной научно-практической конференции им. Э.К. Алгазинова, 2024 г. В настоящее время по теме диссертационной работы опубликовано 7 научных работ, в том числе 2 в издании из перечня ВАК. Представленный программный комплекс используется при ведении учебных занятий в ФГБОУ ВО ВГУ по дисциплине «Искусственный интеллект». Стоит отметить, что предложенный алгоритм не всегда предоставляет точную классификацию манипулятивной лексики, в связи с тем, что в обучающем наборе данных лексики отсутствовало необходимое количество этого вида лексики, поэтому она чаще всего классифицируется как нейтральная. В перспективах развития планируется усовершенствование работы классификатора с повышением точности.