# Аналіз предметної області

# Вступ

У даному документі міститься коротка інформація про аналіз предметної області, пов’язаної з системами аналізу медіа контенту. Нижче розписані основні пункти.

Зміст документа:

Основні визначення
Підходи та способи вирішення завдання
Порівняльна характеристика існуючих засобів вирішення завдання
Висновки
Посилання

# Основні визначення

Контент-аналіз (opens new window) - якісно-кількісний метод вивчення документів, який характеризується об'єктивністю висновків і строгістю процедури та полягає у вираженні якісних ознак тексту з подальшою інтерпретацією результатів.

Медіа контент (opens new window) - це змістове наповнення друкованого, аудіовізуального, електронного чи конвергентного засобу масової інформації матеріалами у формі тексту, зображення чи звукозапису з метою передачі інформативних, загальнозначущих, естетично привабливих різножанрових повідомлень, спрямованих на масову аудиторію.

FAQ (opens new window) - підбірка часто задаваних питань на певну тему та відповідей на них, яка створюється переважно для того, щоб не треба було постійно відповідати на одні й ті ж запитання, часто нудні для того, хто відповідає.

Система (opens new window) - множина взаємопов'язаних елементів, що утворюють єдине ціле, взаємодіють із середовищем та між собою, і мають мету.

Соціа́льна мере́жа (opens new window) - соціальна структура, утворена індивідами або організаціями. Вона відбиває розмаїті зв'язки між ними через різноманітні соціальні взаємовідносини, починаючи з випадкових знайомств і закінчуючи тісними родинними зв'язками.

ЗМІ (Засоби масової інформації) (opens new window) - різновид медіа, орієнтований на одночасне передавання інформації великим групам людей. Охоплюють засоби передавання, зберігання та відтворення інформації, такі як преса (газети, журнали, книжки), радіо, телебачення, інтернет, кінематограф, звукозаписи та відеозаписи, відеотекст, телетекст, рекламні щити та панелі, мультимедійні центри. Всім цим засобам притаманні спільні якості — звернення до масової аудиторії, доступність багатьом людям, корпоративний зміст виробництва і розповсюдження інформації.

Експорт даних (opens new window) - перетворення і запам'ятовування даних з початкового формату в інший формат, який буде читатися певною програмою, призначеною для користувача. При цьому, звичайно, можлива сумісність з різними програмами.

Інтерфейс (opens new window) - сукупність засобів, методів і правил взаємодії (управління, контролю) між елементами системи.

# Підходи та способи вирішення завдання

Методи вивчення змісту медіа-комунікацій — сукупність методів соціологічних досліджень, які спрямовані на інтерпретацію змісту документу у мас-медіа.

Згідно з теоретичною демаркацією, методи поділяються на кількісні описові дослідження відкритого значення і якісні інтерпретативні дослідження. Окремо виділяють методи, що спрямовані на вивчення «медійних мов» та візуальні образи та звуки.

# Якісні методи

# Традиційні методи аналізу

Традиційними методами аналізу є сукупність операцій, яка дозволяє інтерпретувати документ згідно з метою дослідника. Інтерпретація тексту в таких умовах дозволяє дослідити сутність документу, мотивацію та наміри комунікатора, особливості створення документу, очікуваний ефект та вплив повідомлення тощо. Традиційні методи відрізняються від формалізованих тим, що вони є суб'єктивними та залежать від установок дослідника по відношенню до опрацювання матеріалу та інтерпретації тексту. Висновки щодо одного і того ж документу, який проінтерпретований різними дослідниками, можуть різнитись.

Що стосується переваг традиційних методів аналізу, то вони можуть бути використані на базі одного чи кількох документів, тоді як контент-аналіз потребує великої кількості матеріалу. При традиційних методах аналізу документ не втрачає оригінальність та інші особливі риси. Вдале використання цих методів є тоді, коли документ є унікальним.

Виділяють зовнішній та внутрішній аналізи. Зовнішній аналіз допомагає перевірити надійність та достовірність документа, дає зрозуміти його мотиви і те, у яких історичних обставинах документ створено. Внутрішній аналіз полягає у аналізі змісту, а саме сприяє вивченню співвідношень різних елементів тексту, модальності, ставлення автора до тема та інше.

Поширеними традиційними методами аналізу документів є журналістський, біографічний, історичний, літературний та багато інших.

Журналістський аналіз полягає в виявленні характеристик (тема, ідея, образний орієнтир) тексту та їх оцінці за визначеними критеріями.

Біографічний метод досліджує розвиток суспільства та життя людини на прикладі конкретних біографій.

Історичний метод перевіряє дійсність тексту за матеріальними ознаками (папір, почерк, стиль, словник автора), допомагає з'ясувати мотиви складання документа, висвітлює історичні обставини, за яких документ був створений, та досліджують нові історичні аспекти.

Літературний метод вивчає стиль, тон, словник автора, композицію твору.

# Феноменологічний аналіз

Феноменологічний аналіз ідентифікує базові структури суб'єктивного досвіду, а саме духовних намірів та особистісних смислів, дозволяє вивчити емоційно-ціннісний арсенал переживань особистісних смислів.

# Дискурс-аналіз

Дискурс — система пов'язаних між собою символів, які є посиланням на досвід; вираження суспільних практик через символи.

Виділяють два підходи до визначення поняття «дискурс». Згідно з першим підходом, дискурс — це форма вираження, в яку може бути вкладено потрібний зміст. Цей підхід використовується при вивченні дискурсу як інструменту маніпуляції словом.

Другий підхід орієнтується на внутрішню організацію елементів тексту. Тоді дискурс постає як повноцінний текст; діалог; група висловлювань, які пов'язані одним смислом; одиниця висловлювання в глобальному сенсі. Цей підхід є ефективним для опису методики проведення дискурс-аналізу, проведення дискурсивного аналізу та, в першу чергу, виділення одиниці аналізу. Одиницею аналізу може слугувати висловлювання, яке має інтригу, незалежно від того, чи є воно послідовністю слів чи речень.

Методика дискурсивного аналізу медіа-текстів була запропонована Т.А. ван Дейком. Дискурс-аналіз варто розпочинати з вивчення структури тексту, ієрархічна схема якого складається з заголовку, короткого огляду, основних тез, контексту та історії подій. Такий структурний аналіз не лише полягає в лінгвістичному описанні семантичних структур ізольованих слів, словосполучень, речень. Він також має на меті характеризувати складні властивості тексту (зв'язність між реченнями, тематична структура, стилістичні та риторичні параметри). Таким чином, тексти піддаються комплексному описанню за умови, що кожна компонента аналізується у ході дискурс-аналізу.

Особливість дискурс-аналізу полягає в тому, що він описує текст у термінах теорій, які розроблені для деяких рівнів дискурсу. Класична лінгвістична семіотика орієнтується на форму і значення як складову знаку, а згідно з дискурс-аналізом текст представлений як складне утворення, яке потребує окремого дослідження фонетичних, графічних, морфологічних, синтаксичних, мікро- і макросемантичних, стилістичних, риторичних, прагматичних, інтеракціоністських та інших структур та стратегій.

# Кількісні методи

# Аналіз природної мови

Аналіз природної мови охоплює методики обчислюваної лінгвістики та теорії штучного інтелекту.

Аналіз природної мови є набір комп'ютеризованих технік та методик для аналізу текстів. Згідно з дослідницею Елізабет Лідді, текст може бути написаний будь-якою мовою, в будь-якому жанрі, він може бути усний чи письмовий. Важливо, щоб текст був мовою, яка використовується індивідами для спілкування. Основне завдання полягає у взаємодії людських комунікативних актів (вербальних та невербальних) та комп'ютерних систем. Прикладами інших задач є класифікація, кластеризація колекцій документів, глибинний аналіз текстів, переклад документів з однієї мови на іншу та інші.

Базою для аналізу природної мови є формальні теорії мови. Об'єктом аналізу є не лише писемний текст, а також звуки, відео-файли та інші засоби, що передають інформацію (жести, дотики).

# Текст-майнінг

Текст-майнінг — міждисциплінарний напрямок досліджень; налічує набір технік, які можуть виявити в тексті нетривіальні тенденції; охоплює методики обробки інформації, машинного навчання, статистичної класифікації, роботи з базами даних, які можна застосувати до тексту. Текст майнінг передбачає два етапи:

Зміна тексту (text refining) у проміжну форму.
Виокремлення знання (knowledge distillation), що означає визначення патернів у проміжній формі.

Проміжні форми — структуровані чи напівструктуровані. Одиниці аналізу — документи чи концепти. Базою для текст-майнінгу є теорії обчислюваної лінгвістики та галузі інформатики. Об'єктом аналізу є текстові дані, які містять змістовну інформацію. Текст-майнінг та аналіз природної мови широко використовуються у контент-аналізі.

Завданнями є категоризація документів, пошук інформації, внесення змін до колекції текстів, створення засобів для представлення інформації.

# Контент-аналіз

Контент-аналіз є найпопулярнішим методом дослідження. Існує велика кількість визначень цього поняття. Класичне визначення Барельсона наступне: «Контент-аналіз — це дослідницька техніка для об'єктивного, системного й кількісного опису наявного змісту комунікації, яка відповідає цілям дослідника».

Визначення, яке передає усю сутність цього методу звучить таким чином «контент-аналіз є вимірюванням тексту чи іншого символьного матеріалу, що має методологічне підґрунтя і відповідає завданням соціальних наук». У контент-аналізі можливо робити загальні висновки, які стосуватимуться усього джерела. Ця ознака є відмінною рисою контент-аналізу від традиційного аналізу документів.

Об'єкт, предмет та завдання контент-аналізу базується на досліджуваному аспекті процесу масової комунікації.

# Змішані методи

Деякі методи нелегко віднести до однієї з двох описаних категорій: якісні чи кількісні. Тому їх варто вважати змішаними методами, які використовуються для аналізу документів мас-медіа.

Один з них — психоаналітичний підхід, який має на меті дослідити контент, зосереджуючись на ставленні та мотивації аудиторії з точки зору несвідомого. Цей підхід застосовують для того, щоб дослідити те, яке значення має реклама, та її вплив на аудиторію.

Аналіз наративних структур та дослідження функцій контенту — інші методи аналізу. Аналіз наративних структур досліджує глибинні структури документу у співвідношенні з поверхневими структурами дискурсу. Останній визначає функції комунікації. О. Савельєва виділяє такі функції телевізійного контенту: інформувати, розважати, встановлювати соціальні стандарти, формувати цінності та транслювати норми.

Розрізняють два типи аналізу медійного контенту — аналіз контенту повідомлення та структурний аналіз тексту. Основні відмінності полягають у тому, що перший є кількісним, фрагментарним, систематичним, узагальнюючим та екстенсивним, має відкриті значення, та є об'єктивним. У той час, як ознаками структурного аналізу є те, що він є якісним, загальним, селективним, ілюстративним та специфічним, має приховані значення, та є відносним до читача.

Проблема усіх методів і підходів полягає в розбіжності, яка виникає між результатами контент-аналізу і сприйняттям авторів та аудиторії.

# Виділяють два основних етапи роботи систем аналізу медіа-контенту:

Виконавчий етап. Передбачає процедури з виділення індикаторів категорій і реєстрації характеристик їх присутності у тексті. При цьому кодувальники можуть неточно співвіднести одиниці аналізу з категоріями, пропустити одиниці аналізу, фіксувати неіснуючі категорії. Це порушує стійкість результатів контент-аналізу.

Big Data (opens new window) – група технологій та методів, за допомогою яких аналізують та обробляють велику кількість даних (як структурованих так і неструктурованих), що не піддається обробці класичними способами через занадто великий об'єм.

Data Mining (opens new window) – процес напівавтоматичного аналізу великих баз даних з метою пошуку корисних фактів. Зазвичай поділяють на задачі класифікації, моделювання та прогнозування.

Parsing (opens new window) – це програма або частина програми, яка виконує процес аналізу вхідної послідовності символів, з метою розбору граматичної структури згідно із заданою формальною граматикою.

Text Mining (opens new window) – напрям інтелектуального аналізу даних (англ. Data Mining) та штучного інтелекту, метою якого є отримання інформації з колекцій текстових документів, ґрунтуючись на застосуванні ефективних, у практичному плані, методів машинного навчання та обробки природної мови. Інтелектуальний аналіз тексту використовує всі ті ж підходи до перероблювання інформації, що й інтелектуальний аналіз даних, однак різниця між цими напрямками проявляється лише в кінцевих методах, а також у тому, що інтелектуальний аналіз даних має справу зі сховищами та базами даних, а не електронними бібліотеками та корпусами текстів.

Етап оброблення даних. Його зміст визначає мета дослідження. Залежно від неї при обробленні результатів (кодувальних матриць) можна використати частотні чи відсоткові розподіли, коефіцієнти кореляції, порівняльні таблиці тощо. При аналізі масштабних даних іноді застосовують спеціальні математично-статистичні способи.

Apache Lucene (opens new window) – безкоштовна бібліотека з відкритим кодом для пошуку окремого документа або колекції в повнотекстовій базі даних. Lucene підходить до використання в будь-якому проєкті що потребує повнотекстового пошуку. Найчастіше використовується для реалізації пошукових систем інтернет та сайтами для локального пошуку.

Deep Learning (opens new window) – це галузь машинного навчання, що ґрунтується на наборі алгоритмів, які намагаються моделювати високорівневі абстракції в даних, застосовуючи глибинний граф із декількома обробними шарами, що побудовано з кількох лінійних або нелінійних перетворень.

Elasticsearch (opens new window) – вільне програмне забезпечення, пошуковий сервер, розроблений на базі Lucene. Надає розподілений, мультиарендний повнотекстовий пошуковий рушій з HTTP вебінтерфейсом і підтримкою безсхемних JSON документів.

Full text search (opens new window) - це метод пошуку окремого документа або колекції в повнотекстовій базі даних[en]. Повнотекстовий пошук відрізняється від пошуку на основі метаданих або по окремим частинам оригінального тексту, які представлені в базах даних (таких як заголовки, анотації, окремі розділи, або бібліографія). У повнотекстовому пошуці, пошуковик аналізує всі слова в кожному збереженому документі, та намагається відповідати критеріям пошуку (наприклад, тексту визначеному користувачем).

Sphinx (opens new window) – система повнотекстового пошуку, відмінною особливістю якої є висока швидкість індексації та пошуку, а також інтеграція з існуючими СУБД (MySQL, PostgreSQL) та наявність API для поширених мов веб-програмування.

TensorFlow (opens new window) – відкрита програмна бібліотека для машинного навчання цілій низці задач, розроблена компанією Google для задоволення її потреб у системах, здатних будувати та тренувати нейронні мережі для виявляння та розшифровування образів та кореляцій, аналогічно до навчання й розуміння, які застосовують люди.

Tokenization (opens new window) - процес заміни конфіденційного елемента даних неконфіденційним еквівалентом, який називається маркером, який не має внутрішнього значення чи цінності, що може використовуватися. Маркер(token) — це посилання, яке повертається до конфіденційних даних через систему токенізації. Для зіставлення вихідних даних із маркером використовуються методи, які роблять маркери неможливими для повернення за відсутності системи токенізації, наприклад, за допомогою маркерів, створених із випадкових чисел.

# Порівняльна характеристика існуючих засобів вирішення завдання

Позначки якості реалізації параметрів:

🟢 - Повністю задовільняє
🟡 - Частково задовільняє
🔴 - Не задовільняє

Властивості	Параметри	Наша система	Semantrum (opens new window)	neticle Media Intelligence (opens new window)	youscan (opens new window)	Keyhole (opens new window)	Buffer: Social Media Tools (opens new window)	SocialBlade (opens new window)	Minter.io (opens new window)	Quintly (opens new window)
Functionality	Особистий кабінет	🟢	🟢	🟢	🟢	🟢	🟢	🟢	🟢	🟢
	Джерела моніторингу	Соціальні мережі, ЗМІ	Соціальні мережі, ЗМІ	Соціальні мережі, ЗМІ	Соціальні мережі, ЗМІ	Соціальні мережі	Соціальні мережі, ЗМІ	Соціальні мережі	Соціальні мережі, ЗМІ	Соціальні мережі
	Візуалізація даних	🟢	🟢	🟢	🟢	🟢	🟢	🔴	🟢	🟢
	Фільтр даних	🟢	🟡	🟢	🟢	🟢	🟡	🟢	🟢	🟢
	Експорт даних	🟢	🟢	🟢	🟢	🟢	🟢 у платній версії	🟢	🟢	🟢
	Сповіщення	🟢	🟢	🟢	🟢	🟢	🟢	🟢	🟢	🟢
Usability	Ціна	безкоштовна	від 8 500 грн	від 69€/місяць	від 1 000$/місяць	від 49$/місяць	має безкоштовну та версії від 6$/місяць	від 3,99$/місяць	від 9$/місяць	від 345$/місяць
	Інтерфейс	🟢	🟡	🟡	🟢	🟢	🟢	🟡	🟢	🟢
	Мови (UKR/ENG)	🟢/🟢	🟢/🟢	🔴/🟢	🟢/🟢	🔴/🟢	🔴/🟢	🔴/🟢	🔴/🟢	🔴/🟢
	Пробна версія	🔴	7 днів	7 днів	7 днів	1 місяць	14 днів	🔴	14 днів	1 місяць
	Версії для різних пристроїв	🟢 Комп'ютер, 🟢 Смартфон, 🟢 Планшет	🟢 Комп'ютер, 🟡 Смартфон, 🟢 Планшет	🟢 Комп'ютер, 🟢 Смартфон, 🟢 Планшет	🟢 Комп'ютер, 🟢 Смартфон, 🟢 Планшет	🟢 Комп'ютер, 🟡 Смартфон, 🟢 Планшет	🟢 Комп'ютер, 🟢 Смартфон, 🟢 Планшет	🟢 Комп'ютер, 🟡 Смартфон, 🟡 Планшет	🟢 Комп'ютер, 🟢 Смартфон, 🟢 Планшет	🟢 Комп'ютер, 🟡 Смартфон, 🟢 Планшет
Reliability	Захист даних	🟢	🟡	🟢	🟢	🟢	🟢	🟡	🟢	🟢
	Крупні бренди в ролі клієнтів	🔴	🟢	🟢	🟢	🟢	🟢	🔴	🟢	🟢
Performance	Швидкість роботи	🟢	🟡	🟢	🟢	🟢	🟢	🟢	🟢	🟢
	Оптимізація	🟢	🟡	🟢	🟢	🟢	🟢	🟡	🟢	🟡
Supportability	Служба підтримки	🟢	🟢	🟢	🟢	🟢	🟢	🟢	🟢	🟢
	FAQ	🟢	🟢	🟢	🟢	🟢	🟢	🟢	🟢	🔴

# Висновки

Після аналізу існуючих систем можна зазначити, що серед них не має такої, яка б одночасно задовільняла всі пункти. Враховуючи це, буде доцільним створення нового засобу для аналізу медіа-контенту, що містить у собі усі переваги вищенаведених засобів.

# Посилання