В настоящее время существуют лишь три доступных способа выявления сомнительных ресурсов, содержащих эротику или порнографию – ручная обработка, анализ текстовых описаний, списки сомнительных ресурсов (black-lists). Практика целого ряда стран показала крайне низкую эффективность данных методов. Компания Smilart разработала систему информационно аналитического распознавания сомнительного содержания в визуальном медиа контенте, которая состоит из трёх взаимосвязанных систем контроля, управления и анализа поступающей информации.
Структура системы распознавания нежелательного содержания.
Первый уровень защиты – это Smilart Search Similar, которая выступает в роли предварительного фильтра и отвечает за идентификацию уже известных системе визуальных данных, например изображений или видео. Стабильность системы была проверена на миллионах изображений. Технология Smilart построена на собственных инновационных разработках и не использует общеизвестные методы.
Для проверки стабильности системы, Smilart провела успешная тест по инспекции на повторы изображений по разным запросам с поискового ресурса Google, определена его размерность, время и размер пополнения, уровень эротики и порнографии при выдаче на обычный не специализированный запрос, например “keeley”.
Данная система динамически обучается, но требует регулярного обновления в лаборатории Smilart. Суть обновления состоит в оптимизации системы для недопущения падения производительности и точности распознавания. Рабочий размер системы колеблется от сотен гигабайт до нескольких терабайт в зависимости от решаемых задач.
Технологии Smilart позволяют оптимально работать с большими базами изображений. Время идентификации по базе изображений в один миллион, не превышает нескольких миллисекунд на современной рабочей станции. Использование в идентификации таких больших баз данных является уникальным и не имеет аналогов, разница в скорости между математическими порядками размера баз имеет логарифмическую зависимость. Система обладает низкой ресурсоёмкостью и масштабируемостью, что обеспечивает высокую скорость работы и возможность построения кластеров.
Второй уровень защиты – это Система Распознавания Нежелательного Содержимого на поступающих изображениях. Данная система многоступенчата и содержит в себе несколько комплексов распознавания. Robust Face Detection системы находит лица, на произвольном наборе изображений, с вероятностью 0.96 и уровнем ложных целей 0.001. Данные показатели значительно превышают лучшие мировые аналоги и стабильно улучшаются, так как исследования и разработки по этому направлению не прекращаются.
На выходе система выдаёт ряд параметров, отражающие характеристики объектов и на основании которых принимается решение об уровне угрозы.
Структура системы распознавания нежелательного содержимого.
Третий уровень защиты – это Система Принятия Решений. Основная задача данной системы выявить уровень угрозы исходя из заложенных в неё при обучении критериев. Критерии могут быть указаны интуитивно, либо исходя из обработки данных статистическими методами. Так же система проводит анализ данных поступающих от первого фильтра для получения связей с известными системе ресурсами. После анализа полученных данных, система принимает решение о присвоении изображениям и их источнику некоторого уровня угрозы от 1 до 10.
К преимуществам нашей системы относится её принципиальное отличие от систем, построенных на блек-листах и анализе текстового контента. Система построена на искусственном интеллекте и обладает способностью запоминать изображения, относящиеся к не желательным и самообучаться на них. Анализ изображений с поискового ресурса Google показал, что генерация нового контента, по отношению к имеющемуся, невысока и составляет считанные проценты в месяц. Экстраполируя данный показатель логично предположить, что после обучения системы на известных изображениях, процент идентификации нежелательного контента на первом этапе работы системы превысит 90%.
Важным достоинством системы является то, что она автоматически составляет список подозрительных ресурсов, для самостоятельного использования, передачи его модераторам или занесения в блек-лист индексатора. Это значительно повышает качество их работы.
К недостаткам системы можно отнести её относительно высокую требовательность к вычислительным ресурсам. Следует отметить, что компания Smilart постоянно работает над оптимизацией производительности всех систем.
|