2024-02-05

Применение нейросетей для анализа текстового пространства

Метод был успешно использован во многих крупных компаниях, включая Airbnb, Alibaba (AliExpress) и Spotify.

Первая модель Word2vec

Развитие интернета и увеличение объема информации породило потребность в ее качественной обработке. Сегодня аналитики не могут вручную проанализировать весь контент, представленный в веб-пространстве. Поэтому использование искусственного интеллекта для анализа текстового пространства является одним из наиболее важных и фундаментальных направлений в обработке данных.

Начало этому положил подход Word2vec, в котором слова представляются в виде векторов, а слова с похожим значением имеют схожую ориентацию По данным Hubr, этот подход был реализован во многих крупных компаниях, таких как Airbnb, Alibaba (AliExpress), Spotify. По данным Hubr, этот подход был реализован во многих крупных компаниях, таких как Airbnb, Alibaba (AliExpress) и Spotify. Этот подход был реализован в рекомендательных системах многих крупных компаний, таких как Airbnb, Alibaba (AliExpress) и Spotify.

Решения Weborama, такие как BigFish, MoonFish и GoldenFish, также реализуют этот подход. Они находятся в том же контексте, что и ключевые слова, и помогают выбрать релевантные рекомендации, которые могут быть интересны целевой аудитории.

Чтобы правильно найти URL с релевантным контекстом, выполняется несколько итераций:

Токенизация - разделение текста на слова или фразы;
Лемматизация - приведение слов в лексическую форму (по сути, лемма - это слово в родительном падеже единственного числа для существительных и прилагательных и в неопределенном падеже для глаголов).

Давайте разберем это на примере решения на основе cookie. При вводе ключевых слов в интерфейс система выдает рекомендации на основе векторного представления. На скриншоте вы можете видеть индикатор оценки аудитории. Он показывает максимальное количество идентификаторов cookie, которые соприкасались со словами, рекомендованными системой, за последние 30 дней.

По сравнению с таргетингом на основе социально-демографических данных, таргетинг на основе поведенческих сегментов показывает лучшие результаты. Примером может служить интерес к покупке лотерейных билетов. Согласно социально-демографическим данным, целевая аудитория для такого продукта может включать всех пользователей веб-пространства. Однако с помощью поведенческого таргетинга аудитория значительно сужается.

Поведенческий таргетинг основан на том, что пользователь вступает в контакт с текстом, содержащим лемму, связанную с покупкой лотерейного билета. Леммы в данном случае включают такие запросы, как "лотерея", "лотереи" и "розыгрыш лотереи".

Однако недостатком этого решения является то, что, несмотря на анализ всего контекста и наличие ключевых слов, сегмент может содержать URL-адреса, не имеющие отношения к запросу. Это делает очистку URL, как автоматическую, так и ручную, трудоемкой.

Вторая модель Берта

Веборама обновила решение BigFish моделью Bert в 2021-2022 годах. Продукт BigFish для анализа текста изначально был основан на модели Word2Vec, анализирующей слова и их близость в контексте. Bert также также начинает с токенизации текста, подаваемого на вход. По мере того как модель обрабатывает текст, каждое слово кодируется в собственное векторное представление. Это представление содержит информацию о самом слове, номере предложения, в котором оно находится, и его позиции в предложении. Поскольку входные данные обрабатываются параллельно, нет необходимости исследовать слова по одному. Однако информация о взаимном расположении слов в исходном предложении хранится в векторном представлении каждого слова, включая его позицию в предложении. В этом обновлении продукта добавлена возможность анализа тональности предложения.

График отображается в трех цветах: красным цветом обозначаются негативные предложения, серым - нейтральные, зеленым - позитивные. На основе этого распределения теперь можно добавить NPS (Net Promoter Score, индекс лояльности клиентов).

Также можно сегментировать исследуемые тексты, используя общую таксономию Weborama. Так, наиболее популярные темы в исследуемых текстах касаются детей и правильного питания. Эти результаты были достигнуты путем применения двустороннего ослабления на каждом слое кодировщика Baltic. Это позволяет учитывать двусторонний контекст рассматриваемой лексики.

Третья модель Крупномасштабные языковые модели

Несмотря на значительные улучшения в анализе текста, проблема присутствия ключевых слов на нерелевантных страницах осталась. На скриншоте показан случай, когда нам нужно найти статью о художнике-любителе, но в этом случае система выдает нам страницы, содержащие информацию о наших читателях, а также о любителях искусства в целом.

По этой причине мы решили использовать ChatGPT. С помощью искусственного интеллекта мы создали несколько предложений для нашей целевой аудитории. Из них мы выбрали три наиболее подходящих для нашего исследования предложения и использовали их в качестве целевых.

"На основе этих целевых предложений мы определили наиболее похожие URL-адреса и определили их релевантность. В будущем мы планируем использовать LLM для сбора сегментов, запрашиваемых рекламодателями, и передавать эти URL сайтам для проведения "побочных" рекламных кампаний."

Что будет дальше?

Конечно, это еще не конец истории. Мы планируем разработать новый рекомендательный инструмент на основе описанной выше Большой языковой модели. Уже сейчас нейронная сеть не только позволяет более точно подбирать тональность, но и, благодаря постоянному обучению и совершенствованию технологии GPT, способна улавливать лингвистические нюансы и связи, которые были недоступны в предыдущих моделях Word2vec и Bart. Новая система также смогла уловить лингвистические нюансы и связи, которые были недоступны в предыдущих моделях Word2vec и Burt.

Конечно, нельзя не упомянуть об отмене cookies, которая кардинально повлияла на рекламный рынок в целом. И в этом случае использование решений на основе искусственного интеллекта будет играть ключевую роль в обеспечении рекламного рынка инструментами таргетинга. Контекстный таргетинг, основанный на анализе семантических данных, уже активно используется рекламодателями, и его эффективность во многом сопоставима с инструментами на основе cookie. И мы считаем, что наступление эры cookie даст толчок развитию инструментов на основе нейронных сетей.