Почему нейросети галлюцинируют? Как копируют голос и стиль? И как предсказывают следующий клик?

Разбираемся, как устроены генеративные модели и где они ломаются: шум в данных, ограничения архитектуры, ошибки обучения. И показываем, какими способами дата-сайентисты решают эти типичные проблемы.

Шесть пальцев

В стиле Ван Гога

Постеры фильмов

Нейросети врут?

Рекомендации в интернете

Клонирование голоса

Смотреть разборы

Шесть пальцев

В стиле Ван Гога

Постеры фильмов

Нейросети врут?

Рекомендации в интернете

Клонирование голоса

Почему нейросети рисуют шесть пальцев на руке?

Нейросеть рисует шестипалых айтишников и капибар с человеческими зубами, потому что «теряется» и пытается нарисовать все и сразу. Давайте разбираться.

Пустынников Алексей

Специалист по машинному обучению, DS Team Lead в ВТБ

Представьте, что вы пишете запрос в сервис генерации изображений: «Нарисуй человека с книгой». Модель выдает персонажа, у которого
на руках по шесть пальцев. Или же вы просите сгенерировать вам пушистую белку на дереве, сервис создает симпатичного зверька, но, приглядевшись, вы видите, что у него человеческие зубы.
Это характерные галлюцинации моделей — но почему они так делают?

Это действительно ошибка модели, но не в привычном смысле: не баг в коде и не просто недообученность. За этим стоит фундаментальная особенность работы диффузионных моделей.

Почему так происходит?

При обучении диффузионных моделей (например, Stable Diffusion
или Midjourney) мы последовательно добавляем шум к изображению,
а затем учим модель получать исходное изображение из зашумленного. В этом процессе нейросеть восстанавливает из множества картинок скрытую математическую закономерность (распределение), которая задает, как должны располагаться пиксели, чтобы получались осмысленные объекты. В этом распределении есть зоны высокой концентрации — так называемые моды.

Кстати, узнать больше о работе нейросетей можно на конференции Data Fusion

В программе более 70 сессий: от научных разработок до применения в бизнесе и государственном управлении.

Узнать о DATA FUSION

Главный механизм, вызывающий такие галлюцинации, называется mode interpolation — интерполяция между модами данных.

Представьте, что в обучающем наборе есть два похожих, но разных состояния одного объекта — например, открытая ладонь и кулак. В реальности человек не может одновременно показывать и то
и другое. Однако диффузионная модель склонна выучивать плавные переходы между такими состояниями. Она сглаживает резкие границы: архитектура модели и функция потерь «подталкивают» ее к этому.

В результате вместо выбора одного из вариантов модель иногда генерирует промежуточный. То есть она буквально пытается изобразить все сразу. Так появляются руки с шестью пальцами, деформированные зрачки или странные отражения.

Заглянем в процесс обучения

На каждом шаге модель предсказывает направление в пространстве признаков, в котором нужно двигаться, чтобы превратить шум в изображение. Это направление задается так называемой
score function.

По сути, это градиент плотности распределения реальных данных.
Если представить распределение реальных изображений как ландшафт с горами (модами) в тех местах, где данные встречаются часто, и равнинами там, где данных нет, то score function показывает, в какую сторону нужно идти, чтобы подняться к вершине горы.
Для реального распределения эта функция имеет резкие скачки на границах между горами — там, где одна мода заканчивается
и начинается другая.

Нейросеть не может идеально воспроизвести эти разрывы и сглаживает их, создавая «мостики» между модами. В этих промежуточных зонах score function не указывает четкого направления — это «зона неопределенности». Если в процессе генерации модель попадает в такую область, она может «зависнуть» между вариантами и выдать галлюцинацию.

Факторы, которые повышают риск галлюцинаций нейросети

Нехватка данных

Если в обучающем наборе какой-то вариант объекта встречается редко (например, рука в сложном ракурсе, переплетенные пальцы или рука, сжимающая стакан с водой), модель не может выучить его четко.
«Зона неопределенности» вокруг этого варианта расширяется.

Представьте, что вы учите ребенка рисовать. Если вы покажете ему 1000 рисунков открытой ладони и всего 10 рисунков кулака, он отлично запомнит ладонь, а кулак будет рисовать «приблизительно», дорисовывая детали по аналогии с ладонью.

Так же работает и нейросеть.

Случайность при генерации

Генерация изображения начинается с чистого листа — случайного набора пикселей (шума). На ранних шагах модель принимает самые важные, но при этом стохастические решения: она определяет,
что именно будет рисовать — портрет или пейзаж. На поздних она концентрируется на деталях.

Если на этом этапе случайность заносит модель в ту самую «зону неопределенности» (между ладонью и кулаком), то у нее нет четкого сигнала, куда двигаться. В результате финальная картинка так
и остается «гибридом», который статистически правдоподобен
для модели, но физически невозможен в реальности.

Частые галлюцинации нейросетей

Анатомические несоответствия

Моделям до сих пор непросто понимать, как устроено человеческое тело, особенно конечности и зубы. Поэтому появляются лишние пальцы, деформированные зрачки, неестественные изгибы тела,
зубы неправильной формы.

Ошибки в предметах

Колесо без спиц, бессмысленные надписи на одежде или вывесках, часы со стрелками с несуществующими цифрами.

Нарушение законов физики

Неправильные отражения, тени, идущие в разные стороны, объекты, висящие в воздухе без опоры.

Галлюцинации — не всегда плохо

Именно благодаря этой склонности к интерполяции нейросети могут создавать неожиданные художественные образы, смешивать стили и находить нестандартные решения.

Проблема возникает там, где нужна точность: персонализированный дизайн, реклама, медицинские изображения. В таких случаях важно понимать природу галлюцинаций и уметь с ними работать.

Уже шесть лет проводим конференцию Data Fusion по анализу данных и технологиям ИИ. В этом году готовим для вас ещё больше докладов, разборов и ответов на вопросы, которые обычно остаются за кадром.

Узнать о DATA FUSION

Почему нейросети умеют рисовать как Ван Гог?

Открываем сервис по генерации картинок и просим нейросеть нарисовать картину в стиле Ван Гога. Пусть это будет кактус. Посмотрим, что получится.

На картинке выше мы видим кактус, который явно нарисован в некотором художественном стиле, но точно ли в нем узнается Ван Гог? Сомнительно. Если же мы посмотрим на вторую картинку, то сходство становится более явным.

У картин Ван Гога есть особенность — вот эти характерные завихрения. Видите? Особенно ярко они раскрываются в его картине «Звездная ночь».

Пустынников Алексей

Специалист по машинному обучению, DS Team Lead в ВТБ

Нейросети могут отлично справляться с созданием картин в уникальном стиле любого художника — Ван Гога, Рембрандта, Айвазовского... Но как это достигается? На первый взгляд может показаться, что модель обучают под каждого художника. На самом деле генеративная модель обучена на огромном количестве изображений и умеет воспроизводить разные базовые визуальные стили.

Когда мы хотим получить стиль именно Ван Гога, у нас, дата-сайентистов, есть два варианта:

дообучить модель;
усилить нужные паттерны с помощью ряда техник.

Разберемся с внутренним устройством таких процессов. Сперва вспомним, что из себя представляют диффузионные модели.

Кстати, узнать больше о работе нейросетей можно на конференции Data Fusion

В программе более 70 сессий: от научных разработок до применения в бизнесе и государственном управлении.

Узнать о DATA FUSION

Диффузионные модели: как они работают

Идея использовать диффузионные стохастические процессы для генерации изображений появилась еще в 2015 году, но колоссальный прогресс произошел в 2021‑м с выходом статьи Denoising Diffusion Probabilistic Models (DDPM). Именно по принципам, описанным в этой работе, строятся большинство современных генеративных нейросетей для работы с картинками, включая Stable Diffusion.

Как это устроено?

Прямой процесс

Берется исходное изображение (например, фотография кота) и к нему многократно добавляется шум. На каждом шаге картинка становится все более «зашумленной», пока не превращается в чистый случайный шум.

Обратный процесс

Нейросеть обучают восстанавливать исходное изображение из белого шума. На практике шаг за шагом из случайных пикселей постепенно проступают контуры, детали и, наконец, четкое изображение кота.

Востребованное пользователями усовершенствование — управление процессом с помощью текстового описания (промпта). Модель обучается учитывать запрос пользователя: «кот сидит на столе»
или «кот в закате». Это достигается путем представления запроса в виде вектора (набора чисел), называющегося эмбеддингом,
и подмешивания этого вектора в слои нейросети на каждом шаге обратного процесса.

На картинке изображена архитектура модели Stable Diffusion. Отражено, что условия генерации, в том числе текстовые, подаются непосредственно в слои модели в обратном процессе.

Таким образом, модель умеет из случайного шума постепенно «проявлять» изображение, строго следуя заданному запросу. Описанный подход лег в основу как Stable Diffusion, так и множества других генеративных систем, использующихся сегодня.

Дообучение модели vs адаптеры

Итак, современные диффузионные модели содержат миллиарды параметров. Чтобы научить их наносить на картину характерные мазки Ван Гога, можно попробовать пойти классическим путем — полное дообучение (fine-tuning). Но у этого подхода есть недостатки:

Ресурсы — требуется мощный кластер GPU и сотни часов работы

Данные — нужны тысячи или десятки тысяч примеров, а они есть не всегда

Риск переобучения — модель может «забыть» старые навыки или начать генерировать однотипные изображения

Итого: дообучение — это дорого и долго. Часто вместо этого разработчики используют адаптеры — небольшие модули, которые дообучаются под конкретную задачу. Самый популярный среди них — LoRa (LowRank Adaptation).

Видно, что картинка при включении LoRA-адаптера начинает лучше повторять мотивы картин Ван Гога. Источник — локально развернутая модель SDXL.

У любой большой нейросети есть внутренние слои, которые преобразуют входные данные. Обычно эти слои описываются матрицами весов — огромными таблицами чисел, которые и определяют поведение модели. Полное дообучение меняет все числа в этих таблицах, что и требует много времени и памяти.

LoRA не меняет всю таблицу целиком, а подключает к ней небольшую «добавку» с помощью двух маленьких матриц А и B. Пусть исходная матрица весов слоя — это W. Тогда после применения адаптера обновленные веса h запишутся как:

h=W+ΔW=W+BA

Здесь B и A — узкие матрицы размерности d × r и r × k соответственно, причем размерность r много меньше d и k.
Их произведение дает изменение того же масштаба, что и исходная таблица W, но реализуется за счет использования гораздо меньшего количества чисел. В математике это называется низкоранговой аппроксимацией (отсюда и название Low‑Rank Adaptation).

В результате дообучаются не миллиарды параметров, а всего несколько десятков тысяч или миллионов (в зависимости от размера модели и сложности задачи). Адаптер в среднем весит от нескольких до сотен мегабайт — в тысячи раз меньше, чем полная модель.

Как это работает?

Когда вы просите нарисовать «в стиле Ван Гога»:

Загружается базовая модель.

2. Поверх нее активируется LoRa с информацией о конкретном стиле: мазки кисти, характерные цвета, текстуры.

3. Модель делает один проход и выдает результат.

Почему это быстро работает?

Базовая модель уже загружена в память.
LoRa-адаптер — это лишь небольшие корректировки весов, которые применяются «на лету».

Кстати, LoRa — не единственный адаптер. Есть и другие:

IP-Adapter — позволяет передавать стиль или содержание с эталонного изображения, а не только из текста.
ControlNet — добавляет жесткие условия (контуры, позы, глубину), ограничивая фантазию модели.

Узнать о DATA FUSION

Этот постер увидишь только ты

Представьте: перед вами несколько игровых автоматов (однорукий «бандит» = слот-машина). Каждый платит с разной вероятностью, которую вы не знаете заранее. Ваша цель — за конечное число попыток заработать максимум. Это и есть multi-armed bandit problem.

Сизов Василий

Lead DS, лидер кластера «CRM и клиентский опыт» в ВТБ

В задаче персонализации обложек «руки бандита» — это варианты обложки, а «вознаграждение» — клик пользователя по одной из них.

Главная дилемма:
исследование vs эксплуатация

Любой алгоритм «бандита» решает одно и то же противоречие:

Исследование (Exploration) — попробовать варианты, которые еще не проверены, чтобы узнать их реальную силу.

Эксплуатация (Exploitation) — использовать то, что уже доказало эффективность.

Слишком много исследования — теряете конверсию на нерабочих вариантах. Слишком мало — застреваете на локальном оптимуме и пропускаете что-то лучшее. Разные алгоритмы решают этот баланс по-разному.

Классический A/B тест — это вообще не «бандит»: он делит трафик поровну на весь период и только потом объявляет победителя. Все время эксперимента проигрышные варианты получают ровно столько же трафика, сколько лучший. «Бандит» адаптируется в реальном времени.

Основные алгоритмы

Epsilon-greedy

Самый наивный алгоритм. Задаем параметр ε (например, 0.1).
С вероятностью 10% — показываем случайный вариант (исследование). С вероятностью 90% — лучший из известных (эксплуатация).
Просто, понятно, работает.

Проблема: алгоритм не знает, насколько он уверен в своей оценке. Вариант, который показали пять раз и получили три клика, и вариант, показанный 5000 раз с тем же CTR — для epsilon-greedy одинаково «лучшие».

Кстати, узнать больше о работе нейросетей можно на конференции Data Fusion

В программе более 70 сессий: от научных разработок до применения в бизнесе и государственном управлении.

Узнать о DATA FUSION

UCB (Upper Confidence Bound)

Это семейство алгоритмов в машинном обучении и статистике, которые балансируют исследование новых вариантов и эксплуатацию известных действий. Идея такая: когда вы мало знаете о варианте — будьте оптимистичны. Алгоритм специально завышает оценку редко показываемых вариантов, как бы говоря: «Мы недостаточно проверили это — давай попробуем еще раз». Чем больше показов у варианта, тем ближе его оценка к реальному CTR (Click-Through Rate — отношение числа кликов к количеству показов ). Это называется встроенное убывание исследования: сначала пробуем все, потом фокусируемся на лучшем.

Thompson Sampling

Это байесовский подход. Вместо одного числа (оценка CTR) алгоритм хранит целое распределение: «CTR этого варианта, скорее всего, где-то между 3% и 7%, с пиком на 5%».

Каждый раз, когда нужно выбрать вариант, алгоритм как бы «разыгрывает лотерею» — берет случайную точку из каждого распределения и выбирает вариант с наибольшим результатом. После получения фидбека — обновляет распределение. Варианты с высокой неопределенностью имеют широкое распределение и чаще «выигрывают лотерею». Это естественная и математически обоснованная форма исследования, которая на практике часто превосходит UCB.

Контекстный «бандит» — ключевой шаг
к персонализации

Обычный «бандит» выбирает лучший вариант глобально. Контекстный «бандит» учитывает, кто именно сейчас смотрит.

Для каждого пользователя формируется вектор признаков: история просмотров, жанровые предпочтения, время суток, устройство. Алгоритм учится не просто определять «какая обложка лучше»,
а «какая обложка лучше для этого конкретного типа пользователя».

LinUCB

Самый популярный линейный контекстный «бандит», описан в знаменитой статье Yahoo! о персонализации новостей в 2010 году.
Он предполагает, что вероятность клика линейно зависит от признаков пользователя. Для каждого варианта обложки обучается своя линейная модель — регрессия с поправкой на неопределенность.

Нейросетевые «бандиты»

Для сложных нелинейных паттернов применяются нейросетевые «бандиты»: нейросеть строит компактное представление пользователя (эмбеддинг), поверх которого работает байесовская оценка неопределенности. Именно такой подход используется в современных рекомендательных системах.

Почему это работает лучше A/B в реальном времени

При A/B тестировании вы неделю показываете всем, например, четыре варианта поровну, потом выбираете победителя. За эту неделю три проигрышных варианта съели треть твоей конверсии.

«Бандит» уже через несколько сотен показов начинает смещать трафик к лучшим вариантам. Через несколько тысяч — слабые варианты почти не показываются. И алгоритм не останавливается: если предпочтения аудитории меняются (новый сезон, новость о режиссере), «бандит» замечает это и адаптируется.

Узнать о DATA FUSION

Почему нейросети врут?

Большие языковые модели не врут, они даже не понимают, что такое «правда».

Сегодня чат-ботами с генеративными моделями пользуются миллионы человек. И часто создается ощущение, что нейросеть — это почти универсальный эксперт. Все бы ничего, но только уровень галлюцинаций моделей некоторых версий может доходить до 51%. Чат-бот может выдавать ответы с некорректными цифрами, фактами
и даже неверными ссылками в качестве доказательств.

Ширшова Анна

Lead DS, лидер кластера «Моделирование для CRM и оптимизации» в ВТБ

Почему так происходит?

Языковые модели не думают как человек, у них нет базы данных фактов. Они лишь предсказывают наиболее вероятную последовательность слов, следующую после заданного контекста-запроса. И, конечно, далеко не всегда она совпадает с истиной

Отсутствие контроля за качеством данных для обучения моделей, их неактуальность и неполнота. Модели обучаются на огромных объемах текстовых данных без контроля со стороны человека, а в них могут быть и непроверенные факты, и ошибки, и даже фейковые новости. Также данные могут быть устаревшими, а в узкоспециализированных областях их объем может быть не статистически значимым для обучения модели.

Поскольку языковые модели обучают следовать инструкциям, у них отсутствует возможность выражать неопределенность и они обязаны дать ответ, даже если не уверены в его правильности.
Поэтому модели, сталкиваясь с вопросами, сильно выходящими за пределы их обучающего множества, начинают выдавать средний по вероятности ответ и фабриковать факты вместо честного признания о незнании.

Текстовые массивы для возможности обработки их моделями кодируются числовыми векторами, что также приводит к сжатию и частичной потере исходной информации. Кодировки бывают разной сложности и эффективности — от простых Bag of words до специальных, полученных нейросетями. Именно благодаря кодированию слов и текстов определенными способами в виде числовых векторов (эмбеддингами) становятся возможными быстрый семантический поиск информации и уже привычная работа чат-ботов. Модели для получения эмбеддингов реализуют идею, что словам, встречающимся совместно часто или в схожих контекстах, присваиваются схожие значения-вектора.

Есть два основных вида эмбеддингов: статические, когда каждому слову присваивается один вектор, не зависящий от контекста — например Word2Vec, Glove, и контекстуальные, когда эмбеддинг слова зависит от контекста, т. е. свой в каждом предложении — например BERT, GPT.

Кстати, узнать больше о работе нейросетей можно на конференции Data Fusion

В программе более 70 сессий: от научных разработок до применения в бизнесе и государственном управлении.

Узнать о DATA FUSION

Пример для понимания эмбеддингов

Закодированные слова с помощью Word2Vec (разработан в 2013 г.) можно преобразовывать с помощью векторных операций. Самый распространенный пример такой формулы — «король» – «мужчина» + «женщина» ≈ «королева».

Но, несмотря на известность формулы, не все знают, что она верна только благодаря тому, что реализация алгоритма исключает исходный вектор «король» из возможных результатов, а иначе верной формулой была бы «король» – «мужчина» + «женщина» ≈ «король», в то время как «королева» стоит уже на втором месте. И такие случаи нередки, далеко не во всех примерах эмбеддинги работают так хорошо, это нужно понимать во избежание завышенных ожиданий к работе методов. В более современных моделях, например BERT, учитывающих контекст, такие линейные зависимости и вовсе проявляются слабее.

Решения для снижения ошибок в языковых моделях со стороны разработчиков

Retrieval-Augmented Generation (RAG)

Генерация ответа с предварительным обращением к внешней базе знаний (например, внутренней документации или статьям), где система находит релевантные данные и уже на их основе формирует ответ. Это позволяет выдавать более точные ответы.

Схема работы RAG

Пользователь задает вопрос

Система строит эмбеддинг запроса

Ищет в векторной базе знаний релевантные документы —
это возможно благодаря эмбеддингам

Передает их в LLM, которая формирует итоговый ответ

При поиске эмбеддинг запроса сравнивается с эмбеддингами данных в базе знаний, что позволяет быстро находить релевантный по тематике участок и далее извлекать необходимые факты из него. Это и есть семантический поиск. Если раньше в поисковиках запрос сравнивался со страницами по совпадению слов, что часто приводило к ошибкам из-за разной лексики, то теперь нужная информация находится в векторных базах данных с огромным количеством сведений за считанные секунды.

Работа RAG по шагам

А. Подготовка: перевод в цифры (Indexing)

Нейросеть не может быстро пролистать 1000 PDF-файлов. Все ваши документы заранее разбиваются на мелкие кусочки (абзацы)
и превращаются в векторы (наборы чисел).

Эти числа — это «координаты смысла».

Пример. Запросы: «Как закрыть карту» и «Инструкция по блокировке пластика» будут иметь похожие координаты, потому что они про одно и то же.

Эти векторы хранятся в специальной векторной базе данных.

Б. Поиск: находим похожее (Retrieval)

Когда вы задаете вопрос (например: «Какой процент по ипотеке в банке?»), RAG-сервис:

Превращает ваш вопрос в такой же вектор (набор чисел).
Идет в базу данных и ищет там кусочки текста, чьи «координаты» максимально близки к вашему вопросу.
Вытаскивает, допустим, три самых подходящих абзаца из разных документов.

С. Дополнение: склеиваем промпт (Augmentation)

Теперь сервис берет ваш исходный вопрос и «приклеивает» к нему найденные куски текста. Получается скрытый промпт для нейросети:

«Вот справочная информация: [Абзац 1], [Абзац 2]. Основываясь ТОЛЬКО на этой информации, ответь на вопрос: Какой процент по ипотеке в банке?»

D. Генерация: «Пишем ответ» (Generation)

Нейросеть получает этот «бутерброд» из вопроса и знаний. Ей уже не нужно ничего выдумывать — она пересказывает найденные факты простым языком.

2. Обязательные ссылки на источники

Модель можно учить подкреплять каждое утверждение цитатой из доступных материалов, а неподтвержденные — отклонять.
Этим занимаются создатели моделей, но это сильно облегчает пользователям проверку фактов, анализ достоверности ответов ИИ.

3. Проверка ответов после генерации

Часто задействуют «судью» или «оценщика» — отдельную модель, которая оценивает степень опоры на факты. При низком балле ответ перегенерируют или отклоняют. Это также на стороне разработчиков чат-ботов с ИИ.

4. Настройка уровня уверенности и корректные отказы

Полностью убрать галлюцинации невозможно, но системы строят так, чтобы отказы были безопасными. Например, используют оценку уверенности ответов, пороги вероятности подтверждения, ответы вида «Данных недостаточно», перекрестные проверки с надежными базами знаний.

5. Использование проверенных и более качественных обучающих данных

И, конечно, внимание уделяется подбору источников для датасетов для обучения больших языковых моделей, в том числе из этических соображений.

Решения со стороны пользователей

Чтобы не попасться в ловушку галлюцинаций LLM и избежать разочарования от использования языковых моделей, в первую очередь требуется хотя бы верхнеуровневое понимание принципа их работы.
Далее можно использовать комплекс мер: от эффективного промпт-инжиниринга до подбора подходящей модели для решения вашего запроса.

1. Жесткие инструкции в системном промпте (System Prompt)

Пример запроса:

2. Использование разделителей (Delimiters)

Нейросети лучше понимают структуру, когда данные четко отделены от инструкций.

Используйте теги или символы:

3. Техника «Цепочка рассуждений» (Chain of Thoughts)

Просите модель подкреплять ответ цепочкой рассуждений, каким образом она к нему пришла, или сначала найти факты, и только потом писать ответ.

Пример:

4. Обучение на примерах (Few-Shot Prompting)

Покажите модели, как она должна себя вести, если информации нет.

5. Выбор правильной модели

Не все модели одинаково послушны. Во-первых, модели обучались на разных датасетах, одни лучше работают с проверкой и генерацией программного кода, другие с математическими статьями, третьи
с задачами суммаризации, у всех моделей разный уровень галлюцинаций в тех или иных областях. В открытых источниках можно найти информацию о топ-лидерах в той или иной области на текущий момент.

6. Снижение параметра «Творчество» (Temperature)

За фантазирование у моделей отвечает параметр Temperature. Чем он ниже, тем более сухим и фактическим будет ответ.

Подытожим: большие языковые модели могут давать неверные ответы из-за особенностей своей архитектуры. Поэтому полностью доверять им нельзя — информацию нужно проверять. Снизить количество галлюцинаций помогают как решения разработчиков, так и действия пользователя: грамотный промптинг, настройка параметров и выбор подходящей модели.

Узнать о DATA FUSION

Почему рекомендации в интернете пугающе точны?

Бывало ли у вас так: вы сказали другу, что хотите найти репетитора по английскому, и почти сразу же увидели контекстную рекламу курсов в социальной сети. Или так: вы только подумали о том, что было бы неплохо купить новые кроссовки на весну, — и тут же увидели баннер с новыми моделями. Быть может, у вас даже появилось ощущение, что вас подслушивают или каким-то образом научились читать ваши мысли.

Ширшова Анна

Lead DS, Лидер кластера «Моделирование для CRM и оптимизации» в ВТБ

Предиктивная аналитика (рекомендательные системы), анализ данных пользователей, системы триггеров, графы связей. Все это позволяет предсказать следующие действия и интересы пользователей

Технически же прослушивать миллионы людей 24/7, распознавать их речь и превращать это в рекламные триггеры — невероятно дорого, ресурсозатратно и юридически опасно для корпораций. И в этом совершенно нет необходимости, потому что, к счастью или к сожалению, действия пользователей гораздо более предсказуемы, чем может казаться, и для их прогноза есть более экономичные способы. А именно предиктивная аналитика (рекомендательные системы), системы триггеров и анализ данных, графы связей, психология.

Так, сочетание геолокации, истории поиска друзей и микрозадержки пальца на экране смартфона дают алгоритмам достаточно данных, чтобы имитировать «чтение мыслей».

Разберем подробнее некоторые методы предиктивной аналитики

Рекомендательные системы анализируют прошлые предпочтения пользователей и характеристики товаров, чтобы предсказать,
что может понравиться в будущем. Обычно они работают на основе методов машинного обучения.

В машинном обучении каждый пользователь описывается вектором его признаков-характеристик в многомерном пространстве.

Вспоминаем векторизацию и эмбеддинги: да-да, принципы все те же, близость пользователей определяется близостью их векторных представлений. Для этого можно использовать разные метрики, например косинусное расстояние.

Если говорить о системах, используемых в онлайн-приложениях и социальных сетях, часто анализируются:

Возраст, пол, геолокация.
Скорость скроллинга (на чем вы задержали внимание хотя бы на 1,5 секунды).
Ваш доход (исходя из модели телефона, ноутбука, посещаемых мест и типичных покупок).
Ваш жизненный цикл (недавно переехали, сменили работу, начали отношения).

Чем больше данных у алгоритмов о пользователе, товарах и их взаимодействии друг с другом, тем точнее системы.

Если 100 000 человек с таким же «вектором», как у вас, после посещения кофейни и покупки кроссовок через три дня начинают интересоваться курсами английского — система покажет вам рекламу английского еще до того, как вы об этом осознанно подумаете. То есть алгоритм предсказывает ваш следующий логический шаг на основе поведения «цифровых двойников».

Кстати, узнать больше о работе рекомендательных систем можно на конференции Data Fusion

В программе более 70 сессий: от научных разработок до применения в бизнесе и государственном управлении.

Узнать о DATA FUSION

Методы

Коллаборативная фильтрация

Описанный выше пример иллюстрирует работу метода коллаборативной фильтрации. Система ищет людей, похожих на вас, и предлагает вам то, что понравилось им.

Аналогия из реальной жизни: представьте, что вы пришли в огромную библиотеку. Вместо того чтобы предлагать вам случайным образом книги со всех полок, библиотекарь, зная человека, который за последние два года прочитал те же 20 книг, что и вы, и они ему понравились, смотрит, а что же он прочитал 21-м. Оказывается,
это детектив, который вы еще не видели. Библиотекарь приносит его вам со словами: «Раз ваши вкусы совпадали раньше, скорее всего, это тоже вам подойдет».

Контентная фильтрация

Вы любите пиццу «Маргарита» — в ней тонкое тесто, томаты и сыр моцарелла. Система запоминает эти характеристики пиццы. Когда вы в следующий раз зайдете в приложение для доставки, она может предложить вам и другие блюда, где есть томаты и моцарелла, например салат «Капрезе» или пасту с томатами.

То есть алгоритм изучает свойства того, что вы уже купили (жанр, цвет, бренд), и ищет максимально похожие по характеристикам товары и услуги.

Такие системы хороши в случае холодного старта, когда о пользователях мало информации. Например, вы послушали только один трек в музыкальном стриминговом сервисе. У этого сервиса больше никаких данных о вас. Но уже на основе жанра, сведений об исполнителе, содержании трека он может предлагать вам похожие композиции.

Также зачастую на практике товаров и услуг меньше, чем пользователей, поэтому такие системы требуют меньше вычислений и работают быстрее. Пример: товаров 50, а пользователей 10 000, понятно, что считать попарное расстояние между 50 элементами менее трудозатратно, чем между 10 000.

Матричная факторизация

Это класс алгоритмов коллаборативной фильтрации, где большую разреженную матрицу «пользователь — товар» раскладывают на несколько матриц меньшей размерности, содержащих скрытые факторы.

Поясним на примере. Представьте, что у каждого фильма есть «скрытые гены», а у вас — «вкусовые рецепторы». В фильме «Интерстеллар» 30% космоса, 50% драмы и 20% крутой музыки. А в вашем профиле видно, что что вы на 80% любите драму и на 20% музыку. Перемножив эти скрытые векторы, можно предсказать оценку пользователя любому фильму. В данном случае отличное совпадение по драме и по музыке.

Так система раскладывает ваши предпочтения и параметры товара
на мелкие составляющие и сопоставляет их.

Гибридные системы

Объединение нескольких подходов в один.

Вы выбираете отель.
Один друг говорит: «Там классный бассейн» (контентный метод), второй — «Все знакомые в восторге» (коллаборативный метод),
третий — «Сейчас скидка 50%». Гибридная система объединяет все эти сигналы, взвешивает и выдает наиболее точный результат. Так работают продвинутые сервисы вроде YouTube.

Многорукие «бандиты»

С одной стороны, мы хотим получить пользу от рекомендательной системы, применяя уже имеющиеся знания, — это exploitation.
Но если показывать пользователю только знакомые ему товары, объекты, услуги, ему это может быстро наскучить. Поэтому иногда хотелось бы рисковать подмешивать в рекомендации новый или нестандартный для пользователя контент, чтобы изучить скрытые интересы и удерживать внимание в будущем. Это exploration.

Задача о многоруком «бандите» — это задача поиска баланса и оптимального комбинирования exploration и exploitation.

Ассоциативные правила, совместные товары

Классический пример: в США выяснили, что мужчины, которые покупают подгузники по пятницам, часто покупают и пиво. Если вы купили товары А, Б и В, система с вероятностью 85% предположит,
что покупка Г — ваш следующий шаг.

Системы триггеров, бизнес-аналитика и правила

Некоторые решения могут и не использовать математические модели, а действовать как системы триггеров.

Например, вы набрали в поиске браузера запрос, допустим, «квартиры вторичка», а затем перешли на сайт компании (например, банка) и разрешили обработку cookies. Теперь компания может использовать информацию о просмотре предыдущей страницы для персонализированных предложений — ипотеки, потребительского кредита на ремонт.

Другой пример: вы находитесь недалеко от ресторана, в сети которого у вас есть скидочная карта. Ранее вы давали этой компании согласие на обработку персональных данных и запросы в сторонние организации. И тут вам приходит сообщение от ресторана: появилось обновленное меню и сегодня для вас действует скидка. Это возможно благодаря договорам с мобильными операторами на триггерные уведомления о нахождении клиентов в радиусе ресторанов.

Еще пример. Допустим, система видит, что:

вы смотрите погоду в другом регионе;
покупаете солнцезащитный крем;
чаще заходите в аккаунты с красивыми пейзажами.

Для нее это сигнал: пользователь планирует путешествия, готов посмотреть билеты и отели.

Графы связей

Вы провели вечер с другом, ваши телефоны «увидели» друг друга через Bluetooth, Wi-Fi или общую геолокацию. Ваш друг ищет
в интернете палатки для похода. Алгоритм связывает профили в граф и показывает рекламу палаток и вам. Итог: вы видите рекламу палаток и думаете: «Ого, я только что об этом подумал(а)!».

Психология

Например, феномен Баадера-Майнхоф (иллюзия частотности): вы только подумали о чем-то, и вдруг замечаете это повсюду. В день вы видите тысячи объявлений, но почти все они проходят мимо вашего сознания. Но как только вы стали думать о новых белых кроссовках, ваше внимание становится избирательным. Теперь когда в рекламе мелькают кроссовки, вы замечаете их, и создается ощущение «чтения мыслей», хотя эта же реклама была и вчера, просто вы не обращали на нее внимания.

Узнать о DATA FUSION

Клонирование голоса: звук как изображение

Чтобы клонировать голос человека, нейросети достаточно увидеть
15 секунд его речи. Именно увидеть, ведь для нее голос — это изображение. Модели не работают напрямую со звуковым файлом: для них это слишком «сырые» данные. Сначала аудио переводят в удобный формат — мел-спектрограмму.

Сизов Василий

Lead DS, лидер кластера «CRM и клиентский опыт» в ВТБ

Что такое мел-спектрограмма?

Представьте, что вы смотрите на звук как на изображение: по горизонтали — время, по вертикали — частоты (от низких басов к высоким), яркость пикселя — громкость на этой частоте в этот момент. Шкала частот сжата так, как их воспринимает человеческое ухо:
низкие частоты расписаны подробно, высокие — сжаты.

На практике: аудио нарезается на крошечные части по ~11 мс, а затем для каждой части считается, каких частот
в ней больше. Итого — таблица из 80 строк (градации частот) × N столбцов (моменты времени). В каждой ячейке обозначено, насколько громкая эта частота в этот момент.

Именно это «звуковое изображение» учатся предсказывать все современные голосовые модели. Это аналог токенов в тексте — промежуточное представление, удобное для нейросети.

Из чего состоит «система клонирования»

Полный пайплайн — три блока, которые работают последовательно:

Speaker Encoder

Принимает аудиофрагмент и возвращает вектор из 256–512 чисел — **speaker embedding**, «цифровой слепок» голоса. Внутри — рекуррентная сеть (LSTM), которая последовательно прослушивает фрагмент и накапливает характеристики тембра, темпа, интонаций.

Обучение происходит на задаче «угадай, один и тот же человек говорит или разные». Функция потерь (GE2E loss) устроена просто по смыслу: эмбеддинги одного диктора должны быть близко друг к другу в пространстве, эмбеддинги разных дикторов — далеко. После обучения на тысячах голосов энкодер обобщается на новых людей
без дообучения — это называется zero-shot клонирование.

2. TTS-синтезатор

Переводит текст в речь. Модель принимает текст и голосовой отпечаток, а затем генерирует мел-спектрограмму. Голосовой отпечаток «подмешивается» к каждому шагу генерации — так модель знает, каким голосом говорить.

Есть два подхода к генерации:

пошаговые модели (Tacotron 2) — генерируют звуковую картинку кадр за кадром, медленнее, но интонационно точнее;
параллельные модели (VITS, FastSpeech 2) — генерируют все сразу, быстрее.

YourTTS — end-to-end модель: принимает текст и отдает сразу готовый звук без промежуточных шагов. Она использует нормализующие потоки — это способ постепенно превращать случайный шум
в конкретную мел-спектрограмму через серию обратимых преобразований. Ключевое свойство «обратимых»: модель может идти в обе стороны — и кодировать, и декодировать. Это дает точный контроль над тембром и интонацией.

Кстати, узнать больше о работе нейросетей можно на конференции Data Fusion

В программе более 70 сессий: от научных разработок до применения в бизнесе и государственном управлении.

Узнать о DATA FUSION

3. Вокодер

Последний шаг: конвертирует мел-спектрограмму обратно
в аудиофайл. Современные нейросетевые вокодеры (HiFi-GAN) делают это быстрее реального времени даже на обычном CPU — не надо ждать, пока 5-секундный фрагмент «рендерится» 10 секунд.

Отдельный подход: VALL-E

VALL-E от Microsoft переосмыслил задачу — вместо «предсказать звуковую картинку» он предсказывает числовые коды звука, как токены в языковой модели.

Сначала аудио сжимается в короткую последовательность чисел-токенов (нейросетевой аудиокодек EnCodec от Meta) — каждые 10 мс звука в 8 чисел. А потом трансформер — тот же принцип, что GPT — предсказывает токены для нужного текста, ориентируясь на три секунды референса как на контекст. Никакого отдельного «голосового вектора» нет — голос закодирован прямо в токенах референса.

Это работает как few-shot prompting в LLM: «вот три секунды этого голоса — продолжай в том же стиле». Именно поэтому VALL-E хватает трех секунд там, где классическим методам нужно 15.

Почему вообще достаточно 15 секунд

Speaker Encoder не запоминает, что именно сказал человек — он усредняет характеристики голоса по всему фрагменту.
15 секунд содержат достаточно разных звуков и интонаций, чтобы получить стабильный числовой отпечаток.

Практический минимум по данным исследований:

Классические модели на голосовом векторе (YourTTS и др.): 10–15 сек — выше этого качество почти не растет.
VALL-E и аналоги на токенах: 3–5 сек — работает как контекст, как в чате с GPT.

Защита от клонирования

Детекторы синтетической речи устроены симметрично: та же архитектура энкодера, но обученная отличать живой голос от синтетического. Ищут характерные «швы» — артефакты на стыке звуков, нехарактерное для живого голоса распределение частот, отсутствие фонового шума дыхания. Гонка между генерацией и детекцией продолжается.

Узнать о DATA FUSION

Реклама: Банк ВТБ (ПАО), ИНН 7702070139, erid: 2W5zFJegHb7

2026