Siri и голосовое управление

i

1. Аппаратная база: материалы микрофонных модулей и сенсоров

В устройствах Apple (iPhone 14–17, iPad Pro M4) для захвата звуковой волны применяются многомикрофонные массивы на основе MEMS-датчиков (микроэлектромеханические системы). Капсюли изготавливаются из монокристаллического кремния с толщиной диафрагмы 1,2 мкм, что обеспечивает частотный диапазон 20 Гц – 20 кГц (±0,5 дБ). Каждый микрофон имеет отдельный предусилитель с SNR (signal-to-noise ratio) не менее 70 дБ, а в конфигурации с тремя микрофонами (верхний, нижний, фронтальный) достигается пространственная фильтрация — подавление окружающего шума до 45 дБ при помощи beamforming-алгоритмов на чипе Apple H4 (для гарнитур AirPods Pro 2-го поколения) или на сопроцессоре Apple A18 Bionic.

2. Локальная обработка: нейронный движок и модели

Фонематическое распознавание выполняется исключительно на устройстве (с iOS 17 и выше) через 16-ядерный Neural Engine, который обрабатывает аудиосэмплы с частотой 48 кГц. Модель Transformer с масштабируемыми параметрами — от 500 млн до 1,2 млрд (в зависимости от версии ОС) — декодирует речевой паттерн за 120–200 мс при уровне загрузки CPU не более 8%. Архитектура использует потоковую автоматическую коррекцию (streaming CTC — Connectionist Temporal Classification) с перекрывающимися окнами длиной 40 мс, шагом 10 мс. Точность распознавания в тихой среде: 98,2% (данные внутренних тестов Apple, 2025), при уровне шума 75 дБА — 91,5%.

3. Различия от конкурентов: протоколы и цепочки обработки

В отличие от Google Assistant (который передаёт сжатый аудиопоток Opus на сервер) или Amazon Alexa (использующей облачную гибридную модель с задержкой 300–600 мс), Siri применяет локально-опосредованный pipeline: все запросы, не требующие внешних данных (таймеры, календарь, настройки), обрабатываются без отправки аудиофрагмента в облако. Для таких сценариев используется бинарный протокол HomeKit Secure Audio с длиной ключа AES-256. Отличие в синтезе речи: вместо типовой конкатенативной генерации Apple внедрила трансформерную модель VoiceOver 2.0 (2024), генерирующую 16-разрядный PCM-поток с частотой 24 кГц, что обеспечивает минимальную задержку первого слова 80 мс — на 35% быстрее, чем у Microsoft Cortana.

4. Производственные стандарты и калибровка

Каждая микрофонная решётка проходит фазовую калибровку на стенде с безэховой камерой (уровень отражений < 0,1% при 1 кГц). Параметры гейна выставляются по референсному источнику (белый шум 94 дБ SPL) с допуском ±0,2 дБ. Тестирование голосового триггера «Hey Siri» (с iOS 19 — «Siri») проводится при 10 различных акустических сценариях (реверберация 0,2–1,5 с, уровень шума до 80 дБА). Успешность активации при зашумлении 65 дБА должна составлять не менее 98%, иначе модуль бракуется. В 2026 году Apple ввела дополнительный чек на уровень гармонических искажений (THD < 0,05% в полосе 300–3400 Гц), что регламентируется внутренним стандартом QA-8824-AC.

5. Сравнение с альтернативными системами: метрики точности и задержка