Модель від OpenAI що поєднує голос, відео й миттєві відповіді.

Інтерактивна цифрова панель із великим екраном, на якому відображено документ Gmail, оточений мережею взаємопов’язаних вікон із текстами та даними. Ілюстрація показує інтеграцію ШІ Gemini для розумної обробки контенту та підвищення продуктивності.

Компанія OpenAI презентувала GPT-4o (“о” — від “омні”), свою найновішу багатомодальну модель, яка працює з текстом, голосом, зображенням і відео в режимі реального часу. Це — новий стандарт взаємодії людини з ШІ.

За офіційним блогом OpenAI, GPT-4o здатна сприймати голос із затримкою лише 232 мс — це порівнювано з людською мовою. Модель вміє емоційно відповідати, розуміти інтонацію, перемикатися між мовами й тоном.

На відміну від попередніх моделей, GPT-4o — нативно мультимодальна. Вона була навчена працювати з усіма типами даних одночасно, без окремих модулів. Уявіть собі голосового помічника, що не лише чує, а й “бачить”, “відчуває” інтонацію, розпізнає міміку — і все це в режимі live.

Як повідомляє The Verge, GPT-4o розмовляє багатьма мовами, миттєво описує зображення, виражає емоції. CNN додає, що модель вже доступна в ChatGPT — у безкоштовному режимі з базовими функціями, а підписники отримають розширений доступ і API.

У час зростання конкуренції з боку Google Gemini та Meta LLaMA 3, ця модель може стати найбільш “людяною” версією ШІ. Вона обіцяє кращу доступність, природну розмову, нові можливості в освіті, підтримці клієнтів та медіа.

GPT-4o — це не просто оновлення. Це зміна парадигми спілкування з ШІ.