Нещодавно, 13 травня, компанія OpenAI презентувала нову версію технології, яка лежить в основі ChatGPT. У своєму пресрелізі компанія повідомила, що нова версія може приймати як вхідні дані будь-які комбінації тексту, аудіо, зображень та відео, а також генерувати текст, аудіо та зображення. Розробники зазначають, що GPT-4o краще обробляє зображення і звук порівняно з попередніми версіями.
Про це пише internetua.
Модель навчена наскрізного сприйняття тексту, зображень та звуку, що означає, що всі вхідні та вихідні дані обробляє одна нейронна мережа, забезпечуючи взаємодію з людиною в режимі реального часу без затримок.
Нова версія також здатна вести розмову та навіть фліртувати. GPT-4o може зчитувати зображення, обговорювати їх, перекладати з однієї мови на іншу та розпізнавати емоції за виразом обличчя. На відміну від попередніх версій, цей робот може запам'ятовувати попередні розмови, його можна переривати на півслові, і він має більш природний розмовний ритм, практично без затримок між запитанням і відповіддю.
Під час демонстрації голосової версії GPT-4o робот не тільки розв’язав просте рівняння, написане на аркуші паперу, але й дав корисні рекомендації щодо його розв’язання. Він аналізував комп’ютерний код, перекладаючи з італійської на англійську, та інтерпретував емоції на фото усміхненої людини.
Головна технічна директорка OpenAI Міра Мураті вважає, що нова модель є значним кроком уперед у галузі штучного інтелекту. Компанія планує впроваджувати нові функції поступово.