Різдвяний спокій чи черговий технологічний вибух? ШІ дивує і на Різдво!

    Привіт, друзі!

    За вікном тихий сніг, пахне мандаринами та хвоєю, здається, світ завмирає в очікуванні свят. Та навіть у світі штучного інтелекту, де новини сипляться, мов сніг, бувають паузи. Я вже готувалася до спокійного тижня, плануючи переглянути різдвяні фільми та, можливо, спекти імбирне печиво – що для мене вже подвиг! Але, як виявилося, “спокійний тиждень” у світі ШІ – як “тихий вечір” у дитячому садку перед Новим роком: гамірно та насичено!

    Цього тижня OpenAI знову підкинула дров у вогонь новин. І це не просто одна новинка, а цілий каскад подій. Я, як завжди, занурилася в глибини цифрового світу, щоб поділитися найцікавішим. Тож приготуйте улюблені напої, зручно влаштовуйтесь – буде про що поговорити!

    GPT-5.2: розумніша версія?

    Почнемо з головного – OpenAI випустила нову мовну модель, GPT-5.2. Ми знали, що вона на підході, але вийшла вона аж у четвер. І знаєте, я вже помічала, що старий добрий GPT-5.1 трохи “підтуплював”. Помилки, нелогічні відповіді… здавалося, він втратив частину блиску. Ця новинка саме вчасно.

    На жаль, я ще не встигла повноцінно протестувати GPT-5.2, адже зараз на заході Rivian, присвяченому ШІ та автономності. Але вже готова поділитися деякими деталями.

    GPT-5.2, схоже, сфокусувався на математиці та науці, демонструючи рекорди в тестах. Це дає надію, що проблеми з “галюцинаціями”, тобто вигадуванням інформації, вирішать. На сайті OpenAI порівняння виглядають обнадійливо: GPT-5.2 краще справляється з науковими питаннями та математикою. Але як він конкурує з іншими моделями? Відкрите питання.

    Щодо технічних деталей: новий GPT-5.2 має вікно контексту 400 000 токенів, максимальний вивід – 128 000 токенів. Це приблизно 300 000 слів вхідних і 128 000 вихідних. Рахуйте самі: 75% від 128 000 токенів – максимум слів на виході.

    Ціни на API: $1.75 за мільйон токенів на вході та $14 за мільйон на виході.

    У сфері програмування GPT-5.2 показав 55.6% на тесті Swebench Pro (GPT-5.1 – 50.8%, Claude Opus 4.5 – 52%, Gemini 3 Pro – 43.3%). Отже, кодування – значний крок уперед. У науці він, здається, взагалі випереджає конкурентів.

    Це еволюційний, а не революційний крок. Але я обов’язково проведу більше тестів.

    OpenAI та Disney: несподіваний альянс

    Тримайтеся міцніше: OpenAI уклала партнерство з Disney. Союз гігантів, що інвестують мільярд доларів у OpenAI. Звучить фантастично!

    Що це означає? OpenAI отримає доступ до інтелектуальної власності Disney. Уявіть: ви зможете генерувати зображення диснеївських героїв у Sora або на інших платформах OpenAI. Disney працює над функцією створення відео на Disney+ з улюбленими героями. Ця угода має об’єднати можливості. Можливо, скоро на Disney+ з’явиться короткометражка про Моану, створена за допомогою Sora. Казка стає реальністю!

    Витік з OpenAI: новий “Малевич” від ШІ?

    І це ще не все! З OpenAI просочилася інформація про потенційний інструмент для генерації зображень. У спільнотах ШІ циркулюють результати роботи, ймовірно, від наступної моделі OpenAI.

    Що цікавого виявили:

    • Знання про світ: Модель вміє “досліджувати” тему перед створенням зображення.
    • Селфі з зірками: Модель генерує селфі знаменитостей з дивовижною якістю, майже як у Nano Banana Pro. Ще рік тому такі моделі не могли генерувати зображення людей.
    • Код на картинках: Модель вміє “писати” код на зображеннях. Запит на картинку з JSON-кодом або скріншотом інтерфейсу – і вона це зробить!

    Моделі мають кодові назви “Chestnut” та “Hazelnut”. Наприклад: на дошці написано “Advancing AI for humanity”, але, наче маркером. Або зображення з JSON-кодом та контролером PlayStation. Звісно, контролери були в тренувальних даних, але додавання тексту – прогрес.

    Найцікавіше – зображення людей. Хоч вони й реалістичні, але я, як людина, яка бачила багато таких зображень, можу помітити нюанси. Але, якби мені показали таке фото без контексту, можливо, повірила б.

    Порівняйте це нове зображення зі старим – різниця колосальна! Нова модель значно краща, але є над чим працювати.

    Агенти ШІ об’єднуються: фундація спільного майбутнього

    OpenAI вже здивувала. Але ні! Разом з Anthropic та Block анонсовано Agentic AI Foundation. Це велика справа! До ініціативи долучилися тех-гіганти: Google, Microsoft, Amazon, Bloomberg, Cloudflare.

    Навіщо? ШІ-агенти стають дедалі поширенішими. Але кожна компанія створює їх по-своєму. Через це агенти не можуть ефективно взаємодіяти, переходити з одного додатка в інший та поводяться непередбачувано.

    Нова фундація створить нейтральну платформу для узгодження стандартів. Це допоможе уникнути роздроблення технологічного світу та зробить ШІ-агентів безпечнішими, надійнішими та простішими у використанні.

    Чому це важливо? Уявіть, ваші ШІ-агенти бронюють зустрічі, керують поштою, вирішують проблеми, підтримують клієнтів – і все це злагоджено, незалежно від компанії-розробника. Як універсальна розетка для всіх пристроїв – просто та зручно!

    Runway Gen 4.5: відео, в яке хочеться вірити

    Перенесемося у світ відеогенерації. Runway почала надавати доступ до нової відеомоделі – Gen 4.5. Хоча я не можу додати відео зі звуком (ця модель його не генерує), візуально вона вражає.

    Що обіцяє Gen 4.5?

    • Реалістичний рух: Об’єкти рухаються з вагою та інерцією, рідини поводяться природно.
    • Стабільність облич: Обличчя персонажів залишаються однаковими протягом відео.
    • Емоції: Персонажі демонструють переконливі емоції.
    • Лідери трендів: Модель очолює світові рейтинги text-to-video.

    Я протестувала кілька сценаріїв:

    1. Сфера, що котиться сходами: Сцена з кришталевою сферою, що котиться мармуровими сходами, підстрибує, зверху вода. Результат? Сфера котилася, вода лилася, виглядало правдоподібно. Рідинна динаміка могла б бути кращою, але загалом вражає!

    2. Жінка з парасолькою під дощем: Емоції та атмосфера. Жінка під парасолькою в дощовому місті, посміхається, махає, мерехтять неонові вивіски. Модель впоралася! Дрібні тремтіння камери присутні.

    3. Аніме-світ: Перевірка з нереалістичним стилем. Запит про молодого дослідника, який біжить ринком із літаючими островами, ліхтарями та анімованими істотами. Результат… мультяшно, але фон хаотичний. Не найкраще.

    4. Латте у кав’ярні: Деталі та зріз життя. Бариста готує латте, відвідувачі. Результат? Дуже добре! Молоко згортається в еспресо, пар піднімається природно, люди на фоні розмиті. Бариста навіть посміхнулася. Чудово!

    5. Погоня в кіберпанк-провулку: Кінематографічна дія та фізика. Дрон переслідує мотоцикл у вузькому неоновому провулку. Іскри, дощ. Результат… є нюанси. Дрон то попереду, то позаду мотоцикла, іскри з невідомого місця, мотоцикл не торкається перил. Але атмосфера створена!

    Runway Gen 4.5 демонструє величезний потенціал, особливо у здатності точно виконувати завдання з промпту, хоча реалістичність поступається іншим моделям (наприклад, VO3.1).

    Open-source: нові зірки на небосхилі ШІ

    Цього місяця з’явилося багато нових великих мовних моделей з відкритим кодом. Короткий огляд:

    • Mistral Devstrol 2: Французька лабораторія Mistral випустила Devstrol 2 та Mistral Vibe CLI. Вони активно розвивають інструменти для програмування. Devstrol 2 за своїми показниками майже нарівні з кращими відкритими моделями, як-от Deepseek, і навіть кращий за деякі пропрієтарні. Якщо любите кодити локально – чудовий варіант.

    • Zhipu GLM 4.6V: Китайські лабораторії теж не сплять! Z AI представили GLM 4.6V – модель з відкритим кодом, яка вміє використовувати інструменти та має бачення. Дві версії: 106 мільярдів та 9 мільярдів параметрів. Меншу версію можна буде запускати локально.

    • Qwen 3 Omni Flash: Китайська компанія Quinn оновила свою модель – Omni Flash. Тепер вона краще розуміє відео та аудіо в багатозадачному режимі, дозволяє персоналізувати ШІ за допомогою системних запитів, а її голоси майже не відрізнити від людських.

    Швидкі новини: що ще трапилося?

    • OpenAI прибирає “рекламні” підказки: Ті “рекламні” повідомлення в ChatGPT виявилися тестуванням нових функцій шопінгу. OpenAI визнала, що виглядало не зовсім добре, і тимчасово вимкнула цю функцію. Потрібен час, щоб покращити.

    • ChatGPT + Adobe: Можна використовувати додатки Adobe для редагування фото та PDF прямо в ChatGPT! Функціонал обмежений, але можливість підключення вже є!

    • Meta купує Limitless Pendant: Meta придбала компанію, що створює пристрої, які записують усі розмови. Викликає неоднозначні почуття, адже компанія, яка вже мала проблеми з даними, тепер матиме ще більше нашої особистої інформації.

    • Alibaba Quinn Image I2L: Ця модель від Alibaba дозволяє створювати LoRA (плагіни для моделей генерації зображень) з одного зображення. Це допоможе легше відтворювати певний стиль, обличчя, чи навіть вашого улюбленця.

    Rivian AI and Autonomy Day: Майбутнє на колесах

    Я на Rivian AI and Autonomy Day, і тут теж багато цікавого!

    • Власні чіпи Rivian: Компанія починає розробляти власні чіпи для своїх автомобілів. Крок до зменшення залежності від Nvidia. ШІ працюватиме безпосередньо на автомобілі.

    • Чотири хвилі автономності:

      1. Універсальна hands-free: Можна відпустити кермо, але треба бути готовим втрутитися. Працює, але з нюансами.
      2. Point-to-point autonomous driving: Автомобіль сам їде до вказаної точки, але треба бути уважним.
      3. Eyes-off autonomous driving: Можна відвернутися від дороги, ймовірно, буде доступно не раніше кінця наступного року.
      4. Personal L4 (Level 4): Повна автономність, авто може їздити без водія. Наприклад, ви можете викликати його з аеропорту, і воно саме приїде вас забрати. Реально десь у 2027-2028 роках.
    • Rivian Assistant: Як Alexa чи Siri, але для автомобіля. Голосове керування функціями авто. Чудова новина, адже великий сенсорний екран Rivian іноді може дратувати.

    Соціальний експеримент від McDonald’s: коли ШІ викликає гнів

    На завершення – скандал навколо реклами McDonald’s. У ній люди розповідають, як ненавидять Різдво, а потім з ними трапляються нещастя. Реклама, згенерована ШІ.

    Моя думка? Ми вже втомилися від “швидкозбитого” контенту в соціальних мережах, тож, коли великі бренди, як McDonald’s чи Coca-Cola, починають штампувати дешевий ШІ-контент, це викликає роздратування. У них є можливості найняти найкращих. Навіщо використовувати такий лінивий підхід?

    ШІ – чудовий інструмент, але його потрібно використовувати розумно. Має доповнювати, а не замінювати людську працю. Наприклад, 80% реклами можна створювати з реальними людьми, а 10-20% з ШІ (через складність або вартість). Коли мегакорпорації видають “халтуру” за інновацію – це обурює.


    Ось так, друзі, тиждень, який мав бути спокійним, виявився лавиною новин зі світу ШІ. І це чудово! Майбутнє, яке ми обговорювали, вже настає.

    Що далі?

    • Експериментуйте: Пробуйте нові інструменти, які ми обговорили. Навіть якщо результат неідеальний, процес пізнання – вже успіх.
    • Будьте уважні: Звертайте увагу на джерела інформації. Важливо вміти відрізняти справжнє від фальшивого.
    • Спілкуйтеся: Діліться враженнями та досвідом у коментарях. Наша спільнота – сила!

    Пам’ятайте, я завжди на зв’язку, щоб ви не пропустили найважливіше. Ставте лайки, підписуйтесь, і ми побачимося наступного тижня!

    До зустрічі, друзі! І нехай ваші технологічні відкриття цього тижня будуть тільки приємними!

    Поділитися.
    0 0 голоси
    Рейтинг статті
    Підписатися
    Сповістити про
    guest
    0 Коментарі
    Найстаріші
    Найновіше Найбільше голосів
    Зворотній зв'язок в режимі реального часу
    Переглянути всі коментарі
    0
    Буду рада вашим думкам, прокоментуйте.x