Швидкий погляд на світ AI: Новинки GTC, GDC та не тільки
Останні дні видалися шалено насиченими подіями в світі штучного інтелекту. Я тільки-но повернулася із Сан-Франциско, де після відвідування конференції Nvidia GTC в Сан-Хосе, завітала на GDC. Між конференціями встигла зустрітися з друзями та представниками компаній, які працюють у сфері AI. Новин було так багато, що я вирішила поділитися найцікавішим у форматі експрес-огляду. Більше того,
Nvidia: Погляд у майбутнє AI
GTC від Nvidia – це подія, яка завжди тримає в курсі останніх розробок. Звичайно, цього року подія була масштабною, адже зібрала десятки тисяч людей, охочих дізнатися про майбутнє технологій. Ключова доповідь Дженсена Хуанга окреслила плани Nvidia на найближчі чотири роки. Хоча фокус був більше на корпоративному секторі, декілька речей мене особливо зацікавили.
Nvidia активно впроваджує AI в бездротові мережі, оптимізуючи їх для кращого зв’язку. Це означає, бачите, що в майбутньому ми можемо очікувати стабільніший та швидший бездротовий інтернет.
Автомобільна індустрія також переживає трансформацію завдяки AI від Nvidia. Компанія співпрацює з General Motors для розробки нового покоління автомобілів, заводів і роботів. Volvo також використовує їхні технології, а Lenovo об’єдналася з Neuro для створення автономних транспортних засобів четвертого рівня, пріоритетом яких є безпека та надійність. Навіть вантажні перевезення стають більш інтелектуальними завдяки партнерству Uber. Freight та Torc, які розробляють масштабовану AI-систему для автономних вантажівок.
Важливим кроком стало відкриття Nvidia власного фізичного набору даних для розробки робототехніки та автономних транспортних засобів. Чесно кажучи, цей набір даних, який тепер доступний для всіх, сприятиме розвитку інновацій у цих сферах.
GTC від Nvidia – це своєрідна виставка найцікавіших AI-розробок, де можна на власні очі побачити, як штучний інтелект змінює світ навколо нас. До речі,
Google: Нові можливості для Gemini та NotebookLM
Google. Не відстає та продовжує дивувати новими розробками в сфері AI. Нещодавно вони представили функцію Canvas для Gemini, яка дозволяє відкривати робочі документи у новому вікні для зручного перегляду та редагування. Цікаво, що термін “Canvas” використовується як Google, так і ChatGPT. Схожа ситуація була з терміном “deep research”, яким спочатку користувався Google, а потім і ChatGPT.
Gemini отримав функцію подкастів, аналогічну тій, що є в NotebookLM. Ця функція дозволяє перетворювати дослідження на розмови в стилі подкасту, що може бути особливо корисним для тих, хто хоче швидко ознайомитися з великим обсягом інформації.
NotebookLM також отримав оновлення – інтерактивні карти розуму. Тепер, завантаживши відео на YouTube, користувачі можуть генерувати візуальні карти розуму, які полегшують розуміння та запам’ятовування інформації.
Google також планує випустити нову відкриту AI-модель для розробки ліків під назвою TX Gemma. Ця модель зможе розуміти як звичайні тексти, так і структури різних терапевтичних об’єктів, таких як хімічні речовини, молекули та білки. Це дозволить дослідникам прогнозувати важливі властивості нових ліків, зокрема їхню безпеку та ефективність.
Claude: Нарешті з веб-пошуком!
Claude, один з провідних чат-ботів, нарешті отримав довгоочікувану функцію веб-пошуку. Раніше веб-пошук був доступний в OpenAI, Gemini та Perplexity, але Claude відставав. Тепер користувачі Claude можуть ввімкнути веб-пошук і отримувати актуальну інформацію з інтернету. Хоча ця функція працює трохи повільніше, ніж у конкурентів, її поява є важливою подією для користувачів Claude. На жаль, наразі веб-пошук недоступний в API Claude для розробників.
OpenAI: Нові аудіо- та текстові моделі
OpenAI продовжує вдосконалювати свої моделі. Цього тижня вони представили дві нові аудіо-моделі – GPT 40 transcribe та GPT 40 mini transcribe – для перетворення мови в текст. Ці моделі перевершують whisper та Gemini 2. 0 flash, особливо наприклад, в англійській мові, і відрізняються швидшою транскрипцією, шумозаглушенням та виявленням активності голосу.
OpenAI випустила нову модель перетворення тексту в мову – GPT. Звичайно, 40 mini text-to-speech, яка здатна передавати емоції та енергію в мові. Ця модель може бути використана для створення голосових агентів та інших застосунків, де потрібно генерувати природний звук. Відверто кажучи,
Для розробників також є хороші новини: тепер можна використовувати 01 Pro в API OpenAI. Це означає, що 01 Pro можна розумієте, використовувати в інструментах для написання коду, таких як Cursor або Windsurf. Однак, варто враховувати, що вартість використання 01 Pro в API є досить високою: $150 за 1 мільйон вхідних токенів і $600 за 1 мільйон вихідних токенів.
Також в API OpenAI тепер можна завантажувати PDF-файли безпосередньо для отримання відповідей і чат-завершень. OpenAI тестує з’єднувачі ChatGPT для Google Drive та Slack, що дозволить використовувати ці сервіси як джерела інформації для відповідей ChatGPT. Безумовно,
Perplexity: Оновлення моделі Sonar
Perplexity оновила свою модель Sonar, яка є кастомною версією моделі Llama від Meta. Розробникам вдалося покращити продуктивність Sonar, одночасно зменшивши витрати.
Adobe: AI-агенти для оптимізації клієнтського досвіду
Adobe також не залишається осторонь і активно впроваджує AI в свої продукти. На конференції Adobe було анонсовано потужні можливості, які надають дієві та вичерпні дані за допомогою спеціальних AI-агентів. Ці агенти призначені для оптимізації клієнтського досвіду на різних каналах.
Наприклад, Adobe Journey Optimizer experimentation accelerator аналізує тенденції, висновки та найкращі практики з попередніх та активних експериментів, пропонуючи дієві ідеї та рекомендації щодо тестування на основі найвищого рейтингу ймовірності впливу. Зрозуміло, adobe Experience Manager sites Optimizer оптимізує веб-сайти за допомогою моніторингу трафіку в реальному часі. Насправді,
XAI: Відеогенерація на горизонті?
XAI, компанія Ілона Маска, придбала компанію з розробки AI-відео Hot Shot. Це може означати, що XAI планує активно розвивати напрямок AI-відеогенерації. Хоча Hot Shot не була однією з найбільш вражаючих моделей, з ресурсами XAI можна очікувати, що вона швидко наздожене конкурентів, таких як Voe та Sora.
P laabs: Магія редагування відео
P laabs розробляє цікаву функцію, яка. Дозволяє маніпулювати будь-яким персонажем або об’єктом у відео, зберігаючи решту відео без змін. Наприклад, можна змусити автомобіль літати або яблуко левітувати, не змінюючи решту відео.
Kaia AI: Навчіть AI вашому стилю
Kaia AI тепер дозволяє тренувати AI на власних відео, щоб генерувати відео в вашому унікальному стилі.
Topaz Labs Gigapixel: Найшвидша модель відновлення
Topaz Labs випустила Gigapixel версії 8. 3. 0, яка приблизно, є найшвидшою моделлю для відновлення зображень високої роздільної здатності.
3D: Стабільність та інновації
У світі 3D також відбуваються цікаві події. Stability AI представила stable virtual camera, яка дозволяє генерувати багатовидове відео з 3D-керуванням камерою. Це означає, що можна задавати траєкторію камери та отримувати відео, яке слідує цій траєкторії. Це відкриває нові можливості для створення креативних відеороликів.
Компанія Hanan оголосила про велике оновлення своєї відкритої моделі 3D-генерації. Фактично, нова модель забезпечує кращий контроль з багаторазовим переглядом і дозволяє генерувати більш деталізовані та якісні 3D-об’єкти.
Roblox представила Roblox Cube, свою систему генеративного AI. Для 3D і 4D, і також відкриває версію цієї системи. Це дозволяє користувачам вводити текстові запити та генерувати 3D-об’єкти для використання в іграх, створених на платформі Roblox.
Штучний інтелект в газеті
Італійська газета створила повністю згенеровану AI-версію газети. Журналісти лише ставили питання чат-боту та перевіряли відповіді перед публікацією.
Bigscreen Beyond 2: VR-окуляри з “Першому гравцю приготуватися”
У світі VR компанія Bigscreen випустила Bigscreen Beyond 2, які виглядають як компактні лижні окуляри. Вони забезпечують широке поле зору, чіткість від краю до краю, зменшення відблисків лінз і збільшену яскравість. Ці окуляри настільки малі, що поміщаються в невелику банку.
Підсумок
Цей тиждень був неймовірно насичений подіями в світі AI. Нові розробки та можливості з’являються з шаленою швидкістю, і за всім важко встежити. Чесно кажучи, хоча багато новин орієнтовані на корпоративний сектор і розробників, є також багато цікавих розробок для творчих людей.
Я планую детальніше розглянути всі ці новинки у своїх майбутніх відео, протестувати різні інструменти та поділитися з вами своїми враженнями. Не забудьте підписатися на мій канал, щоб не пропустити нові відео, і завітайте на futurtools. io, де я ділюся найцікавішою інформацією про AI. Дякую за увагу і до зустрічі в наступному відео!







