Браузерний Автопілот: Відкриваємо Альтернативу OpenAI Operator
Привіт, ґіки! Шукаєте спосіб автоматизувати свої онлайн завдання, але нова фіча від OpenAI, Operator, не зовсім вам підходить? Не хвилюйтеся, я, Кейсі Байт, тут, щоб поділитися з вами крутою альтернативою – Browser Use. Це open-source інструмент, який дозволяє LLM (великій мовній моделі) керувати вашим браузером та виконувати завдання за вашими інструкціями. Звучить захопливо, чи не так? Тож, поїхали розбиратися!
Що таке Browser Use і чому це круто?
Browser Use дає вам можливість задати конкретні інструкції, і він крок за кроком виконуватиме їх у вашому браузері. Уявіть: пошук інформації, заповнення форм, навігація по сайтах – все це може робити ваш особистий браузерний автопілот. І, на відміну від Operator, тут ви можете використовувати власні LLM, такі як OpenAI або DeepSeek.
Основні переваги Browser Use:
- Open-source: Безкоштовний та з відкритим кодом, що дає вам повний контроль.
- Гнучкість: Можливість використовувати різні LLM (OpenAI, DeepSeek, локальні моделі).
- Автоматизація: Виконує задані завдання в браузері за вашими інструкціями.
- Веб-інтерфейс: Зручний UI для налаштування та запуску завдань.
- Трасування: Збереження логів виконаних дій для аналізу та налагодження.
Встановлення Browser Use – Простіше не буває
Перш ніж зануритися в автоматизацію, потрібно встановити Browser Use. Не лякайтеся, це простіше, ніж здається.
1. Встановлення UV:
UV – це менеджер віртуального середовища, який нам знадобиться.
- Перейдіть на сайт UV та знайдіть інструкції для вашої операційної системи.
- Для Mac OS або Linux використовуйте відповідні команди з сайту.
- Для Windows відкрийте PowerShell та виконайте команду, вказану на сайті.
2. Налаштування Віртуального Середовища:
Відкрийте ваш улюблений IDE (наприклад, VS Code або Cursor).
- Перейдіть до каталогу вашого проекту.
- Скопіюйте команду для створення віртуального середовища з документації Browser Use.
- Активуйте віртуальне середовище:
.\.venv\Scripts\Activate
(для PowerShell).
3. Встановлення Залежностей:
- Встановіть всі необхідні залежності за допомогою команди
pip install -r requirements.txt
(замінітьrequirements.txt
на назву файлу з залежностями, якщо потрібно).
4. Встановлення Playwright:
Playwright – це інструмент для автоматизації браузера.
- Виконайте команду
playwright install
.
Не потрібно додавати жодні змінні середовища на цьому етапі.
5. Запуск Browser Use:
- Скопіюйте команду запуску з документації Browser Use та вставте її в термінал.
- Зачекайте, поки все встановиться і запуститься.
Підключаємо OpenAI API Ключ
Щоб використовувати OpenAI LLM, вам знадобиться API ключ.
1. Отримуємо API Ключ:
- Зайдіть на OpenAI dashboard.
- Створіть новий секретний ключ (не забудьте його видалити після використання!).
- Збережіть ключ у безпечному місці.
2. Додаємо Ключ в Browser Use:
- Відкрийте веб-інтерфейс Browser Use у вашому браузері.
- Вставте ваш OpenAI API ключ у відповідне поле.
Перші Тести: OpenAI GPT-3.5 Turbo
Давайте протестуємо Browser Use з GPT-3.5 Turbo.
- Переконайтеся, що вимкнено опцію “Use Vision”, оскільки ми не будемо використовувати зображення.
- Залиште увімкненим запис браузера, щоб потім порівняти швидкості різних LLM.
- Введіть промпт (запит) у відповідне поле (можете почати з стандартного, запропонованого в Browser Use).
- Натисніть “Run Agent”.
Browser Use відкриє вікно браузера і почне виконувати інструкції. В моєму випадку, браузер чомусь відкрився португальською мовою, але агент все одно шукав “OpenAI”.
Результати GPT-3.5 Turbo:
- Час виконання: 41 секунда.
- Знайшов URL: openai.com.
Простеньке завдання, але все працює!
DeepSeek: Local vs. API (На жаль, з API проблеми)
На жаль, deepseek.com зараз не працює, тому протестуємо локальну модель DeepSeek R1.
Увага! Локальні моделі DeepSeek – це не те саме, що їх API. Вони значно слабші, тому не очікуйте такої ж продуктивності.
1. Налаштування Локальної Моделі DeepSeek:
- Переконайтеся, що у вас встановлено Llama Cpp.
- У мене встановлено DeepSeek R1 14b. 32b може завантажуватися вічно, а 14b – досить повільна.
2. Запуск з Локальною Моделлю DeepSeek:
- Оберіть DeepSeek R1 у випадаючому списку моделей.
- Залиште увімкненим запис браузера.
- Натисніть “Run Agent”.
Результати DeepSeek R1 (14b):
- Виконав завдання (принаймні, так здається).
- Відповів з точним URL.
- Згенерував короткий опис.
- Отримали повний лог виконаних дій (модель, дія, вивід).
Важливо: Навіть з хорошою відеокартою, використання локальних моделей може бути дуже повільним.
Llama 2 7b: Не вдалося
Спроба використання Llama 2 7b виявилася невдалою. Модель просто повторювала одне й те саме повідомлення і не виконувала жодних дій в браузері. Мабуть, занадто маленька модель не може зрозуміти інструкції.
OpenAI GPT-4: Швидко та Ефективно
GPT-4 показав себе найкраще!
- Дуже швидко зрозумів, що від нього вимагається.
- Швидко переклав текст (мій браузер все ще був португальською).
- Час виконання: Приблизно такий самий, як у GPT-3.5 Turbo.
Висновок: GPT-4 – найшвидша та найефективніша модель для Browser Use.
Залізо: Моя Конфігурація
Щоб ви мали уявлення про продуктивність, моя система:
- GPU: Nvidia GeForce RTX 4060.
Якщо у вас краща відеокарта, локальна DeepSeek має працювати краще.
Підсумки та Висновки
Browser Use – це крутий інструмент, який може значно спростити вашу роботу в браузері. Він дає вам можливість автоматизувати рутинні завдання та використовувати різні LLM для керування процесом.
Загальні висновки:
- GPT-4 – найкращий вибір для швидкості та ефективності.
- GPT-3.5 Turbo – хороший варіант, якщо вам не потрібна максимальна продуктивність.
- Локальні моделі DeepSeek можуть бути повільними, але вони працюють.
- Маленькі моделі, такі як Llama 2 7b, можуть не впоратися із завданням.
Що далі?
- Спробуйте використовувати Browser Use з API DeepSeek (якщо він запрацює).
- Експериментуйте з різними промптами та завданнями.
- Діліться своїм досвідом в коментарях!
Сподіваюся, ця стаття була корисною для вас. До зустрічі в наступному відео!