Браузерний Автопілот: Відкриваємо Альтернативу OpenAI Operator

    Привіт, ґіки! Шукаєте спосіб автоматизувати свої онлайн завдання, але нова фіча від OpenAI, Operator, не зовсім вам підходить? Не хвилюйтеся, я, Кейсі Байт, тут, щоб поділитися з вами крутою альтернативою – Browser Use. Це open-source інструмент, який дозволяє LLM (великій мовній моделі) керувати вашим браузером та виконувати завдання за вашими інструкціями. Звучить захопливо, чи не так? Тож, поїхали розбиратися!

    Що таке Browser Use і чому це круто?

    Browser Use дає вам можливість задати конкретні інструкції. І він крок за кроком виконуватиме їх у вашому браузері. Уявіть: пошук інформації, заповнення форм, навігація по сайтах. – уявіть собі, все це може робити ваш особистий браузерний автопілот. І, на відміну від Operator, тут ви можете. Відверто кажучи, використовувати власні LLM, такі як OpenAI або DeepSeek.

    Основні переваги Browser Use:

    • Open-source: Безкоштовний та з відкритим кодом, що дає вам повний контроль.
    • Гнучкість: Можливість використовувати різні LLM (OpenAI, DeepSeek, локальні моделі). Дивно,
    • Автоматизація: Виконує задані завдання в браузері за вашими інструкціями.
    • Веб-інтерфейс: Зручний UI для налаштування та запуску завдань.
    • Трасування: Збереження логів виконаних дій для аналізу та налагодження.

    Встановлення Browser Use – Простіше не. Буває

    Перш ніж зануритися в автоматизацію, потрібно встановити Browser Use. Не лякайтеся, це простіше, ніж здається.

    1. Встановлення UV:

    UV – це менеджер віртуального середовища, який нам знадобиться.

    • Перейдіть на сайт UV та знайдіть інструкції для вашої операційної системи.
    • Для Mac OS або Linux використовуйте відповідні команди з сайту.
    • Для Windows відкрийте PowerShell та виконайте команду, вказану на сайті.

    2. Налаштування Віртуального Середовища:

    Відкрийте ваш улюблений IDE (наприклад, VS Code або Cursor).

    • Перейдіть до каталогу вашого проекту.
    • Скопіюйте команду для створення віртуального середовища з документації Browser Use.
    • Активуйте віртуальне середовище: . \. Фактично, venv\Scripts\Activate (для PowerShell).

    3. Встановлення Залежностей:

    • Встановіть всі необхідні залежності за допомогою команди pip install -r requirements. txt (замініть requirements. Щоб було ясно, txt на назву файлу з залежностями, якщо потрібно).

    4. Встановлення Playwright:

    Playwright – це інструмент для автоматизації браузера. Більше того,

    • Виконайте команду playwright install.

    Не потрібно додавати жодні змінні середовища на цьому етапі.

    5. Запуск Browser Use:

    • Скопіюйте команду приблизно, запуску з документації Browser Use та вставте її в термінал, десь так.
    • Зачекайте, поки все встановиться і запуститься.

    Підключаємо OpenAI API Ключ

    Щоб використовувати OpenAI LLM, вам знадобиться API ключ.

    1. Отримуємо API Ключ:

    • Зайдіть на OpenAI dashboard.
    • Створіть новий секретний ключ (не забудьте його видалити після використання! ) та
    • Збережіть ключ у безпечному місці.

    2. Додаємо Ключ в Browser Use:

    • Відкрийте веб-інтерфейс Browser Use у вашому браузері.
    • Вставте ваш OpenAI API ключ у відповідне поле.

    Перші Тести: OpenAI GPT-3. Більше того, 5 Turbo

    Давайте протестуємо Browser Use з GPT-3. 5 Turbo.

    • Переконайтеся, що вимкнено опцію “Use Vision”, оскільки ми не будемо використовувати зображення.
    • Залиште увімкненим запис браузера, щоб потім порівняти швидкості різних LLM.
    • Введіть промпт (запит) у відповідне поле (можете почати з стандартного, запропонованого в Browser Use).
    • Натисніть “Run Agent”.

    Browser Use відкриє вікно браузера і почне виконувати інструкції. В моєму випадку, браузер чомусь відкрився португальською мовою, але агент все одно шукав “OpenAI”.

    Результати GPT-3. 5 Turbo:

    • Час виконання: 41 секунда. Відверто уявіть собі, кажучи,
    • Знайшов URL: openai. Цікаво, com.

    Простеньке завдання, але все працює!

    DeepSeek: Local vs. API (На жаль, з API проблеми)

    На жаль, deepseek. com зараз не працює, тому протестуємо локальну модель DeepSeek R1.

    Увага! Локальні моделі DeepSeek – це не те саме, що їх API. Вони значно слабші, тому не очікуйте такої ж продуктивності.

    1. Налаштування Локальної Моделі DeepSeek:

    • Переконайтеся, що у вас встановлено Llama Cpp. Чесно кажучи,
    • У мене встановлено DeepSeek R1 14b. 32b може завантажуватися вічно, а 14b – досить повільна.

    2. Запуск з Локальною Моделлю DeepSeek:

    • Оберіть DeepSeek R1 у випадаючому списку моделей. Зрозуміло,
    • Залиште увімкненим запис браузера та
    • Натисніть “Run Agent”.

    Результати DeepSeek R1 (14b):

    • Виконав завдання (принаймні, так здається).
    • загалом,

    • Відповів з точним URL, типу того.
    • Згенерував короткий опис.
    • Отримали повний лог виконаних дій (модель, дія, вивід).

    Важливо: Навіть з хорошою відеокартою, використання локальних моделей може бути дуже повільним.

    Llama 2 розумієте, 7b: Не вдалося

    Спроба використання Llama 2 7b виявилася невдалою. Модель просто повторювала одне й те саме повідомлення і не виконувала жодних дій в браузері. Мабуть, занадто маленька модель не може зрозуміти інструкції.

    OpenAI GPT-4: Швидко та Ефективно

    GPT-4 показав себе найкраще!

    • Дуже швидко зрозумів, що від нього вимагається.
    • Швидко переклав текст (мій браузер все ще був португальською).
    • уявіть собі,

    • Час виконання: Приблизно такий самий, як у GPT-3. 5 Turbo.

    Висновок: GPT-4 – найшвидша та найефективніша модель для Browser Use.

    Залізо: Моя Конфігурація

    Щоб ви мали уявлення про продуктивність, моя система:

    • GPU: Nvidia GeForce RTX 4060.

    Якщо у вас краща відеокарта, локальна DeepSeek має працювати краще.

    Підсумки та Висновки

    Browser Use – це крутий інструмент, який може значно спростити вашу роботу в браузері. Зрозуміло, він дає вам можливість автоматизувати рутинні завдання та використовувати різні LLM для керування процесом. До речі,

    Загальні розумієте, висновки:

    • GPT-4 – найкращий вибір для швидкості та ефективності.
    • GPT-3. 5 Turbo – хороший варіант, якщо вам не потрібна максимальна продуктивність.
    • Локальні моделі DeepSeek можуть бути повільними, але вони працюють.
    • Маленькі моделі, такі як Llama 2 7b, можуть не впоратися із завданням.

    Що далі?

    • Спробуйте використовувати Browser Use з API DeepSeek (якщо він запрацює).
    • Експериментуйте з різними промптами та завданнями.
    • Діліться своїм досвідом в коментарях!

    Сподіваюся, ця стаття була корисною для вас. До зустрічі в наступному відео!

    Поділитися.
    0 0 голоси
    Рейтинг статті
    Підписатися
    Сповістити про
    guest
    0 Коментарі
    Найстаріші
    Найновіше Найбільше голосів
    Зворотній зв'язок в режимі реального часу
    Переглянути всі коментарі
    0
    Буду рада вашим думкам, прокоментуйте.x