Стрімка пригода з Fire Crawl: Збір цитат та чарівність автоматизації
У чарівному світі безмежних можливостей, де алгоритми танцюють з даними, а інновації розцвітають у секунди, ми зустрічаємо Fire Crawl. Це надзвичайний інструмент, що трансформує будь-який веб-сайт на джерело цінних даних, готових до використання в великих мовних моделях (LLMs – Large Language Models). Дихайте глибше, адже ми вирушаємо у захопливу подорож, де Fire Crawl – наш вірний провідник, а автоматизація – ключовий союзник.
На початку нашої пригоди, наш вірний герой, розробник, демонструє переконливу простоту Fire Crawl. Навігація по інтерфейсу – інтуїтивно зрозуміла, а обіцянка отримати безкоштовні кредити для гри з інструментом – ще один спокусливий крок у світ можливостей. Чотири основні функції Fire Crawl – scrape
, crawl
, map
та extract
– відкривають перед нами широкі горизонти. Мета сьогоднішньої мандрівки: заглибитись у тонкощі extract
, одночасно досліджуючи відмінності між scrape
і extract
. А ще, ми зазирнемо в серце N8N і побачимо, як ця комбінація розкриває дійсно захопливу магію.
Зустріч з “Quotes to Scrape”: Мудрість онлайн
Нашим першим етапом у подорожі стане веб-сайт “Quotes to Scrape”. Це місце, де мудрість збирається разом, представляючи нам різноманітність цитат різних авторів. Сторінки, на яких розташовані ці перлини думки, – ніби дорогоцінні каміння, які чекають на нашу увагу.
Спочатку, ми занурюємось у світ HTML-коду, який є мовою, якою розмовляє інтернет. За допомогою звичайного HTTP-запиту в N8N ми отримуємо “сирий” код сторінки “Quotes to Scrape”. Все виглядає як щільний, незрозумілий текст, але саме в цьому безладі, ховається наше багатство. Цей код зберігає всю інформацію про сайт, від цитат до форматування. Якось знайти конкретну цитату у цьому коді, було б справжнім викликом.
Збагачення досвіду: Scrape проти Extract
Тепер, переміщаємось до Fire Crawl. За допомогою функції scrape
, ми трансформуємо HTML у більш зрозумілий, зручний формат. Ми отримуємо відформатований текст з основними цитатами, які ми шукали. Scrape
працює як мудрий помічник: він акуратно бере необхідну інформацію, видаляючи непотрібне.
Але справжня магія починається з extract
. За допомогою extract
, ми можемо не просто витягнути інформацію з однієї сторінки, а й змусити Fire Crawl пробігтися по всьому сайту, збираючи всі цитати та їхніх авторів. Це ніби мурашина ферма, що збирає краплі мудрості з кожної пелюстки онлайн-світу.
Синхронізація з N8N: Автоматизація та творчі можливості
Тепер, уявіть собі: нам потрібен не один сайт, а ціла колекція. Саме тут N8N виходить на сцену, щоб стати нашим союзником в автоматизації.
Ми починаємо з створення нового HTTP-запиту в N8N. Наша задача – імпортувати curl
команду від Fire Crawl для extract
endpointа. N8N легко інтегрує ці команди, що дозволяє нам налаштувати запит без особливих зусиль.
Ключем до успіху є аутентифікація та перетворення наших запитів на секретну мову Fire Crawl. Ми отримуємо API-ключ у Fire Crawl, а потім, використовуючи можливості N8N, ми зберігаємо наші облікові дані, щоб зробити процес плавним та повторюваним.
Далі, ми налаштовуємо основну суть запиту: URL сайту (або кількох) та інструкції для LLM. Ми визначаємо структуру даних, які хочемо отримати: цитати та імена авторів. N8N допомагає створити ці інструкції, які точно відповідають нашим запитам, відправляючи їх до LLM.
Тестування є важливим етапом, який дозволяє нам переконатися, що все працює правильно. N8N показує, як Fire Crawl виконує завдання, збираючи необхідні цитати. Навіть якщо результати містять трохи магії (тимчасові помилки), ми вдосконалюємо процес, вносячи необхідні зміни.
Асинхронний видобуток: Очікування та отримання результату
Процес видобутку даних Fire Crawl є асинхронним. Це означає, що після відправлення запиту треба перевірити його статус. Ми використовуємо ще один HTTP-запит в N8N, щоб дізнатись, чи завершено видобуток.
Отримання інформації про стан завершення запиту у форматі JSON вимагає від нас прийняття певних рішень. За допомогою if
Node, ми перевіряємо, чи були отримані дані. Якщо дані ще не готові ми використовуємо wait
Node, щоб трохи почекати та повторити запит. Цей процес повторюється, поки ми не отримаємо наші цінні дані.
Ми також розглядаємо особливості обробки даних у форматі масиву. Якщо спочатку дані приходять у вигляді пустого масиву або об’єкту, ми пристосовуємо процес, щоб забезпечити успішне отримання результатів.
Відчуйте різницю: Повторне тестування
Експерименти з видаленням зірки (*) символу, що означає збір з усіх сторінок, дають нам можливість відчути різницю. Ми перевіряємо, як змінюються результати в залежності від глибини видобутку.
Повертаючись до тестування, ми вирішуємо деякі проблеми та вдосконалюємо наш процес. Ми враховуємо, що ID, отриманий на одній стадії, може бути використаний на наступному етапі, якщо ми правильно налаштуємо зв’язок між вузлами.
Висновок: Створюємо власний світ з Fire Crawl та N8N
Fire Crawl – потужний інструмент для збору даних з інтернету, а N8N – ключ до розкриття його потенціалу. Об’єднання цих двох інструментів дозволяє автоматизувати рутинні задачі, спрощувати процес збору даних та відкривати нові можливості для аналізу та творчості.
Завдяки цій подорожі, ми відчули магію автоматизації, та глибше зрозуміли суть роботи з даними. Спробуйте, експериментуйте та створюйте свій власний світ з Fire Crawl та N8N.
Поради для глибшого занурення:
- Експериментуйте з URL: Спробуйте різні URL та експериментуйте з вибором інформації, яку хочете витягти.
- Використовуйте API-ключ: Отримайте власний API-ключ. Це допоможе вам отримати повний потенціал Fire Crawl.
- Досліджуйте N8N: Поглиблюйте свої знання з N8N. Він допоможе вам побудувати складні робочі процеси, що відповідають вашим потребам.
- Обмін досвідом: Приєднуйтеся до спільноти Fire Crawl та N8N. Діліться своїм досвідом та отримуйте натхнення від інших користувачів.
Давайте разом створювати щось неймовірне!