Закрийте меню

    Підпишіться

    Get the latest creative news from FooBar about art, design and business.

    Підпишіться
    Інструкції

    V3: Світ, де технології оживляють мрії

    17 Липня, 2025
    Інструкції

    Контекстний інжиніринг: Посібник зі створення MCP-серверів за допомогою PRP-фреймворку

    17 Липня, 2025
    Огляд

    Act Two: Від Орсона Уеллса до нейромереж – як Runway змінює гру в створенні відео

    16 Липня, 2025
    Цікаве
    • V3: Світ, де технології оживляють мрії
    • Контекстний інжиніринг: Посібник зі створення MCP-серверів за допомогою PRP-фреймворку
    • Act Two: Від Орсона Уеллса до нейромереж – як Runway змінює гру в створенні відео
    • AI Новини з Сан-Франциско: Від Windsurf до Grok та Нових Проривів у ШІ
    • Вірус у Цифровій Тіні: Еволюція Малварі та Як Захистити Свій Цифровий Світ
    • Bria AI: Нова Ера Візуальної Відповідності для Художників та Розробників
    • Grok 4: Чи готовий штучний інтелект перевернути маркетинг? Огляд з перших рук
    • Від сировини до передбачення: Магія Feature Engineering та Data Pipelines
    Четвер, 17 Липня
    ШІ для ЮнікорнівШІ для Юнікорнів
    • Головна
    • Гайди
    • Інструкції
    • Інсайти
    • Огляд
    • Базис
    • Підсумки
    • Тренди
    ШІ для ЮнікорнівШІ для Юнікорнів
    Домой » Огляд » Crawl for AI та Archon: Як один розробник змінює ландшафт RAG
    ШІ для Юнікорнів | Crawl for AI та Archon: Як один розробник змінює ландшафт RAG
    Огляд

    Crawl for AI та Archon: Як один розробник змінює ландшафт RAG

    Ліла ГартBy Ліла Гарт1 Травня, 2025Оновлено:1 Травня, 2025Коментарів немає4 мінут читання
    Поділитися
    Facebook Twitter LinkedIn Pinterest Електронна пошта Телеграма WhatsApp Нитки Копіювати посилання

    Народжені з Павутиння: Як Один Розробник Змінює Правила Гри в RAG за Допомогою Crawl for AI та Archon

    Якось у затишному куточку YouTube-простору з’явилося відео, яке перевернуло мій погляд на штучний інтелект. Автор, чиє ім’я я, на жаль, не знаю, ділився секретом, як легко та ефективно навчати LLM знанням з будь-якого сайту. Цей інструмент – Crawl for AI – став відмичкою до безмежного світу інформації, а я, мов зачарована, стежила за перевтіленням ідей у практичні рішення.

    Відкрию вам секрет: залаштунки розробки часто приховують справжню магію. Так і тут – в основі проєкту лежав відкритий код на GitHub. Уявіть собі – 42 тисячі зірок, які загоряються в очах як визнання блискучого задуму! Адже, якщо подумати, навчання великих мовних моделей (LLM) неможливе без доступу до даних, зібраних з просторів інтернету. Crawl for AI став тим самим інструментом, що дозволяє швидко та ефективно зібрати ці дані, перетворивши їх на зрозумілий для AI формат – markdown.

    І що найцікавіше – це лише початок історії. Головний герой, відгукнувшись на численні запити аудиторії, розширює можливості Crawl for AI. Якщо раніше, у першому відео, він показував, як завантажити інформацію з наявних карт сайту, то зараз він розширює горизонти, демонструючи можливості різних сценаріїв.

    Три шляхи до знань:

    1. Карти сайту (Sitemap): Найпростіший, але часто найефективніший спосіб. Багато сайтів, як мудрі провідники, вже підготували для нас “дорожню карту” – файл sitemap.xml, де зібрані всі доступні сторінки. Завантажуємо карту, програма розпізнає всі URL-адреси та видобуває з них знання.
    2. Навігація (Navigation): Якщо карти сайту немає? Не біда! Crawl for AI навчиться знаходити потрібні сторінки самостійно, починаючи з головної сторінки та переходячи за посиланнями. Програма рекурсивно досліджує сайт, відшукуючи все нові й нові сторінки.
    3. LLM.txt: Третій сценарій, найбільш специфічний, але дуже корисний для документації. Деякі розробники, розуміючи потреби AI, публікують документацію у вигляді єдиного .txt-документу (зазвичай /llms.txt або /ai.txt). Усе, що вам потрібно – це одержати один простий файл з усіма необхідними знаннями.

    Прагнемо до досконалості – практичний показ:

    Автор не стримує себе у бажанні поділитися досвідом. Він запрошує до себе на кухню, де наочно показує, як реалізувати свої ідеї на практиці. Для наочності він використовує свій приклад, у якому показує, як легко та швидко перетворити документацію Pyantic AI на навчальні дані для LLM.

    У нас є термінал, скрипт і секунди очікування. Результат – структурований документ у форматі markdown, готовий до використання LLM. Швидкість реакції вражає – сторінка завантажується буквально за мить.

    Що стоїть за цим дивом?

    1. Використання sitemap: По суті, це автоматизований парсинг URL з файлу sitemap.xml. Скрипт читає файл, витягує з нього адреси сторінок, а потім використовує функцію crawl_parallel для паралельного завантаження і конвертації даних.
    2. LLM.txt – простота та ефективність: Тут усе ще простіше: алгоритм завантажує один файл, використовуючи функцію A run та стратегію chunking.
    3. Рекурсивний обхід сайту: Цей метод передбачає рекурсивне сканування сторінок, слідуючи за посиланнями. Програма визначає наявність внутрішніх посилань, що ведуть на інші сторінки цього ж сайту, та обробляє їх.

    Archon: від інструменту до помічника

    Не варто забувати про Archon – AI-інструмент для створення агентів, що теж народився у голові нашого генія. Він бере інформацію з веб-сайтів, використовує LLM і пише код. Тепер автор планує перетворити Archon на щось більше – на зручний інструмент для інтеграції з AI-асистентами.

    Чому саме така стратегія? Все просто – зараз наявно багато вже готових рішень, як Windsurf або Cursor, які генерують код. Archon же має зосередитися на видобутку знань та підготовці даних. Таким чином, Archon стане інтелектуальним ядром, що забезпечує доступ до інформації, а інші інструменти – використовуватимуть ці знання для створення агента.

    Практичне застосування:

    Автор демонструє, як працює система, інтегруючи різноманітні джерела знань. Він використовує Streamlit для створення інтерфейсу та задає питання, перевіряючи, чи правильно система працює з різними джерелами інформації – Pyantic AI, Crawl for AI, Langraph. Результат – швидкі та влучні відповіді, свідчення ефективної роботи.

    Замість епілогу

    Автор відео яке надихнуло мене на цю статтю (відео можете подивитись по посиланню під постом) збирається розширювати тему RAG, розкриваючи нові стратегії, такі як ієрархічний пошук, контекстний пошук, розширення запитів та ранжування результатів.

    Висновок

    Це захоплива розповідь про народження і розвиток потужного інструменту та його творця. Це історія про те, як наполегливість, інноваційний підхід та відкритий код народжують дивовижні речі. Вона здатна надихнути будь-кого, хто прагне змінити світ, знайте, що все починається з ідеї, підкріпленої важкою працею.

    Не гайте часу! Використовуйте Crawl for AI, щоб створити свого власного віртуального експерта!

    Корисні посилання від автора відео який надихнув створити цю статтю

    Crawl4AI Agent (безкоштовні шаблони!): https://github.com/coleam00/ottomator-agents/tree/main/crawl4AI-agent-v2

    Crawl4AI Документація: https://docs.crawl4ai.com/

    Crawl4AI GitHub: https://github.com/unclecode/crawl4ai

    Дивитись ще по темі статті
    ×
    AI Graphics and Video AI tools Algorithms Automation Coding Communities Content Creation Education Tools Innovation Model Evaluation Open Source OpenAI Programming tools Tools Review Use Cases
    Поділитися. Facebook Twitter Pinterest LinkedIn Tumblr Електронна пошта Reddit Телеграма WhatsApp Нитки Копіювати посилання
    Попередня статтяМайбутнє AI поруч: Як Flowise та n8n змінюють гру створення AI-агентів
    Наступна стаття Діалоги з Майбутнім: Як ШІ Обирає “Мізки” для Ваших Завдань
    Портрет Ліла Гарт, крупним планом. Жінка з рудим волоссям, усміхнена. Фотографія в студії. LilaHart portrait.
    Ліла Гарт
    • Website

    Ліла Харт — авторка, яка перетворює інтерв’ю та події на історії з серцем. Її тексти — це легкий стиль, жива емоція й увага до деталей, що надихають.

    Пов’язані повідомлення

    Інструкції

    V3: Світ, де технології оживляють мрії

    17 Липня, 2025
    Інструкції

    Контекстний інжиніринг: Посібник зі створення MCP-серверів за допомогою PRP-фреймворку

    17 Липня, 2025
    Огляд

    Act Two: Від Орсона Уеллса до нейромереж – як Runway змінює гру в створенні відео

    16 Липня, 2025
    Додайте коментар

    Comments are closed.

    Читайте ще

    V3: Світ, де технології оживляють мрії

    17 Липня, 20251 Перегляди

    Контекстний інжиніринг: Посібник зі створення MCP-серверів за допомогою PRP-фреймворку

    17 Липня, 20251 Перегляди

    Act Two: Від Орсона Уеллса до нейромереж – як Runway змінює гру в створенні відео

    16 Липня, 20251 Перегляди

    AI Новини з Сан-Франциско: Від Windsurf до Grok та Нових Проривів у ШІ

    16 Липня, 20250 Перегляди

    Читають найбільше

    Інструкції

    Google Відкриває Нові Горизонти ШІ-Відео: Синхронізація Губ та Майстерність Творчості

    Ліла Гарт11 Липня, 2025
    Інструкції

    Стежка до AI: Ваш Повний Посібник з Інструментів для Розробки

    Ліла Гарт12 Липня, 2025
    Огляд

    Весняний вибух AI: Огляд найцікавіших новинок та відкриттів

    Ліла Гарт11 Липня, 2025
    Огляд

    Пам’ять майбутнього: ІІ вчиться бути людиною

    Ліла Гарт14 Липня, 2025
    Популярні

    Клод 4: ШІ, який мислить, відчуває та ставить під сумнів реальність

    23 Травня, 202563 Перегляди

    Game Over для RL? Розбираємо скандальне дослідження про AI та міркування

    24 Квітня, 202527 Перегляди

    Midjourney V7: Огляд, тести та перспективи. Ера персоналізації та виклик Flux’у?

    4 Квітня, 202521 Перегляди

    Підпишіться на оновлення

    Отримайте сповіщення про нові статті на вашу пошту

    Підпишіться
    • На домашню сторінку
    • Наші автори
    • Концепт
    • Контактна інформація
    • Політика конфіденційності
    © 2025 Створено та підтримується 4UNCORNS Team

    Введіть вище та натисніть Enter для пошуку. Натисніть Esc для відміни

    Cookies
    Ми використовуємо файли cookie. Якщо ви вважаєте, що це нормально, просто натисніть «Прийняти все». Ви також можете вибрати, який тип файлів cookie вам потрібен, натиснувши «Налаштування». Ознайомтеся з нашою політикою використання файлів cookie
    Налаштування Прийняти все
    Cookies
    Виберіть, які файли cookie приймати. Ваш вибір буде збережено протягом одного року. Ознайомтеся з нашою політикою використання файлів cookie
    • Необхідні
      Ці файли cookie не є необов'язковими. Вони необхідні для функціонування сайту.
    • Статистика
      Для того щоб ми могли поліпшити функціональність і структуру сайту, ґрунтуючись на тому, як він використовується.
    • Розширені
      Для того, щоб наш сайт працював якнайкраще під час вашого відвідування. Якщо ви відмовитеся від цих файлів cookie, з веб-сайту зникнуть деякі функції.
    • Маркетинг
      Ділячись своїми інтересами та поведінкою під час відвідування нашого сайту, ви збільшуєте шанс побачити персоналізований контент та пропозиції.
    Зберігти Прийняти все