Андрей Карпаты описал подход к созданию персональных баз знаний, в котором управление структурой и контентом полностью делегируется языковым моделям. Процесс начинается с сохранения исходных материалов в сыром виде, после чего нейросеть инкрементально компилирует локальную вики-систему в формате markdown, формируя связи между документами и генерируя краткие выжимки. В качестве интерфейса для чтения и просмотра данных используется Obsidian, при этом ручное редактирование заметок практически исключается, что означает полный переход к автоматизированному курированию знаний.
При достижении объема базы в 400 000 слов архитектура позволяет отказаться от сложных систем RAG в пользу агентов, которые самостоятельно обращаются к созданным ими индексным файлам для ответа на комплексные вопросы. Результаты исследований не выводятся в терминал, а компилируются моделью в новые текстовые документы, презентации Marp или графики matplotlib, которые впоследствии интегрируются обратно в файловую систему. В результате каждый новый аналитический запрос циклично увеличивает плотность внутренних связей и общую полноту локального репозитория, превращая его в саморазвивающийся справочник.
Для поддержания качества данных применяются регулярные автоматизированные проверки целостности, в ходе которых модель выявляет логические несоответствия, восполняет пробелы через веб-поиск и предлагает темы для новых материалов. По мере дальнейшего роста базы следующим этапом становится генерация синтетических датасетов для тонкой настройки моделей, в результате чего накопленные знания будут интегрированы непосредственно в веса нейросети, снижая зависимость системы от размеров контекстного окна.
Поделиться:
Aide: плагин для пакетной AI-обработки файлов и генерации кода в VSCode →
OpenHands: локальный ИИ-агент для автономного написания кода и тестов →