Книга К вопросу индексации файловых хранилищ на базе протокола FTP

Рассматривается система индексации серверов на базе протокола FTP. В статье описан набор функционала для индексации файлов и поисковой системы. Подробно рассмотрены основные проблемы, встречающиеся при обработке ответов на запросы по протоколу FTP и методы их решения. Несмотря на эволюцию файловых хранилищ, прошедшую за 34 года после создания протокола FTP, проблема индексации остается актуальной благодаря огромному массиву данных, хранящихся на существующих серверах. Разработанная система индексации состоит из трех основных частей: робота-индексатора, базы данных и Web-сервиса. Робот-индексатор способен работать с большинством типов FTP серверов и обрабатывать возвращаемые ими данные, избегая ссылочные ловушки и сохраняя результаты в базу данных. Web-сервис принимает запросы от конечного пользователя и возвращает результат поиска по базе данных. Пользователь может указать полное или частичное имя файла, тип файла и его размер. Ключевым отличием от существующих систем является отслеживание истории изменений файлов и серверов.