code:python:module:start

Модули Python

Grab - библиотека парсинга сайтов на языке Python.

Реализация логики программы с помощью Grab представляет из себя по большей части чисто описательный процесс: зайди на этот сайт, заполни форму, нажми сабмит, посмотри есть ли на странице вот эта строка, получи теперь мне вон то значение из таблицы и т.д.

Меньше действий и кода - меньше вероятность ошибки, а также встроенная система ведения логов позволяет контролировать результат каждого запроса.

Основные функции Grab:

  1. Подготовка сетевого запроса (http-заголовки, POST/GET-данные, cookies)
  2. Отправка запроса на сервер (возможно через HTTP/SOCKS прокси).
  3. Получение ответа от сервера и его первоначальная обработка (определение кодировки документа, парсинг заголовков, парсинг cookies, обработка редиректа (поддерживаются даже редирект в meta refresh тэге)).
  4. Работа с DOM-деревом ответа (если это HTML-документ).
  5. Работа с формами (заполнение, автозаполнение).
  6. Отладка: логирование процесса выполнения в консоль, сетевых запросов и ответов в файлы.
  • code/python/module/start.txt
  • Последнее изменение: 2020/03/19 01:35
  • truadmin