Модуль «Парсер контента» с версии 4.0.0. "научился" парсить каталоги, что значительно расширяет его функциональность. Но и настройка самого парсера в режиме каталога стала на первый взгляд сложнее. Но это лишь на первый взгляд. Данная инструкция разрушит все ваши сложности и возникшие вопросы. И так. Поехали!
Внимание!!! Чтобы работа с парсером была легкой и простой, необходимо знать азы верстки и css, а именно селектора: классы, идентификаторы, атрибуты. Так же будут полезны базовые знания работы с JQuery, например: .image img:eq(0). Без этих базовых знаний нет смысла читать далее! Если вы еще не знаете таких понятий, то с ними можно легко ознакомиться по ссылке:
Парсер в режиме каталога состоит из 13 вкладок при установленном модуле Торговый Каталог, в ином случае - из 11, т.к. вкладка Торговый каталог и Торговые предложения отсутствуют.
Теперь рассмотрим каждую вкладку подробнее.
Основная и вкладка по-умолчанию - Парсер:
Тип парсера – соответственно и есть тип парсера. На данный момент это rss, page, catalog. Нас же интересует catalog.
Внимание! Если не использовать вкладку Торговый каталог, то парсер будет просто работать в расширенном режиме парсинга без создания товаров. Удобно для парсинга сложных новостных страниц или статей.
Режим парсера – режим, в котором работает парсер. Существует два режима работы: debug и work. По умолчанию для отладки используется debug режим. Именно в этом режиме необходимо настраивать парсер. В дебаг режиме парсится три страницы и по три товара с каждой страницы. В рабочий режим work парсер необходимо переводить, если он полностью настроен и отлажен.
Стоит отметить, что, если вы используете модуль «Парсер контента» в триал версии, то парсер работает только в дебаг режиме.
URL раздела каталога – страница, содержащая непосредственно товары.
Дополнительные урлы разделов - вы можете также включить в выгрузку и другие урлы. Для этого просто укажите их с новой строки.
ID инфоблока-каталога – инфоблок, в который будет осуществляться загрузка товаров.
ID раздела – раздел инфоблока, в который будет осуществляться загрузка товаров.
Количество товаров, выгружаемых за один шаг парсера – количество товаров, который парсер обрабатывает за один шаг.
Шаг парсера – понятие, которое имеет место при ручном режиме запуска парсера. В этом случае каждый шаг происходит отключение и новое подключение к каналу выгрузки. Варьируйте это значение в зависимости от возможностей вашего хостинга. Если парсер работает от агента(крон), то шаг парсера игнорируется и выгрузка осуществляется одним запросом.
Активен, Сортировка, Название, Время последнего запуска – интуитивно понятные поля и в комментариях не нуждаются.
Кодировка - кодировка сайт донора. Устаревшее поле. На данный момент кодировка определяется автоматически, но, если возникают какие-то проблемы с кодировкой, то рекомендуется указать в ручную.
Вкладка Постраничная навигация:
Селектор навигации – селектор контейнера навигации.
Селектор пункта навигации – селектор пункта навигации, содержащий ссылки на страницы. Как правило это элемент ссылки a. Указывается относительно предыдущего параметра.
Удалить элементы навигации – список элементов, которые необходимо удалить из навигации. Например, иногда нужно удалить лишние элементы из навигации, такие как След, Предыд, Показать все и подобное. Указывается относительно селектора навигации.
На картинке ниже подробная схема селекторов Пагинации.
Стоить отметить, что если Селектор навигации не указан, то парсинг осуществляется только по одной странице.
Вкладка превью:
Селектор товара на странице каталога – селектор контейнера товара на странице списка товаров.
Селектор ссылки товара – как правило, обычная ссылка a, содержащая атрибут href. Если пусто, то используется a:eq(0), то есть первая ссылка. Указывается относительно предыдущего параметра.
Селектор названия товара – селектор, в котором содержится название товара. Если пустое, то равно предыдущему параметру.
Селектор превью описания – селектор, в котором содержится превью описание товара.
Селектор цены – селектор, в котором содержится цена товара.
Удалять элементы – элементы, которые необходимо удалить из описания. Указываются относительно селектора товара на странице каталога.
Удалять атрибуты элементов – атрибуты элементов, которые необходимо удалить. Пример написания: a[href], a[rel].
Селектор-атрибут превью картинки – указывается селектор и атрибут превью картинки. Пример: img[src], a[href]
Вкладка Детально:
Поля аналогичны полям во вкладке Детально. Поэтому подробно рассматривать не будем.
Вкладка Свойства:
Свойство доп. картинок – если есть доп. картинки, то необходимо указать поля, в которые будет осуществляться выгрузка картинок.
Селектор-атрибут перечисления доп. картинок – указывается селектор и атрибут доп. картинок. Пример .images img[src]. Указывается относительно селектора товара на детальной странице.
Парсинг свойств по селектору из деталки – производится парсинг свойств по конкретному селектору на детальной странице товара. Поле используется, если свойства имеют свои селектора.
Удалять символы – удаляются символы из свойств, описанных выше. Как правило, это двоеточия, запятые, многоточия и подобное.
Парсинг свойств по названию из деталки – требует более детального описания. Парсинг свойств в этом случае осуществляется по селектору списка свойств и по названию свойства из детальной страницы товара.
Селектор перечисления свойств – общий селектор свойств в списке.
Удалять символы – удалять лишние символы, такие как: запятые, двоеточия, многоточия и подобное.
Еще необходимо указать названия свойств. Именно по этому названию и общему селектору будет производиться парсинг свойств.
Парсинг свойств по селектору из превью - поле аналогичное для деталки, но только селектора указываются относительно селектора товара в списке товаров.
Парсинг свойств по названию из превью – поле аналогичное для деталки, но только селектора указываются относительно селектора товара в списке товаров.
Хочу обратить внимание, что на данный момент возможен парсинг свойств только типов: строка, число, список, привязка к элементам, справочник, html, файлы. Множественность не поддерживается.
Также, возможно создать новое свойство прямо из интерфейса парсера. Для этого необходимо в селекте выбрать значение [Создать] и нажать кнопку добавить.
Вкладка Торговый каталог(если установлен модуль Торговый каталог):
Тип цены, Ставка НДС, Включать НДС в цену, Валюта, Единица измерения, коэффициент единицы измерения – эти поля интуитивно понятны и не требует дополнительного разъяснения.
Работа с ценами – предоставляется возможность работы с ценами: конвертация, округление цены, формат цены, изменение цены.
Конвертировать в валюту – в какую валюту необходимо конвертировать цену.
Округление цены - три режима округления цены: округлять с указанной точностью(можно указать точно округления после запятой), округлять до целого в большую сторону, округлять до целого в меньшую сторону.
Формат цены - если цена имеет сложные разделители, например 5.990,00 . В этом случае вы должны указать символы разделителей. В большинстве случаев можно оставить пустым.
Изменить цену – возможные значения: Не изменять, Увеличить, уменьшить.
Условие изменения цены – обозначается условие, при выполнении которого будет изменена цена. Словесный пример: Увеличить цену, если цена выше 600. 600 – цена в исходной валюте.
Тип изменения – возможные варианты: Проценты и Абсолютная величина. То есть изменения цены будет в процентном соотношении или в абсолютной величине.
Величина изменения – величина изменения цены. Указывается в зависимости от предыдущего поля.
Парсинг размеров по селектору – логика аналогична логике парсинга свойств из вкладки Свойства.
Парсинг размеров по названию – логика аналогична парсингу свойств из вкладки Свойства.
Вкладка Торговые предложения(если установлен модуль Торговый каталог):
Выгружать офферы - выбор типа выгружаемых торговых предложений. На данный момент поддерживается два вида: Табличный вид и Офферы с одиночными характеристиками.
Офферы табличного вида
Параметр уникализации – важный параметр, определяющий по каким параметрам будет происходить уникализация офферов.
Особенности:
1. Указанные свойства добавляются в название оффера.
2. Если название оффера отсутствует, то название полностью будет состоять из значений указанных свойств.
3. По данному параметру происходит уникализации офферов.
4. Если ничего не указано, то уникальность будет определяться по названию оффера.
Главный селектор контейнера торговых предложений – селектор контейнера офферов относительно селектора детальной страницы. Например: table.
Селектор блока шапки таблицы – селектор шапки таблицы относительно предыдущего параметра. Это поле требуется, если поиск параметров идет по названию. Например: thead tr
Селектор наименования параметра в шапке таблицы – селектор конкретного наименования параметра относительно предыдущего параметра. Это поле требуется, если поиск параметров идет по названию. Например: th
Селектор отдельного оффера – селектор блок торгового предложения относительно главного селектора офферов. Например: tbody tr
Селектор значения параметра в теле таблицы – селектор конкретного значения параметра относительно предыдущего параметра. Например: td
Далее следует блок полей, связанных непосредственно с парсингом значений а таблице
Парсинг полей по селектору -
Удалять символы – какие символы необходимо удалять из значений параметров. Перечисление идет через ||
Наименование – селектор названия оффера
Цена – селектор цены оффера
Парсинг полей и свойств по названию – происходит поиск значений параметров по наименованию в шапке таблицы.
Удалять символы – удалять лишние символы. Перечисление через ||
Далее идут параметры, которые необходимо найти. Для этого нужно указать название параметра в шапке таблицы
Офферы с одиночными характеристиками
Параметр уникализации – см. выше.
Селектор контейнера отдельной характеристики оффера - если выбор оффера осуществляется кликом по блоку, то нужно указать селектор как раз этого блока. Пример: select option, #charect div.size
Атрибут цены – атрибут предыдущего параметра(селектора). Используется, если цена заносится в атрибут.
Вкладка Дополнительные настройки:
Парсить при возникновении 404 ошибки – при парсинге страниц в случае возникновения 404 ошибки продолжать парсинг. Пункт актуален из-за СЕО заморочек.
Запускать по агенту – запуск парсера по агенту. Рекомендуется агенты запускать из под крона.
Время задержки(сек) – время между запросами к страницам каталога. Иногда сайты используют контроль активности за единицу времени. Этот пункт как раз позволяет обойти вышеуказанный контроль.
Прокси-сервер – адрес прокси-сервера, через который будет осуществляться парсинг. Применяется для сохранения анонимности.
Остальные поля интуитивно понятны и не требуют разъяснения.
Вкладка Обновление/Уникальность:
Обновлять товары – чекбокс, который включает и выключает обновление товаров.
Проверка уникальности – изначально для уникализации использует поле XML_ID, в которое заносит md5 от названия товара и урла страницы товара. Если вы не хотите заполнять и перетирать поле XML_ID, то необходимо переопределить уникализацию. Например, вы можете уникализировать по названию или свойству(Артикул), либо по тому и другому по логике И.
Обновлять поля – позволяет выбрать поля, которые необходимо обновлять. Так же существуют условия обновления полей. К примеру, обновлять Детальное описание, если оно пустое.
Теперь появилась возможность отслеживания товаров выгруженных в текущей и прошлой выгрузке. Для этого во вкладку «Обновление / Уникальность» добавились доп. поля.
Существует три значения данного режима:
- ничего не делать – если товар отсутствует в текущей выгрузке, то с ним ничего происходить не будет
- деактивировать – если товар отсутствует в текущей выгрузке и присутствовал в предыдущей, то он будет деактивирован
- удалить – товар будет удален, если он отсутствует в текущей выгрузке
Вкладка Авторизация:
Производить авторизацию на стороннем сайте - если необходимо парсить сайт из под авторизованного пользователя, то необходимо отметить это поле.
URL авторизационной страницы - если авторизацию происходит на отдельной странице, то необходимо заполнить данное поле. По умолчанию идет страницы раздела, которые собираемся парсить.
Селектор формы авторизации - селектор формы авторизации. Пример на картинке ниже:
Логин - логин на стороннем сайте.
Пароль - пароль на стороннем сайте.
Проверить авторизацию - позволяет проверить авторизацию. Если вы уверены, что доступы и все параметры к стороннему сайту верны, а авторизация не проходит, то обратитесь в службу поддержки компании «Сотбит».
Вкладка Логи:
На данном этапе осуществляется простое логирование ошибок в файл последней выгрузки.
Вкладка Сервисы.
Перевод текста
Тип перевода - выбор сервиса, который будет отвечать за перевод текста. На данный момент реализован только Яндекс.Переводчик.
Параметры для Яндекс.Переводчика
Ключ от API Яндекс.Переводчик - ключ, позволяющий пользоваться API Яндекс.Переводчика. Его вы можете получить совершенно бесплатно по адресу:
Направление перевода - в каком направлении будет осуществляться перевод текста. Языки разделяются тире. Пример: en-ru
Отправлять уникальный текст в Яндекс
Выбрать домены - выбрать домен, относительно которого будет отправляться уникальный текст в Яндекс.
Вкладка Видео-инструкция.
Предоставлена видео-инструкция, что облегчит понимание работы и настройки Парсера.
Данная инструкция будет поддерживаться в актуальном состоянии и обновляться по мере развития модуля «Парсер контента».
Компания «Сотбит» работает для Вас.
Последние новости
Все новостиЗимняя акция со скидками 25% на продукты Сотбит и до 35% на Битрикс и Битрикс24!
Сотбит поздравляет Вас с первыми днями зимы! Впереди время чудес, тепла и радости, а вместе с ними — традиционная зимняя акция.
Сотбит: Розница — эталон скорости для интернет-магазинов на 1С-Битрикс
В этой статье мы расскажем, почему скорость имеет значение и как Сотбит: Розница достигла лидерства по этому параметру.