Россия

region-img

Инструкция пользователя при работе с модулем «Парсер контента» в режиме каталога

Администратор 3 февраля 2014
Время чтения: 33 мин

Модуль «Парсер контента» с версии 4.0.0. "научился" парсить каталоги, что значительно расширяет его функциональность. Но и настройка самого парсера в режиме каталога стала на первый взгляд сложнее. Но это лишь на первый взгляд. Данная инструкция разрушит все ваши сложности и возникшие вопросы. И так. Поехали!

Внимание!!! Чтобы работа с парсером была легкой и простой, необходимо знать азы верстки и css, а именно селектора: классы, идентификаторы, атрибуты. Так же будут полезны базовые знания работы с JQuery, например: .image img:eq(0). Без этих базовых знаний нет смысла читать далее! Если вы еще не знаете таких понятий, то с ними можно легко ознакомиться по ссылке: http://habrahabr.ru/post/123949/

Парсер в режиме каталога состоит из 13 вкладок при установленном модуле Торговый Каталог, в ином случае - из 11, т.к. вкладка Торговый каталог и Торговые предложения отсутствуют.

Сотбит - Битрикс - Парсер каталога

Теперь рассмотрим каждую вкладку подробнее.

Основная и вкладка по-умолчанию - Парсер:

Сотбит - Битрикс - Парсер каталога

Тип парсера – соответственно и есть тип парсера. На данный момент это rss, page, catalog. Нас же интересует catalog.

Внимание! Если не использовать вкладку Торговый каталог, то парсер будет просто работать в расширенном режиме парсинга без создания товаров. Удобно для парсинга сложных новостных страниц или статей.

Режим парсера – режим, в котором работает парсер. Существует два режима работы: debug и work. По умолчанию для отладки используется debug режим. Именно в этом режиме необходимо настраивать парсер. В дебаг режиме парсится три страницы и по три товара с каждой страницы. В рабочий режим work парсер необходимо переводить, если он полностью настроен и отлажен.

Стоит отметить, что, если вы используете модуль «Парсер контента» в триал версии, то парсер работает только в дебаг режиме.

URL раздела каталога – страница, содержащая непосредственно товары.

Дополнительные урлы разделов - вы можете также включить в выгрузку и другие урлы. Для этого просто укажите их с новой строки.

ID инфоблока-каталога – инфоблок, в который будет осуществляться загрузка товаров.

ID раздела – раздел инфоблока, в который будет осуществляться загрузка товаров.

Количество товаров, выгружаемых за один шаг парсера – количество товаров, который парсер обрабатывает за один шаг.

Шаг парсера – понятие, которое имеет место при ручном режиме запуска парсера. В этом случае каждый шаг происходит отключение и новое подключение к каналу выгрузки. Варьируйте это значение в зависимости от возможностей вашего хостинга. Если парсер работает от агента(крон), то шаг парсера игнорируется и выгрузка осуществляется одним запросом.

Активен, Сортировка, Название, Время последнего запуска – интуитивно понятные поля и в комментариях не нуждаются.

Кодировка - кодировка сайт донора. Устаревшее поле. На данный момент кодировка определяется автоматически, но, если возникают какие-то проблемы с кодировкой, то рекомендуется указать в ручную.

Вкладка Постраничная навигация:

Сотбит - Битрикс - Парсер каталога

Селектор навигации – селектор контейнера навигации.

Селектор пункта навигации – селектор пункта навигации, содержащий ссылки на страницы. Как правило это элемент ссылки a. Указывается относительно предыдущего параметра.

Удалить элементы навигации – список элементов, которые необходимо удалить из навигации. Например, иногда нужно удалить лишние элементы из навигации, такие как След, Предыд, Показать все и подобное. Указывается относительно селектора навигации.

На картинке ниже подробная схема селекторов Пагинации.

Сотбит - Битрикс - Парсер каталога

Стоить отметить, что если Селектор навигации не указан, то парсинг осуществляется только по одной странице.

Вкладка превью:

Сотбит - Битрикс - Парсер каталога

Селектор товара на странице каталога – селектор контейнера товара на странице списка товаров.

Сотбит - Битрикс - Парсер каталога

Селектор ссылки товара – как правило, обычная ссылка a, содержащая атрибут href. Если пусто, то используется a:eq(0), то есть первая ссылка. Указывается относительно предыдущего параметра.

Селектор названия товара – селектор, в котором содержится название товара. Если пустое, то равно предыдущему параметру.

Селектор превью описания – селектор, в котором содержится превью описание товара.

Селектор цены – селектор, в котором содержится цена товара.

Удалять элементы – элементы, которые необходимо удалить из описания. Указываются относительно селектора товара на странице каталога.

Удалять атрибуты элементов – атрибуты элементов, которые необходимо удалить. Пример написания: a[href], a[rel].

Селектор-атрибут превью картинки – указывается селектор и атрибут превью картинки. Пример: img[src], a[href]

Вкладка Детально:

Сотбит - Битрикс - Парсер каталога

Поля аналогичны полям во вкладке Детально. Поэтому подробно рассматривать не будем.

Вкладка Свойства:

Сотбит - Битрикс - Парсер каталога

Свойство доп. картинок – если есть доп. картинки, то необходимо указать поля, в которые будет осуществляться выгрузка картинок.

Селектор-атрибут перечисления доп. картинок – указывается селектор и атрибут доп. картинок. Пример .images img[src]. Указывается относительно селектора товара на детальной странице.

Парсинг свойств по селектору из деталки – производится парсинг свойств по конкретному селектору на детальной странице товара. Поле используется, если свойства имеют свои селектора.

Удалять символы – удаляются символы из свойств, описанных выше. Как правило, это двоеточия, запятые, многоточия и подобное.

Парсинг свойств по названию из деталки – требует более детального описания. Парсинг свойств в этом случае осуществляется по селектору списка свойств и по названию свойства из детальной страницы товара.

Селектор перечисления свойств – общий селектор свойств в списке.

Сотбит - Битрикс - Парсер каталога

Удалять символы – удалять лишние символы, такие как: запятые, двоеточия, многоточия и подобное.

Еще необходимо указать названия свойств. Именно по этому названию и общему селектору будет производиться парсинг свойств.

Парсинг свойств по селектору из превью - поле аналогичное для деталки, но только селектора указываются относительно селектора товара в списке товаров.

Парсинг свойств по названию из превью – поле аналогичное для деталки, но только селектора указываются относительно селектора товара в списке товаров.

Хочу обратить внимание, что на данный момент возможен парсинг свойств только типов: строка, число, список, привязка к элементам, справочник, html, файлы. Множественность не поддерживается.

Также, возможно создать новое свойство прямо из интерфейса парсера. Для этого необходимо в селекте выбрать значение [Создать] и нажать кнопку добавить.

Вкладка Торговый каталог(если установлен модуль Торговый каталог):

Сотбит - Битрикс - Парсер каталога

Тип цены, Ставка НДС, Включать НДС в цену, Валюта, Единица измерения, коэффициент единицы измерения – эти поля интуитивно понятны и не требует дополнительного разъяснения.

Работа с ценами – предоставляется возможность работы с ценами: конвертация, округление цены, формат цены, изменение цены.

Конвертировать в валюту – в какую валюту необходимо конвертировать цену.

Округление цены - три режима округления цены: округлять с указанной точностью(можно указать точно округления после запятой), округлять до целого в большую сторону, округлять до целого в меньшую сторону.

Формат цены - если цена имеет сложные разделители, например 5.990,00 . В этом случае вы должны указать символы разделителей. В большинстве случаев можно оставить пустым.

Изменить цену – возможные значения: Не изменять, Увеличить, уменьшить.

Условие изменения цены – обозначается условие, при выполнении которого будет изменена цена. Словесный пример: Увеличить цену, если цена выше 600. 600 – цена в исходной валюте.

Тип изменения – возможные варианты: Проценты и Абсолютная величина. То есть изменения цены будет в процентном соотношении или в абсолютной величине.

Величина изменения – величина изменения цены. Указывается в зависимости от предыдущего поля.

Парсинг размеров по селектору – логика аналогична логике парсинга свойств из вкладки Свойства.

Парсинг размеров по названию – логика аналогична парсингу свойств из вкладки Свойства.

Вкладка Торговые предложения(если установлен модуль Торговый каталог):

Торговые предложения - Парсер - Сотбит

Выгружать офферы - выбор типа выгружаемых торговых предложений. На данный момент поддерживается два вида: Табличный вид и Офферы с одиночными характеристиками.

Офферы табличного вида

Параметр уникализации – важный параметр, определяющий по каким параметрам будет происходить уникализация офферов. 
Особенности: 
1. Указанные свойства добавляются в название оффера. 
2. Если название оффера отсутствует, то название полностью будет состоять из значений указанных свойств. 
3. По данному параметру происходит уникализации офферов. 
4. Если ничего не указано, то уникальность будет определяться по названию оффера.


Главный селектор контейнера торговых предложений – селектор контейнера офферов относительно селектора детальной страницы. Например: table. 

Главный селектор контейнера торговых предложений
  
Селектор блока шапки таблицы – селектор шапки таблицы относительно предыдущего параметра. Это поле требуется, если поиск параметров идет по названию. Например: thead tr 

Селектор блока шапки таблицы
  
Селектор наименования параметра в шапке таблицы – селектор конкретного наименования параметра относительно предыдущего параметра. Это поле требуется, если поиск параметров идет по названию. Например: th 

Селектор наименования параметра в шапке таблицы

Селектор отдельного оффера – селектор блок торгового предложения относительно главного селектора офферов. Например: tbody tr 

Картинка Сотбит:  15

Селектор значения параметра в теле таблицы – селектор конкретного значения параметра относительно предыдущего параметра. Например: td 

Селектор значения параметра в теле таблицы
  
Далее следует блок полей, связанных непосредственно с парсингом значений а таблице 
Парсинг полей по селектору - 
Удалять символы – какие символы необходимо удалять из значений параметров. Перечисление идет через || 
Наименование – селектор названия оффера 
Цена – селектор цены оффера 
Парсинг полей и свойств по названию – происходит поиск значений параметров по наименованию в шапке таблицы. 
Удалять символы – удалять лишние символы. Перечисление через || 
Далее идут параметры, которые необходимо найти. Для этого нужно указать название параметра в шапке таблицы

Офферы с одиночными характеристиками

Параметр уникализации – см. выше. 
Селектор контейнера отдельной характеристики оффера  - если выбор оффера осуществляется кликом по блоку, то нужно указать селектор как раз этого блока. Пример: select option, #charect div.size

Селектор контейнера отдельной характеристики оффера

Атрибут цены – атрибут предыдущего параметра(селектора). Используется, если цена заносится в атрибут.

Атрибут цены 


Вкладка Дополнительные настройки:

Сотбит - Битрикс - Парсер каталога

Парсить при возникновении 404 ошибки – при парсинге страниц в случае возникновения 404 ошибки продолжать парсинг. Пункт актуален из-за СЕО заморочек.

Запускать по агенту – запуск парсера по агенту. Рекомендуется агенты запускать из под крона.

Время задержки(сек) – время между запросами к страницам каталога. Иногда сайты используют контроль активности за единицу времени. Этот пункт как раз позволяет обойти вышеуказанный контроль.

Прокси-сервер – адрес прокси-сервера, через который будет осуществляться парсинг. Применяется для сохранения анонимности.

Остальные поля интуитивно понятны и не требуют разъяснения.

Вкладка Обновление/Уникальность:

Сотбит - Битрикс - Парсер каталога

Обновлять товары – чекбокс, который включает и выключает обновление товаров.

Проверка уникальности – изначально для уникализации использует поле XML_ID, в которое заносит md5 от названия товара и урла страницы товара. Если вы не хотите заполнять и перетирать поле XML_ID, то необходимо переопределить уникализацию. Например, вы можете уникализировать по названию или свойству(Артикул), либо по тому и другому по логике И.

Обновлять поля – позволяет выбрать поля, которые необходимо обновлять. Так же существуют условия обновления полей. К примеру, обновлять Детальное описание, если оно пустое.

Теперь появилась возможность отслеживания товаров выгруженных в текущей и прошлой выгрузке. Для этого во вкладку «Обновление / Уникальность» добавились доп. поля. 
  
Существует три значения данного режима: 
- ничего не делать – если товар отсутствует в текущей выгрузке, то с ним ничего происходить не будет 
- деактивировать – если товар отсутствует в текущей выгрузке и присутствовал в предыдущей, то он будет деактивирован 
- удалить – товар будет удален, если он отсутствует в текущей выгрузке

Вкладка Авторизация:

Парсер контента - авторизация

Производить авторизацию на стороннем сайте - если необходимо парсить сайт из под авторизованного пользователя, то необходимо отметить это поле.

URL авторизационной страницы - если авторизацию происходит на отдельной странице, то необходимо заполнить данное поле. По умолчанию идет страницы раздела, которые собираемся парсить.

Селектор формы авторизации - селектор формы авторизации. Пример на картинке ниже:

Парсер контента - Авторизация - Селектор формы

Логин - логин на стороннем сайте.

Пароль - пароль на стороннем сайте.

Проверить авторизацию - позволяет проверить авторизацию. Если вы уверены, что доступы и все параметры к стороннему сайту верны, а авторизация не проходит, то обратитесь в службу поддержки компании «Сотбит».

Вкладка Логи:

Сотбит - Битрикс - Парсер каталога

На данном этапе осуществляется простое логирование ошибок в файл последней выгрузки.

Вкладка Сервисы.

Перевод текста

Парсер контента - Перевод текста

Тип перевода -
выбор сервиса, который будет отвечать за перевод текста. На данный момент реализован только Яндекс.Переводчик.

Параметры для Яндекс.Переводчика

Ключ от API Яндекс.Переводчик - ключ, позволяющий пользоваться API Яндекс.Переводчика. Его вы можете получить совершенно бесплатно по адресу: https://tech.yandex.ru/keys/get/?service=trnsl

Направление перевода - в каком направлении будет осуществляться перевод текста. Языки разделяются тире. Пример: en-ru

Отправлять уникальный текст в Яндекс

Парсер контента - Отправить уникальный текст в Яндекс

Выбрать домены -
выбрать домен, относительно которого будет отправляться уникальный текст в Яндекс.

Вкладка Видео-инструкция.

Предоставлена видео-инструкция, что облегчит понимание работы и настройки Парсера.

Данная инструкция будет поддерживаться в актуальном состоянии и обновляться по мере развития модуля
«Парсер контента».

Компания «Сотбит» работает для Вас.

Последние новости

Все новости
Виктория Филимоненко Виктория Филимоненко
Время чтения: 4 мин
Поиск товаров на Битрикс – эффективный инструмент интернет-магазина
Модули

Поиск товаров на Битрикс – эффективный инструмент интернет-магазина

Узнайте, как оптимизация поиска на вашем сайте влияет на улучшение конверсии и повышение среднего чека интернет-магазина. Исправляйте ошибки, управляйте поисковой областью и приоритетами результатов выдачи вместе с модулем Сотбит: Умный поиск.

Сотбит: Умный поиск
Станислав Шашалевич Станислав Шашалевич
Время чтения: 2 мин
Личный кабинет поставщика от Сотбит: особенности, преимущества, кейсы
Маркетплейсы

Личный кабинет поставщика от Сотбит: особенности, преимущества, кейсы

Рассматриваем оптимальное решение Сотбит: Маркетплейс для внедрения собственного личного кабинета партнера.

Сотбит: Маркетплейс Энтерпрайз

Остались вопросы по статье?

Оставьте свой контакт и наш менеджер вас проконсультирует.

ФИО:*
E-mail:*
Телефон:
Подтвердите, что вы не робот:*
Сообщение: