Россия

region-img

Парсер контента: Внедрение парсинга XML(YML) файлов

author
Команда Сотбит 2 февраля 2016
Время чтения: 5 мин
Парсер контента: Внедрение парсинга XML(YML) файлов

Парсер контента – наше глобальное и передовое решение, которое позволяет парсить каталоги, страницы и rss ленты. Казалось бы, что еще можно требовать от данного модуля?! Но не тут-то было. Наши клиенты не стоят на месте и постоянно требуют от нас развития решения. А мы этому только рады. И вот теперь мы хотим сообщить, что удовлетворили еще одну очень важную просьбу наших клиентов: Парсинг XML файлов. Теперь Парсер может работать не только с rss, page, catalog типами данных, но и с xml. И что самое главное: внедрение такого полезного функционала никак не повлияет на стоимость решения. Цена решения в 14 990 руб. останется неизменной.

Парсинг xml файлов позволяет парсить и такой полезный для интернет-магазинов формат, как YML файлы. Именно поэтому xml парсер по умолчанию настроен для парсинга yml выдачи. Но тут же у наших клиентов может возникнуть вопрос: А чем же ваша загрузка YML файлов отличается от аналогичных решений в Маркетплейсе. Вот список некоторых преимуществ нашего модуля над аналогами:

  • возможность конвертации и пересчета валют
  • возможность изменения цен
  • возможность редактирования названия и свойств товаров
  • возможность указания свойств по умолчанию
  • возможность авторизации на стороннем сервере
  • выполнять различные действия над элементами, которые отсутствуют в текущей выгрузке(ничего не делать, удалить, деактивировать)
  • автоматический перевод текста
  • возможность периодического запуска (агенты, крон)
  • возможность указания полей и свойств для обновления
  • возможность использования прокси-сервера
Если сравнивать парсинг xml с catalog, то парсинг xml уже на первый взгляд проще: меньше вкладок, полей и другой информации. Скорость загрузки информации тоже быстрее, так как отсутствует множество тяжелых запросов на сторонние сайты.

Суть парсинга осталась аналогичная: обработка xml файла идет по селекторам и атрибутам. Так что, если вы уже настраивали парсер catalog, то настройка парсера нового типа для Вас пройдет просто и легко.

А теперь давайте подробнее рассмотри функциональность нового типа данных:

Вкладка Парсер:

Парсер контента - Вкладка Парсер

Тип парсера – соответственно и есть тип парсера: rss, page, catalog, xml

Режим парсера – режим, в котором работает парсер. Существует два режима работы: debug и work. По умолчанию для отладки используется debug режим. Именно в этом режиме необходимо настраивать парсер. В debug режиме осуществляется парсинг первых 30 элементов XML файла.

Стоит отметить, что, если вы используете модуль «Парсер контента» в триал версии, то парсер работает только в дебаг режиме.

URL XML файла – ссылка на файл. Файл может лежать, как у вас на сервере, так и находиться на удаленном сайте.

Дополнительные урлы XML файлов - вы можете также включить в выгрузку и другие урлы xml файлов. Для этого просто укажите их с новой строки. 

ID инфоблока-каталога – инфоблок, в который будет осуществляться загрузка разделов и товаров.

ID раздела – раздел инфоблока, в который будет осуществляться загрузка разделов и товаров.

Количество товаров, выгружаемых за один шаг парсера – количество товаров, который парсер обрабатывает за один шаг. По умолчанию 300

Шаг парсера – понятие, которое имеет место при ручном режиме запуска парсера. В этом случае каждый шаг происходит отключение и новое подключение к каналу выгрузки. Варьируйте это значение в зависимости от возможностей вашего хостинга. Если парсер работает от агента(крон), то шаг парсера игнорируется, и выгрузка осуществляется одним запросом.

Активен, Сортировка, Название, Время последнего запуска – интуитивно понятные поля и в комментариях не нуждаются.

Кодировка - кодировка xml файла. Устаревшее поле. На данный момент кодировка определяется автоматически, но, если возникают какие-то проблемы с кодировкой, то рекомендуется указать вручную. 

Вкладка Основные настройки - Категории

Парсер контента - Вкладка Основные настройки

Пример XML файла для категорий:

Парсер контента - Пример категорий в XML файле

Селектор категории – указывается контейнер одной категории

Селектор-атрибут названия категории – указывается путь к названию категории. Если пусто, то название берется из значения самой категории

Селектор-атрибут, содержащий id категории – путь к id категории.

Селектор-атрибут, содержащий id родительской категории – для организации вложенности разделов необходимо указать пусть к значению родительского id категории.

Вкладка Основные настройки - Товары

Парсер контента - Вкладка Основные настройки товаров

Пример XML файла для товаров:

Парсер контента - Пример товаров в XML файле

 

 

Селектор конкретного товара – путь к контейнеру конкретного товара

Селектор-атрибут, содержащий id товара – путь к id товара

Селектор-атрибут категории товара – путь к айди категории, к которой прикреплен товар

Селектор-атрибут названия товара – путь к наименованию товара

Селектор-атрибут цены – контейнер, содержащий значение цены товара

Селектор-атрибут описания – содержит описание товара

Селектор-атрибут превью картинки – путь к картинке

Селектор-атрибут детальной картинки – путь к картинке

Вкладка Свойства

Парсер контента - Вкладка Свойства

Свойство доп. картинок – если есть доп. картинки, то необходимо указать поля, в которые будет осуществляться выгрузка картинок.

Селектор-атрибут перечисления доп. картинок – указывается селектор и атрибут доп. картинок. Пример picture. Указывается относительно селектора товара.

Значения свойств по умолчанию – можно указать значения свойств, которые будут заноситься по умолчанию автоматически при создании товаров

Парсинг по селектору – вы можете указать конкретный селектор свойства, который находится внутри селектора товара в xml. Например: vendor, barcode

Удалять символы – также вы можете удалять лишние символы в свойствах(единицы измерения и прочее)

Парсинг свойств и автоматическое создание - позволяет автоматически создавать, заполнять и обновлять свойства, которые идут списком в xml файле.

Уникализация свойств в данном случае идет по наименованию.

Автоматическое создание свойств – если галочка отмечена, то, в случае отсутствия свойства, оно будет создавать. Если свойство уже есть

Селектор-атрибут перечисления свойств – общий селектор, в котором находятся информация о свойстве

Селектор-атрибут названия свойства – путь расположения названия свойства. Напоминаем, что это важный параметр, так как уникализация в данном случае идет именно по этому параметру.

Селектор-атрибут значения свойства – путь к значению свойства. Если ничего не задано, то значение берется непосредственно из селектора свойства

Выберите тип создаваемых свойств – если свойства не создавались, то они будут созданы. Необходимо выбрать тип новых свойств из значений: Список или Строка.

Удалять символы – позволяет удалять лишние символы из свойств.

Добавление/удаление символов полей и свойств – функционал, позволяющий добавлять и удалять символы и названия товара, а также у его свойств.

Вкладки Торговый каталог, Дополнительные настройки, Обновления/уникальность, Логи, Видео-инструкци идентичны парсеру типа catalog. Поэтому подробно их рассматривать не будем.

Вкладка Торговый Каталог

Парсер контента - Вкладка Торговый каталог

Вкладка позволяет гибко работать с ценами:

- Указывать параметры цены и валюты

- Конвертировать валюту

- Изменять цены

- Округлять цены

Вкладка Дополнительные настройки:

Парсер контента - Вкладка Доп настройки

Вкладка Обновление/Уникальность:

Парсер контента - Вкладка Обновления / Уникальность

Вкладка позволяет задать параметры уникализации, а также настроить обновление полей товаров. 

Последние новости

Все новости

Остались вопросы по статье?

Оставьте свой контакт и наш менеджер вас проконсультирует.

ФИО:*
E-mail:*
Телефон:
Подтвердите, что вы не робот:*
Сообщение: