Content downloader на php

Content downloader на php

Некоторые сайты некорректно работают со старым движком Chromium.

Недавно мы его обновили и для этого пришлось переписать часть функций WBAppCEF.

Пока все не протестируем, публиковать обновленный Chromium на уровне релиза не собираемся.

Если требуется установить новую версию WBAppCEF до официального релиза, выполните следующие действия.
Подробнее »

Теперь конец границ парсинга задается автоматически

Content Downloader X1 версии 11.1.1711815 (15.01.2022)

– Теперь, в большинстве случаев, при задании начала границы парсинга автоматически задается ее конец;
– Несколько других доработок.

При задании границ парсинга приходилось задавать не только их начало (откуда парсить), но и конец (докуда парсить).

Теперь для большинства случаев прописаны различные сценарии автоматического задания конца.

– При задании h1 в конец задается

;
– При задании div (задается [AUTO]div);
– При задании JSON (когда крайний правый символ начала парсинга является скобкой < или [, задается [JSONAUTO]тип скобки);
– При парсинге значений параметров HTML тегов (когда крайние два символа =” или =’);
– При задании h2, h3, table, tr, td, p, ol, ul, li, span, a, title в конец границы парсинга автоматически помещается ). Подробнее »

Теперь можно выбирать шрифты для инструмента задания границ парсинга

Content Downloader X1 версии 11.1.1711799 (26.12.2022)

– В инструменте задания границ парсинга через контекстное меню кода WEB документа (правый клик) теперь можно выбрать другое имя используемого шрифта;
– Несколько других доработок.

Выбрать шрифт в инструменте задания границ парсинга Content Downloader

Выбор шрифта в инструменте задания границ парсинга

Добавлены новые функции

Content Downloader X1 версии 11.1.1711791 (19.12.2022)

– В инструменте задания границ парсинга теперь можно быстро создавать столбцы в шаблоне вывода (https://sbfactory.ru/cd/?p=6947);
– Очень много доработок и исправлений.

Быстрый парсинг значений JSON

Content Downloader X1 версии 11.1.1711788 (17.12.2022)

– В инструмент задания границ парсинга добавлены новые функции для быстрого парсинга значений JSON элементов (https://sbfactory.ru/cd/?p=6941);
– Несколько других доработок.

Новые возможности в инструменте задания границ парсинга

Content Downloader X1 версии 11.1.1711787 (15.12.2022)

– Теперь в инструменте задания границ парсинга можно делать Ctrl+Click по коду WEB документа для отображения впереди стоящих тегов (от места клика) для быстрого анализа кода и перемещению к этим тегам.

Content Downloader

Content Downloader (инструмент задания границ парсинга)

Новый оператор функций поиск-замены [GET_JSON_VALUE]

Content Downloader X1 версии 11.1.1711781 (14.12.2022)

– В функции поиск-замены добавлен оператор [GET_JSON_VALUE]|Имя (извлечение значения JSON переменной с указанным именем).

Оператор [GET_JSON_VALUE] может применяться во всех функциях поиск-замены.

Он служит для извлечения значений указанных JSON элементов.

Для извлечения нужного значения просто укажите в операторе имя JSON элемента.
Подробнее »

Источник

Использование PHP-скриптов с локального сервера (localhost) для обработки контента при парсинге

1) Качаем, устанавливаем и запускаем локальный сервер Denwer
2) Копируем ваши PHP-скрипты для обработки контента при парсинге в папку Z:\denwer\www\denwer (где Z – имя виртуального диска с Denwer)
3) Отправляем POST-данные PHP-скриптам на Денвере из шаблона вывода программы Content Downloader макросом PHP_SCRIPT и получаем от них обработанные данные

Как отправлять в PHP-скрипт различные POST-данные (любой текст или код):

Переходим во вкладку “контент”, нажимаем ctrl+2, в открывшийся шаблон вывода прописываем примерно следующее:

В этом примере мы отправили PHP-скрипту (Z:\denwer\www\denwer\14.php) две переменных: data1, в которой содержится текст (число) «5» и data2, в которой содержится (передается) текст «7».

Значения переменных обязательно должны помещаться в DATAENCODE (DATAENCODE кодирует отправляемый текст в процентную URL-кодировку, чтобы скрипт правильно принял данные и автоматически расшифровал их из URL-кодировки).

Каждая отправляемая переменная прописывается с новой строки в формате имя_переменной=[DATAENCODE]значение_переменной[/DATAENCODE]

Также обратите внимание на параметр [UTF-8], который прописывается после ссылки на вызываемый PHP-скрипт. Если этот параметр присутствует, то Content Downloader автоматически преобразует данные из UTF-8 кодировки при их получении от скрипта. Если этот параметр убрать, то данные декодироваться не будут.

Работа с отправленными данными в PHP-скрипте:

Для использования полученных от Content Downloader данных в PHP-скриптах применяются следующие операторы: $_POST[имя_переменной]. Например, мы отправляем в скрипт две переменных с числами 5 и 7:

Для того, чтобы, к примеру, сложить их в скрипте и полученную сумму умножить на 2, мы в PHP-скрипт пропишем следующее:

Как вернуть обработанные данные из PHP-скрипта в любимый Content Downloader:

Content Downloader вставит в результат парсинга (на место макроса PHP_SCRIPT) все то, что вернется от скрипта оператором echo, например:

В этом случае, если мы отправляем в переменной a значение 5, а в переменной b значение 7, то в результате работы макроса PHP_SCRIPT останется их сумма, умноженная на 2 – число 24

Примечание: В дереве макросов шаблона вывода (ctrl+2) вы можете найти множество PHP_SCRIPT: PHP_SCRIPT_0, PHP_SCRIPT, PHP_SCRIPT_2, PHP_SCRIPT_3, PHP_SCRIPT_4, PHP_SCRIPT_5. Все они работают одинаково, только выполняются в разное время (в определенном порядке). Зная это вы можете вызывать, например, макрос PHP_SCRIPT внутри макроса PHP_SCRIPT_2 (так как сначала выполнится PHP_SCRIPT, и только потом PHP_SCRIPT_2).

(оценок: 4, средний балл: 5.00)

Рубрики: Новости Теги: Content Downloader, парсинг

Источник

Использование PHP-скриптов с локального сервера (localhost) для обработки контента при парсинге

Content Downloader

1) Качаем, устанавливаем и запускаем локальный сервер Denwer
2) Копируем ваши PHP-скрипты для обработки контента при парсинге в папку Z:\denwer\www\denwer (где Z – имя виртуального диска с Denwer)
3) Отправляем POST-данные PHP-скриптам на Денвере из шаблона вывода программы Content Downloader макросом PHP_SCRIPT и получаем от них обработанные данные

Как отправлять в PHP-скрипт различные POST-данные (любой текст или код):

Переходим во вкладку “контент”, нажимаем ctrl+2, в открывшийся шаблон вывода прописываем примерно следующее:

data1=[DATAENCODE]5[/DATAENCODE] data2=[DATAENCODE]7[/DATAENCODE]

В этом примере мы отправили PHP-скрипту (Z:\denwer\www\denwer\14.php) две переменных: data1, в которой содержится текст (число) «5» и data2, в которой содержится (передается) текст «7».

Значения переменных обязательно должны помещаться в DATAENCODE (DATAENCODE кодирует отправляемый текст в процентную URL-кодировку, чтобы скрипт правильно принял данные и автоматически расшифровал их из URL-кодировки).

Каждая отправляемая переменная прописывается с новой строки в формате имя_переменной=[DATAENCODE]значение_переменной[/DATAENCODE].

Скрипту можно отправлять многострочный текст/код любой длины!

Также обратите внимание на параметр [UTF-8], который прописывается после ссылки на вызываемый PHP-скрипт. Если этот параметр присутствует, то Content Downloader автоматически преобразует данные из UTF-8 кодировки при их получении от скрипта. Если этот параметр убрать, то данные декодироваться не будут.

Работа с отправленными данными в PHP-скрипте:

Для использования полученных от Content Downloader данных в PHP-скриптах применяются следующие операторы: $_POST[имя_переменной]. Например, мы отправляем в скрипт две переменных с числами 5 и 7:

data1=[DATAENCODE]5[/DATAENCODE] data2=[DATAENCODE]7[/DATAENCODE]

Для того, чтобы, к примеру, сложить их в скрипте и полученную сумму умножить на 2, мы в PHP-скрипт пропишем следующее:

Как вернуть обработанные данные из PHP-скрипта в любимый Content Downloader:

Content Downloader вставит в результат парсинга (на место макроса PHP_SCRIPT) все то, что вернется от скрипта оператором echo, например:

В этом случае, если мы отправляем в переменной a значение 5, а в переменной b значение 7, то в результате работы макроса PHP_SCRIPT останется их сумма, умноженная на 2 – число 24

Примечание 1: В дереве макросов шаблона вывода (ctrl+2) вы можете найти множество PHP_SCRIPT: PHP_SCRIPT_0, PHP_SCRIPT, PHP_SCRIPT_2, PHP_SCRIPT_3, PHP_SCRIPT_4, PHP_SCRIPT_5. Все они работают одинаково, только выполняются в разное время (в определенном порядке). Зная это вы можете вызывать, например, макрос PHP_SCRIPT внутри макроса PHP_SCRIPT_2 (так как сначала выполнится PHP_SCRIPT, и только потом PHP_SCRIPT_2).

Примечание 2: Если вы используете PHP_SCRIPT для импорта данных в базу MySQL, не забывайте экранировать спец символы в отправленных данных функцией mysql_real_escape_string (http://sbfactory.ru/cd/?p=419):

Есть 2 коммент. к сообщению: “Использование PHP-скриптов с локального сервера (localhost) для обработки контента при парсинге”

Привет
Почему не работает вот такое выражение?
[VAR:counter1]|[GRAN1]|[GRAN2]|counter=[DATAENCODE][VAR:counter1][/DATAENCODE] вот такое работает,
[VAR:counter1]|[GRAN1]|[GRAN2]|counter=[DATAENCODE]test[/DATAENCODE]
т.е не желает передавать именно переменную counter1 Мне нужен счётчик, обнулямый при переходе на следущий урл для парсинга
[VAR][SET:counter1]3[/SET][/VAR]||
а в шаблоне повторяющихся страниц
||[VAR:counter1]|[GRAN1]|[GRAN2]|counter=[VAR:counter1]
в php скрипте
простой код увеличивающий на один значение переменной counter
возможно как-то по другому можно сделать?

Источник

Читайте также:  Как через консоль обновить питон
Оцените статью