PDF To XML Extraction Results

PDF.co Web API – PDF To XML API – PHP – Convert PDF To XML From Uploaded File

How to Convert PDF to XML from Uploaded File for PDF to XML API in PHP and PDF.co Web API

What is PDF.co Web API? It is the REST API that provides a set of data extraction functions, tools for documents manipulation, splitting and merging of PDF files. Includes built-in OCR, images recognition, it can generate and read barcodes from images, scans and PDF.

Learn How to Convert PDF to XML from the Uploaded File to Have PDF to XML API in PHP

The sample source code below will show you how to cope with a difficult task, for example, PDF to XML API in PHP. PDF.co Web API was made to help with PDF to XML API in PHP. PDF.co Web API is the Web API with a set of tools for document manipulation, data conversion, data extraction, splitting, and merging of documents.

Читайте также:  Python scripts in jenkins

PHP code samples for PHP developers help to speed up the application’s code writing when using PDF.co Web API. For the implementation of this functionality, please copy and paste the code below into your app using the code editor. Then compile and run your app. This basic programming language sample code for PHP will do the whole work for you in implementing PDF to XML API in your app.

Also, there are other code samples to help you with your PHP application. The source code for this sample is available here. You can also find source code for PDF to XML conversion into other languages at this location.

pdf-to-xml.php

else < // Display request error echo "

Status code: " . $status_code . "

"; echo "

" . $result . "

"; > > else < // Display CURL error echo "Error: " . curl_error($curl); >> else < // Display service reported error echo "

Status code: " . $status_code . "

"; echo "

" . $result . "

"; > curl_close($curl); > else < // Display CURL error echo "Error: " . curl_error($curl); >function ExtractXML($apiKey, $uploadedFileUrl, $pages) < // Create URL $url = "https://api.pdf.co/v1/pdf/convert/to/xml"; // Prepare requests params $parameters = array(); $parameters["url"] = $uploadedFileUrl; $parameters["pages"] = $pages; // Create Json payload $data = json_encode($parameters); // Create request $curl = curl_init(); curl_setopt($curl, CURLOPT_HTTPHEADER, array("x-api-key: " . $apiKey, "Content-type: application/json")); curl_setopt($curl, CURLOPT_URL, $url); curl_setopt($curl, CURLOPT_POST, true); curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); curl_setopt($curl, CURLOPT_POSTFIELDS, $data); // Execute request $result = curl_exec($curl); if (curl_errno($curl) == 0) < $status_code = curl_getinfo($curl, CURLINFO_HTTP_CODE); if ($status_code == 200) < $json = json_decode($result, true); if ($json["error"] == false) < $resultFileUrl = $json["url"]; // Display link to the file with conversion results echo "

Conversion Result:

" . $resultFileUrl . "
"; > else < // Display service reported error echo "

Error: " . $json["message"] . "

"; > > else < // Display request error echo "

Status code: " . $status_code . "

"; echo "

" . $result . "

"; > > else < // Display CURL error echo "Error: " . curl_error($curl); >// Cleanup curl_close($curl); > ?>

Output

Now that we’ve seen the source code with its output, let’s move its analysis.

This sample mainly consists of three files – the input HTML file, the PHP file, and the sample PDF file. The input HTML file displays control such as the placeholder for the PDF.co API key, the input file control, the placeholder for pages to be selected, etc. The PHP file handles all logic for PDF to XML conversion. Lastly, the PDF file containing invoice data is used as the input for this demonstration.

Moving to the main logic in the PHP file, We can logically distribute the code into two parts. First, we’re uploading the input PDF file to the PDF.co cloud and retrieving the public URL. Secondly, we’re using this public URL to process PDF to XML conversion.

To upload the input PDF file to PDF.co cloud, we’re using the PDF.co endpoint /v1/file/get-presigned-url. This endpoint takes a file name as input and it responds back mainly with the pre-signed URL ($json[“presignedUrl”]) and the public URL ($json[“url”]). Then we’re using this pre-signed URL to upload the input files using a PUT request. Once the file upload is completed, this public URL will point to the uploaded file and can be used anywhere. Please note, this public URL is temporary and the file is stored for only a few minutes on the PDF.co cloud.

PDF.co endpoint /v1/pdf/convert/to/xml is used to convert PDF to XML format. Input parameters consist of the URL of the PDF file and the number of pages that need to be processed. The request input is in JSON format and for that, we’re first preparing the PHP array for each input parameter and finally, we’re converting this array to JSON using json_encode method. PDF.co API key is being passed in the request header with x-api-key as the header key. This header key/value is being used by PDF.co to authenticate requests.

The response contains URL ($json[“url”]) which points to the output XML format data. By closely observing the output, we can confirm that all invoice data from the input PDF is present in a nicely formatted XML. This XML also has useful information such as the position of data in the PDF file, and font information such as font type, color, size, etc.

In this sample, we’re doing the basic conversion from PDF to XML and we’re preparing the request with minimal data. PDF.co also provides the advanced request parameters and we can customize the output based on our requirements. Please refer to PDF.co API documentation for more information.

To get more out of this sample, please try this program on your machine. Thank you for reading!

VIDEO

Источник

Преобразование XML-документов в PDF с помощью библиотеки PHP

PHP API с открытым исходным кодом для создания, редактирования и обработки PDF-документов, добавления штрих-кода, диаграмм, таблиц, верхних и нижних колонтитулов и закладок в PDF-файлы.

Библиотека PHPPdf предоставляет возможность преобразовывать ваши документы XML в документ PDF или графические файлы внутри вашего собственного приложения без каких-либо внешних зависимостей. Используя PHP PDF Library, программисты могут легко создавать собственные PDF-приложения, поддерживающие набор экстраординарных функций, с помощью очень небольшого количества строк PHP-кода.

PHPPdf помогает разработчикам создавать собственные мощные конвертеры PDF с минимальными затратами и усилиями. Библиотека полностью поддерживает несколько важных функций, связанных с созданием и обработкой PDF-файлов, таких как создание PDF-файлов с нуля, поддержка штрих-кодов в PDF-файлах, рисование простых диаграмм, поддержка внешних и внутренних гиперссылок, поддержка создания закладок, добавление заметок, верхних и нижних колонтитулов. поддержка, добавление водяных знаков, разбиение страниц и столбцов, метаданные и многое другое.

В библиотеку PHPPdf также включена поддержка определения таблиц стилей. Вы можете легко определить свои таблицы стилей во внешнем файле и включить как короткие, так и длинные объявления атрибутов. Он также поддерживает цветовые палитры, которые дают пользователям возможность создавать или перезаписывать именованные цвета по умолчанию.

С одного взгляда

  • XML в PDF
  • Кодировка UTF-8
  • Добавить закладки
  • Поддержка штрих-кода
  • CSS-таблицы стилей
  • Установить размер страницы
  • Ориентация страницы
  • Верхние и нижние колонтитулы
  • Добавить изображения
  • Добавить таблицы
  • Извлечь текст
  • Водяные знаки
  • Метаданные

mPDF поддерживает формат файла PDF, а также стандартные отраслевые форматы для экспорта.

Независимость от платформы

Для PHPPdf требуется только среда выполнения PHP.

Начало работы с PHPPDF

PHPPdf доступен на сайте packagist.org, поэтому вы можете использовать композитор для загрузки этой библиотеки и всех зависимостей. Пожалуйста, используйте следующую команду для плавной установки.

Установите PHPPdf через композитор

$ composer require psliwa/php-pdf

Создание PDF-файлов из XML через PHP API

Библиотека PHPPdf позволяет разработчикам программного обеспечения создавать PDF-документы путем преобразования XML-документа в свои собственные PHP-приложения. Библиотека поддерживает кодировку UTF-8 и для этой цели предоставляет несколько бесплатных шрифтов. Вы можете легко установить размер страницы, используя стандартные предопределенные значения, такие как Legal, Letter, A4 и т. д., а также можете установить пользовательские размеры страницы. Вы также можете легко определить тип, размер и стили шрифта, такие как обычный, жирный, курсив, полужирный курсив, светлый или светлый курсив.

Разобрать документ для создания PDF через PHP

 //register the PHPPdf and vendor (Zend_Pdf and other dependencies) autoloaders require_once 'PHPPdf/Autoloader.php'; PHPPdf\Autoloader::register(); PHPPdf\Autoloader::register('/path/to/library/lib/vendor/Zend/library'); //if you want to generate graphic files PHPPdf\Autoloader::register('sciezka/do/biblioteki/lib/vendor/Imagine/lib'); $facade = new PHPPdf\Core\Facade(new PHPPdf\Core\Configuration\Loader()); //$documentXml and $stylesheetXml are strings contains XML documents, $stylesheetXml is optional $content = $facade->render($documentXml, $stylesheetXml); header('Content-Type: application/pdf'); echo $content; 

Добавить верхние и нижние колонтитулы в файл PDF

Верхние и нижние колонтитулы — это верхняя и нижняя части PDF-файла, которые придают PDF-документам профессиональный вид. Чтобы сделать более длинные PDF-документы упорядоченными и удобными для чтения, разработчики могут использовать раздел «Верхние и нижние колонтитулы» PDF-документа. PHPPdf включает поддержку добавления верхних и нижних колонтитулов в документы PDF. Он поддерживает такие функции, как добавление повторяющегося верхнего/нижнего колонтитула, вставка изображений в верхний/нижний колонтитул, добавление номеров страниц и многое другое.

Поддержка штрих-кода в файлах PDF через PHP

Верхние и нижние колонтитулы — это верхняя и нижняя части PDF-файла, которые придают PDF-документам профессиональный вид. Чтобы сделать более длинные PDF-документы организованными и удобными для чтения, разработчики могут использовать раздел «Верхние и нижние колонтитулы» PDF-документа. PHPPdf поддерживает добавление верхних и нижних колонтитулов в документы PDF. Он поддерживает такие функции, как добавление повторяющегося верхнего/нижнего колонтитула, вставка изображений в верхний/нижний колонтитул, добавление номеров страниц и многое другое.

Извлечь метаданные из документа PDF

Библиотека PHPPdf дает разработчикам программного обеспечения возможность читать и извлекать метаданные из документа PDF с помощью PHP. Метаданные содержат очень важную информацию о документе PDF. Библиотека поддерживает такие метаданные, как Creator, Keywords, Subject, Author, Title, ModDate, CreationDate и Trapped.

Источник

Table of Contents

Xml2Pdf is a library to convert XML file to PDF document. The XML content is parsed using the PHP XML parser functions, then the PDF is build using FPDF.

BSD License

Redistribution and use in source and binary forms, with or without modification, are permitted provided that the following conditions are met:

* Redistributions of source code must retain the above copyright notice, this list of conditions and the following disclaimer.

* Redistributions in binary form must reproduce the above copyright notice, this list of conditions and the following disclaimer in the documentation and/or other materials provided with the distribution.

* Neither the name of the Xml2Pdf nor the names of its contributors may be used to endorse or promote products derived from this software without specific prior written permission.

THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS «AS IS» AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.

Installation instructions

Xml2Pdf is easy to install and use. You can use it with your web-server or directly on command-line.

Web usage instruction

Put the xml2pdf directory into a directory accessible by your web-server. That’s all.

Now you can make pdf in your php script using :

Command-line usage instruction

To use Xml2Pdf as a command-line interface, you need to install PHP version 5.1.0 or greater.

*IMPORTANT* any version of PHP below 5.1.0 will not work with version 0.6.10.8 of Xml2Pfd.

You need the cli version of PHP (php-cli.exe or cli/php.exe in 5.1.0+). Either run Xml2Pdf from the directory that PHP resides in, or put php.exe in your DOS PATH enviroment variable.

The simplest usage of Xml2Pdf is: C:\>php.exe «C:\Path\To\Xml2Pdf\xml2pdf» -F myFile.xml

Make sure that the cgi/cli version of PHP is in your path.

The simplest usage of Xml2Pdf is: xml2pdf -f myFile.xml

Documentation generated on Wed, 11 Oct 2006 22:27:05 +0200 by phpDocumentor 1.3.0

Источник

Оцените статью