Script doc to html

docx2html

docx2html is a javascript converter from docx to html on nodejs and browser.

installation

example

const docx2html=require("docx2html") docx2html(input.files[0]) /** you can do further with utilities in converted html .then(html=>  //html.toString() //html.asZip/download/save >) */
  • docx2html(docx, options), return a promise object, options support
    • container: a HTMLElement to append converted html, default value is document.body
    • asImageURL(data): to convert image data to url, only required for nodejs
    • content: the converted dom
    • toString(/options: /)
    • asZip(options)
    • download(options)
    • save(options)
    • release(): to release image resources

    It is based on docx4js 1.x to parse docx, and utilize docx4js api to traverse docx models and convert docx models to html elements.

    Ideally, each docx model should have a specific converter to create accordingly html elements, so the design is simply to map from type of docx model to html element constructor.

    While, the difficulty is that some docx models are difficult to be expressed in html. It’s luckly that we have CSS3 that make some rich styles possible in html, such as numbering, all(12) kinds of table styles.

    Word shape utilizes SVG to draw lines, rects, and etc, but so far it only supports limited shapes, while the left job is time.

    P of html, according to HTML specification, is restricted not to include any block container, such as div, so there’s no p tag, but all div with paragraph styles, and then do some arrangement when dom is ready with a small javascript code.

    It keeps header and footer for every section, but there’s no conditional consideration, such as odd and even header/footer.

    Word Field is kept, while so far only link is supported.

    Feature

    environment

    • section
    • header
    • footer
    • paragraph
    • link
    • numbering
      • many
      • rect
      • circle
      • round rect
      • h1 ~ h6
      • hyperlink
      • document default
      • named style
      • section style
        • page layout
        • columns
        • column style
        • all(12) word built in styles
        • styles on first/last/even/odd row/column
        • styles on 4 cornor cells
        • rotate
        • text direction
        • positioning
          • vertical
            • page/margin — top/bottom/absolute
            • page
              • left/right/center/inside/outside/absolute
              • left/right/center/absolute

              ToDo

              Источник

              Как записать строку из JavaScript в HTML

              Довольно часто приходится сталкиваться с необходимостью записать некий текст, а иногда и html-код из JS в какой-либо элемент html-разметки. Существует несколько способов это сделать. Давайте рассмотрим их подробнее.

              Способ 1. Использование метода document.write

              Метод document.write существует в JavaScript с незапамятных времен и позволяет вывести не только текст, но и любые теги разметки на вашу html-страницу, например:

              Результат внедрения этого скрипта будет таким:

              Все бы хорошо, но у этого метода есть одна особенность — он хорошо работает в процессе загрузки html-страницы. Метод document.write вставляет текст в то место html-разметки, где был вызван, ещё до формирования DOM-структуры, которую браузер строит в процессе парсинга страницы. Поэтому строки, записанные тем кодом, который приведен выше, внедряется в html-документ так, как если бы они присутствовали изначально в разметке.

              Хуже обстоит дело с попытками использовать метод document.write при клике на кнопку, например. В этом случае текущая страница заменяется на новую с тем текстом, который вы использовали внутри скобок document.write . Попробуйте сами в примере ниже.

              Существует также метод document.writeln() , который отличается от document.write() тем, что добавляет символ перевода строки «\n» . В большинстве случаев это никак визуально не видно, т.к. в html-коде для перевода строки нужен тег
              , а не перевод строки символом \n . Разницу можно заметить в таком элементе формы, как textarea , где перевод строки как раз выполняется с помощью этого символа.

              Для сравнения сделаем несколько строк текста без всяких тегов с помощью обоих методов, а затем применим их для вывода текста внутри textarea .

              В примере можно заметить, что при использовании document.writeln() появляется дополнительный пробел между двумя строками в обычном тексте и перевод строки внутри textarea .

              Метод document.write

              Метод document.writeln

              Оба этих метода можно использовать, когда вы учите JavaScript, для того чтобы вывести массив, например, или какую-либо разметку на страницу, а не в консоль. На html-странице, которая уже сформирована, вряд ли стоит применять document.write() или document.writeln() , т.к. они перезапишут ее содержимое.

              И мы опять возвращаемся к популярному вопросу «Как записать строку из JS в HTML?». И переходим к свойству innerHTML .

              Способ 2. Использование свойства innerHTML

              Для любого элемента можно получить и записать свойство innerHTML , которое в соответствии с переводом с английского позволяет управлять внутренним html-кодом выбранного элемента. Это свойство замещает весь html-код, который был внутри выбранного элемента, на тот, который вы присвоили ему в качестве значения.

              Например, такой код сотрет все содержимое данной статьи:

              Поскольку свойство innerHTML принимает в качестве значения строку, вы вполне можете воспользоваться оператором «+» для конкатенации строк и формировать содержимое элемента таким образом:

              Следующий пример позволяет заменить внутреннее содержимое элемента (абзаца) с id=»temp-text» , который содержит внутренние теги, на другой текст с внутренней разметкой.

              Нажмите на кнопку «Получить html-разметку абзаца» до и после замены текста — и вы увидите внутренние теги, которые при добавлении внутрь выбранного абзаца отображаются в соответствии с правилами css и html.

              Текст с жирным и курсивным форматированием.

              Получить html-разметку абзаца Изменить html-разметку абзаца

              Есть еще одно отличие свойства innerHTML от метода document.write . Оно заключается в том, что при ошибочном добавлении тегов, в innerHTML браузер скорректирует синтаксис так, чтобы все теги были закрыты.

              В предыдущем примере была допущена такая ошибка — не закрыт тег ,- и браузер это исправил, добавив 2 по сути ненужных тега, но при этом сохранив валидность html-кода.

              Ошибки в innerHTML

              Особенности поведения свойства innerHTML

              Нельзя вставлять с помощью innerHTML теги — такой код не выполнится. Хотя есть и обходной способ, когда можно использовать для этой цели события. Подробнее можно прочитать в статье на MDN.

              Также свойство innerHTML отсутствует у элементов без содержимого (изображения,
              , ), оно может использоваться только для элементов с открывающим и закрывающим тегом.

              В приведенном ниже примере мы попытаемся заместить изображение абзацем, но безуспешно.

              headphones . innerHTML = ‘

              Теперь это абзац

              ‘ ;

              Попробуйте сами. Ничего не происходит, не так ли?

              headphones

              Заменить изображение

              Способ 3. Свойство textContent

              В том случае, когда вам НЕ нужно записывать строку из JS в html с дополнительной разметкой в виде html-тегов, лучше воспользоваться свойством textContent . Оно позволяет манипулировать только текстом элемента.

              В примере ниже вы можете добавить текст с тегами в текстовом поле. Этот текст отобразится в блоке с рамкой, когда вы будете печатать. Если нажать на кнопку «innerHTML» , вы увидите преобразование тегов в текст с форматированием.

              Так выглядит этот пример при применении свойства textContent


              Тот же текст + теги, но при применении свойства innerHTML

              Особенности поведения свойства textContent

              • textContent вернет null , если элемент является документом, типом документа, или его описанием. Для получения всего текста и CDATA-данных во всём документе можно использовать это свойство в таком виде: document.documentElement.textContent .
              • Если элемент представляет собой CDATA, комментарий или текстовый элемент, свойство textContent возвращает текст внутри узла в виде строки (т.н. nodeValue ).
              • Для элементов других типов textContent возвращает конкатенацию свойств textContent всех дочерних узлов, исключая комментарии и строки кода. Т.е. происходит склеивание текста всех вложенных элементов. Если узел не имеет дочерних узлов, будет возвращена пустая строка.
              • Установка данного значения удаляет все дочерние узлы и заменяет их единичным текстовым узлом с указанным значением.

              Пример ниже демонстрирует, каким образом отображается текст блока со вложенными (дочерними) элементами при использовании свойства textContent .

              Block Header

              Lorem ipsum dolor sit amet, consectetur adipisicing elit.

              Consequuntur maxime, cumque facilis eos itaque inventore rerum.

              Способ 4. Свойство innerText

              Свойство innerText подобно innerHTML , но не подразумевает вставку html-тегов, только текст. И с этой точки зрения оно работает так же, как и свойство textContent . Только у них несколько разная поддержка браузерами. По данным caniuse.com innerText поддерживает большинство браузеров, за исключением Firefox до 44 версии, доля использования которого в мире на данный момент составляет 0,17%.

              Поддержка свойства innerText

              Свойство textContent имеет также очень приличную поддержку браузерами, но не работает в IE версий 6-8, которыми на данный момент пользуется 0,17% от всех компьютеров в мире.

              Поддержка свойства textContent

              Свойство innerText было введено в свое время Internet Explorer-ом, а затем в 2016 было внедрено в стандарт HTML после адаптации всеми ведущими браузерами. По своим функциям это свойство подобно тексту, полученному пользователем при выделении содержимого элемента курсором и копировании его в буфер обмена. Работает innerText по тому же принципу, что и textContent , но есть некоторые отличия:

              • textContent получает содержимое всех элементов, включая и , тогда как innerText этого не делает.
              • innerText умеет считывать стили и не возвращает содержимое скрытых элементов, тогда как textContent этого не делает.
              • Метод innerText позволяет получить CSS, а textContent — нет.

              Способ 5. Свойство outerHTML

              Свойство outerHTML также, как и innerText , было введено в InternetExplorer и является нестандартным, хотя на данный момент.

              Поддержка свойства outerHTML

              Давайте посмотрим, что нам вернет свойство outerHTML на примере.

              outerHTML property

              Lorem ipsum dolor sit amet, consectetur adipisicing elit.

              Consequuntur maxime, cumque facilis eos itaque inventore rerum.

              Источник

              Читайте также:  Python string formatting with list
Оцените статью