Как разобрать PDF на текст и картинки

Прислано: Gans-S

чт, 11/03/2010 - 20:05

Другие статьи по теме:

А не попадался ли кому-нибудь модуль, позволяющий вытащить из PDF-ки текст и картинки?

Комментарии


Настройки просмотра комментариев

Выберите нужный метод показа комментариев и нажмите "Применить"
Опубликовано mensh@drupal.org в чт, 11/03/2010 - 20:19.

1. Каким боком вы относите это к Drupal?
2. pdfimages, pdftotext.


Опубликовано Gans-S в чт, 11/03/2010 - 20:43.

1. Отношу скорее по неопытности.Нужен такой функционал для сайта на Drupal: вытащить и собрать по новой - текст и картинки, без форматирования.
2. Это Perl? Незнакомы...


Опубликовано mak-vardugin в чт, 11/03/2010 - 21:06.

Если вы такой умный то зачем спрашиваете?


Опубликовано mensh@drupal.org в пт, 12/03/2010 - 09:43.

"Gans-S" написал(а):

2. Это Perl? Незнакомы...

Пакет poppler (в некоторых дистрибутивах -- poppler-utils).

Этот пакет содержит утилиты: pdftops (конвертер PDF в PostScript), pdfinfo (извлекает информацию о документе из PDF), pdfimages (извлекает изображения из PDF), pdftohtml (конвертер PDF в HTML), pdftotext (конвертер PDF в текст), и pdffonts (анализатор шрифтов PDF).


Новое на сайте

Ссылки партнёров