首頁>Program>source

我正在尝試讀取附加到任意PDF的元資料:標题,作者,主题和關鍵字。

是否有一个PHP庫(最好是開源庫)可以讀取PDF元資料? 如果是這樣,或者如果没有,那麼如何使用该庫(或缺少庫)来提取元資料?

需要明確的是,我對建立或修改PDF或其元資料不感兴趣,也不關心PDF正文.我看過许多庫,包括FPDF(每个人似乎都建議這樣做),但它似乎仅用於PDF建立,而不是元資料提取。

最新回復
  • 11天前
    1 #

    zend框架包括zend_Pdf,這使得 這真的很簡單:

    $pdf = Zend_Pdf::load($pdfPath);
    echo $pdf->properties['Title'] . "\n";
    echo $pdf->properties['Author'] . "\n";
    

    局限性:仅適用於小於16MB的未加密檔案。

  • 11天前
    2 #

    不了解庫,但是達到相同結果的一種簡單方法可能是打開檔案並解析之後的所有內容 最後一个"流"。

    尝試在文字編輯器上打開pdf,解析器的行數不應超過五行。

  • 11天前
    3 #

    PDF解析器完全可以满足您的要求,並且使用起来非常簡單:

    $parser = new \Smalot\PdfParser\Parser();
    $pdf    = $parser->parseFile('document.pdf');
    $text   = $pdf->getDetails();
    

    您可以在演示頁面中尝試.

  • 11天前
    4 #

    我今天也在尋找相同的东西.我在 http://de77.com/遇到了一个小型PHP類 提供了一種快速而肮脏的解決方案.你可以 download the class 直.輸出采用UTF-8編碼。

    創作者說:

    Here’s a PHP class I wrote which can be used to get title & author and a number of pages of any PDF file. It does not use any external application - just pure PHP.

    // basic example
    include 'PDFInfo.php';
    $p = new PDFInfo;
    $p->load('file.pdf');
    echo $p->author;
    echo $p->title;
    echo $p->pages;
    

    對我来說,有效! 所有的感谢完全归功於班級的建立者……好吧,也许我也感谢我找到班級的原因;)

  • 11天前
    5 #

    <?php 
        $sourcefile = "file path";
        $stringedPDF = file_get_contents($sourcefile, true);
        preg_match('/(?<=Title )\S(?:(?<=\().+?(?=\))|(?<=\[).+?(?=\]))./', $stringedPDF, $title);
        echo $all = $title[0];
    

  • 如何在windows遊戲上叠加圖形?
  • Xcode 6.1:Xcode 61-如何卸載命令列工具?