封存網頁成為一個獨立檔案的方法

1 前言

網路上很多資料,絕大部份是以html網頁的型式出現,為了搜集這些網路上的html資料,就很希望將整個網頁的內容儲存起來。然而,一個html的網頁內容往往包括了文字、圖片、聲音、影片等分別獨立成小檔案的內容,亦即網頁瀏覽器會將一個html的網頁中所包括的這些儲存在網頁伺服器中的這些獨立小檔案,以html的標簽指令 (tag) 來重新進行畫面版面與資料顯示格式的安排與呈現。因此若想直接透過網頁瀏覽器以另存網頁或另存新檔的方式來儲存網頁內容時,往往只能儲存伺服器中原始html文字檔的部份,其他的網頁內容就無法同時儲在在一個*.html檔案中了。

雖然大部份的網頁瀏覽者會將網頁全選後,按Ctrl-C複製,然後再貼上至一個空白的 MS Office word檔或是Libreoffice中的odt檔,但是其網頁的格式在這些word檔或是odt檔中,往往會出現格式錯亂的現象。

再者,也有網頁的瀏覽者將網頁列印成PDF檔也是一種資料備份的方式,但是PDF檔卻無法獨立分割與處理這些網頁內的組成小檔案的資料內容。目前Firefox與Chrome有直接支援列印成PDF檔的功能,而IE瀏覽器則無支援直接列印成PDF檔的功能,必須透過安裝PDF印表機軟體的方式來列印成PDF檔。

要想將一個網頁中的所有資料子檔案儲存成一個獨立的檔案,其實已有一個國際的標準 RFC 2257所製定的MHT或MHTML檔案格式來解決此一封存整個網頁成為一獨立檔案的問題。通常要處理MTH檔案格式,一般必須要透過網頁瀏覽器,由於微軟的IE一直都支援MHT的檔案處理,所以很多人就一直認為只有微軟的IE才是唯一有支援此一MHT類型的檔案,但是其實別的瀏覽器經過一些設定或安裝相關附加套件後,仍舊可以處理MHT檔案。本文就是在說明如何儲存與讀取一個MHT檔案的方式。

又MHTML的原始意思是MIME HTML,而MIME的意思是Multipurpose Internet Mail Extension的意思,有興趣的讀者可以點按此MIME的超連結去更進一步的閱讀。

2 IE 瀏覽器處理MHT檔案的方式

IE瀏覽器原本就支援處理MHT檔案。

當於IE瀏覽器中瀏覽一個網頁時,只要點選「檔案->另存新檔」,並在「存檔類型」中選擇「網頁封存,單一檔案(*.mht)」,並輸入新的檔案名稱後就可以將網頁中的所有資料(但似乎不包括聲音與影片資料)封存成一個檔案。未來想要讀取該MHT檔時,只要從IE瀏覽器中,開啟該MHT檔案即可。

3 Firefox瀏覽器處理MHT檔案的方式

Firefox官方並不支援MHT檔案的處理,必須以安裝附加元件的方式來處理。目前被下載比較多的Firefox MHT附加元件有兩個,一個是 UnMHT,另一個是 Mozilla Archive Format。經過使用後的經驗,筆者比較喜歡 Mozilla Archive Format,因為此一附加元件多了*.MAFF壓縮檔的功能,而且原本就可以處理*.MHT的檔案格式。Mozilla Archive Format 的下載與線上安裝網址為(https://addons.mozilla.org/zh-tw/firefox/addon/mozilla-archive-format/)。而UnMHT其下載與線上安裝的網址為(https://addons.mozilla.org/zh-TW/firefox/addon/unmht/?src=search),只要連上該網址後,點按「新增至Firefox」就可以進入安裝的程序。

Mozilla Archive Format此一附加元件是一個功能很多也很強的小程式,也可以透過幾個進入點來進行操作與設定。

基本上,Mozilla Archive Fromat安裝完成後,點選另存新檔時就會出現一系列的Mozilla Archive Format的選單項,但Mozilla Archive Format 想要在Firefox中的各個不同功能選單中,進入Mozilla Archive Format的處理作業,就必須要在Firefox的「功能選單列」顯示的情況下,才能正常的點選相關的Mozilla Archive Format功能。若使用者所處的是Windows作業系統環境,則Windows 版的Firefox預設是不顯示「選單列」,所以使用者可以在Firefox中,點選「檢視」後,勾選「選單列」以顯示Firefox的全部功能選單,自然Mozilla Archive Format的功能選單與UnMHT的相關功能,就能正常的運作。

而UnMHT則必須要讓Firefox的功能選單列顯示出來,才能正常的運作。而在UnMHT運作時,在網頁畫面的最下方,會多出一列UnMHT的操作選單列及圖示。

Mozilla Archive Format元件安裝完成並重新啟動Firefox後,使用者可以在Firefox的功能選中點按「工具/Mozilla Archive Format」,就會出現許多的子選項,包括,開啟檔案集、另存網頁為、另存框頁為、另存分頁為、另存所有分頁為、轉換已存網頁、以及「設定」。點按「設定」後會出現另外一個完整的Mozilla Archive Format設定的畫面。當另存新檔時,使用者可以在檔案類型的欄位中,選擇「MHTML 網路檔案集 (*.MHT, *MHTML)」,並在檔案名稱中的附檔名改為*.mht或是 *.mhtml。另存新檔時,使用者也可以在檔案類型的欄位中,選擇「MAFF Zip 壓縮網路檔案集 (*.MAFF),並在檔案名稱中的附檔名改為*.maff

Mozilla Archive Format附加元件比較特別的就是提供MAFF Zip 壓縮網路檔案集 (*.MAFF)的格式,如此就可以減少許多檔案的儲存空間。基本上,*.maff是一個zip檔,因此可以直接用壓縮軟體來開啟,若不能直接用壓縮軟體開啟時,請將附檔名改為*.zip後就可以被壓縮軟體所開啟。

要開啟*.mht, *.mhtml, 以及 *.maff檔案時,直接在Firefox中點按「檔案/開啟檔案」後,選擇要開啟的這些網路檔案集即可。

4 Google Chrome瀏覽器處理MHT檔案的方式

Google Chrome預設並未開啟處理MHT檔案,必須在網址中輸入「about:flags」,以顯示Chrome的內部設定畫面,此時就在該畫面中找到「將網頁另存為 MHTML」的區段,並點按「開啟」,以啟動Chrome可以處理MHT檔案的功能。接著請重新啟動Chrome,當瀏覽某一網頁時,則可點按「檔案/另存網頁」,此時,在檔案名稱的欄位中,附檔一律改成*.mhtml,亦即以後皆以*.mhtml的檔案格式存檔。

另外,在Chrome 中,也可以進入「工具/擴充功能/取得更多擴充功能」,並在搜尋列上輸入「SingleFile」並同時安裝「SingleFile」以及「SingleFile Core」這兩個套件。當安裝完成後,請重新啟動Chrome,此時在網址列的左方就會出現一個新的圖示,將滑鼠移到該圖示上方時,就會出現「Process this page with SingleFile」的提示,此時點按該圖示後,就會出現一個訊息列,在訊息列的左方,會出現該網頁的標題資料及*.htm的附檔名,此時可按一下左方的鉛筆圖示來修改名稱,修改完成後,即可點按「Click here to save page」進入另存網頁的視窗,此時在檔案類型欄位中只能選擇*.htm,但是實際上卻是以*.mhtml的格式來儲存整個網頁的內容成一個獨立的檔案。

同樣的,要開啟*.mhtml或是 SingleFile所儲存的網頁封存檔*.htm檔,直接在Google Chrome開啟該檔案即可。

5 結語

若欲從不同的作業系統,例如,Linux, Windows,以及不同的瀏覽器皆想要能夠共同開啟這些儲存網路成單一檔案,亦即互相共享開啟而言,採用MHT或是mhtml格式的 plugin是比較好的選擇。而 maff 格式因為只能在 firefox中使用,所以限制就比較大,若未來發生 plugin 與 firefox 之間不一致而出現無法開啟時,就無法利用別的瀏覽器來開啟了,例如,2015/09/30 筆者就發現在firfox開啟之前所儲存的 maff檔案,無法以 firefox 來開啟。

所以建議,在 firefox 中建議安裝 UnMHT 的附加元件,而在 Chrome 中於 about://flags 網址所出現的畫面中來啟動 mhtml檔案存取的功能。如此,firefox, chrome, ie, 皆可以讀取 MHT 或 mhtml 的檔案了。

arrow
arrow

    xx3d2ybnf 發表在 痞客邦 留言(0) 人氣()