如果你忘記伊莉的密碼,請在登入時按右邊出現的 '找回密碼'。輸入相關資料後送出,系統就會把密碼寄到你的E-Mail。
gs1458 發表於 2017-4-19 11:22 AM
你找尋的方向應該改為找尋過濾XML的方法,
HTML本來就是Base在XML格式下的產物,
如果你要硬幹程式的話,
不好意思,Regex 無法解決他的問題,因為 Regex 先天上就是屬於 finite state machine (有限狀態自動機) 的範疇,你看它的語法,標籤內有可能會有標籤,標籤互相圈套,這種語法屬於 pushdown automata 的問題,你要怎麼用 Regex 解決 pushdown automata 的問題? 你可以試試看,不過如果你可以證明你能用 Regex 做的出來的話,學術界的 automata theory 和 formal languages 大概就會被完全推翻,一般解決這個問題可以用 LL1、LR0、SLR1、LALR1、或 LR1,最常用的軟體是 yacc 或 bison,不過你的問題不大,只要用到 LL1 或是 LR0 就好,又因為你要自幹,所以寫一個小型的 recursive descent parser 應該是最合理的作法,再來因為你有可能對編譯器理論不熟,所以建議用 shunting yard algorithm 套上這個問題,然後再改成你希望的格式... |