sedでhtmlのタグを除去する
※実経験の記憶を頼りに自宅の PC 環境(VMWareなど)で再現している内容もあるのでご注意下さい
2009-06-17
文字列の置換に sed はよく利用していますが、複雑な正規表現が少し苦手です。今回は html のタグを除去する正規表現を試してみましたが、果たしてこれで問題ないのかどうか・・・。
[saratoga.txtの中身] <a href="http://it.pakapaka.jp/">http://it.pakapaka.jp/</a> $ cat saratoga.txt | sed -e 's/<[^>]*>//g' http://it.pakapaka.jp/
最初は、<.*> でやっていましたが、これだとリンクタグで挟んでいる文字列も除去されてしまったので考え直してみました。
関連記事
上記の記事に関連する記事(最新の10件)です。


