[C/C++] C++のHTMLパーサ

この記事は3年以上前に書かれた記事です。情報が古い可能性があります。

Linux(GCC)でC++のやつとなると、結構少ない。需要がないんだろうなと。Windows(C#)とかPerlとかJavaとかならいろいろあるのに。

そんな中で比較的軽量で使えそうなのが htmlcxx というやつ。

GitHub - dhoerl/htmlcxx: a simple non-validating css1 and html parser written in C++ tuned for iOS and Mac
a simple non-validating css1 and html parser written in C++ tuned for iOS and Mac - dhoerl/htmlcxx

sourceforge でも公開されている)

その前に日本語を扱う場合はlibiconvを入れておく。

libiconv - GNU Project - Free Software Foundation (FSF)

導入は下記のサイトあたりが参考に。
http://install.pocari.org/libiconv-1.10.html
http://cefiro.homelinux.org/resources/doc/libiconv/install-mingw32-05.html(MinGWの場合)

htmlcxxのインストールは大体定番の手順。(configure、make、make install)

$ cd ~
$ mkdir src
$ cd src
$ wget http://sourceforge.net/projects/htmlcxx/files/htmlcxx/0.84/htmlcxx-0.84.tar.gz
$ tar zxvf htmlcxx-0.84.tar.gz
$ cd htmlcxx-0.84
$ ./configure --prefix=/usr/local
$ make
$ su
# make install

/usr/local/lib に htmlcxx.so ができるので、ここにライブラリパスを通す。

# cd /etc/ld.so.conf.d/
# vi htmlcxx.conf

このファイルに

/usr/local/lib

と書いて保存。

# /sbin/ldconfig

(/sbin にパスが通っていれば ldconfig のみで)

で反映。

Eclipseで参照する場合は、こちらあたりが参考に。
Eclipseで自動Makeするときのincludeや外部ライブラリの設定

タイトルとURLをコピーしました