この記事は3年以上前に書かれた記事です。情報が古い可能性があります。
Linux(GCC)でC++のやつとなると、結構少ない。需要がないんだろうなと。Windows(C#)とかPerlとかJavaとかならいろいろあるのに。
そんな中で比較的軽量で使えそうなのが htmlcxx というやつ。
GitHub - dhoerl/htmlcxx: a simple non-validating css1 and html parser written in C++ tuned for iOS and Mac
a simple non-validating css1 and html parser written in C++ tuned for iOS and Mac - dhoerl/htmlcxx
(sourceforge でも公開されている)
その前に日本語を扱う場合はlibiconvを入れておく。
libiconv - GNU Project - Free Software Foundation (FSF)
導入は下記のサイトあたりが参考に。
http://install.pocari.org/libiconv-1.10.html
http://cefiro.homelinux.org/resources/doc/libiconv/install-mingw32-05.html(MinGWの場合)
htmlcxxのインストールは大体定番の手順。(configure、make、make install)
$ cd ~
$ mkdir src
$ cd src
$ wget http://sourceforge.net/projects/htmlcxx/files/htmlcxx/0.84/htmlcxx-0.84.tar.gz
$ tar zxvf htmlcxx-0.84.tar.gz
$ cd htmlcxx-0.84
$ ./configure --prefix=/usr/local
$ make
$ su
# make install
/usr/local/lib に htmlcxx.so ができるので、ここにライブラリパスを通す。
# cd /etc/ld.so.conf.d/
# vi htmlcxx.conf
このファイルに
/usr/local/lib
と書いて保存。
# /sbin/ldconfig
(/sbin にパスが通っていれば ldconfig のみで)
で反映。
Eclipseで参照する場合は、こちらあたりが参考に。
Eclipseで自動Makeするときのincludeや外部ライブラリの設定