こんにちは。
先月からJavaの勉強を始めた初心者です。
練習用に何か作ってみようと思い、HTMLを解析するというプログラムを作っています。
その過程でjsoupというライブラリを使ってみました。
jsoupでできること
・HTMLを解析
・要素、属性、テキストの操作
・整頓されたHTMLを出力
今回は、HTMLを解析することが目的のため、そこまでの流れを紹介したいと思います。
①導入
・ダウンロード
http://jsoup.org/download
・インストール
jsoup-1.11.3.jarにパスを通す(2018/11/19現在最新)
②HTML取得
Document document = Jsoup.connect(“http://www.google.co.jp”).get();
(文字コードの指定をしたい場合はこちら)
Document document = Jsoup.parse(new URL(“http://www.google.co.jp”).openStream(), 「文字コード」, “http://www.google.co.jp”);
③リクエストパラメータを設定
Elements elements = document.select(“.page-title”);
今回は、解析まででしたが、今後、もっと掘り下げていきたいと思います。