JAWS Days 2016でちょっとだけオープンデータについて喋ってきました #jawsdays

先週東京で「JAWS Days 2016」がありましたね。

1100人規模での開催で半数以上が初参加だったという大盛況ぶりで、運営大変だっただろうなとも思いつつここまでデカイイベントやれたら楽しいだろうなとも思って参加してました。

さて、当日はスピーカーとして登録はされてませんでしたが、JAWS-UG関西女子会のヘルプやった関係でセッション中にちょっとだけ話す時間を頂いてました。

ということでこちらは当日の補足などの振り返り記事です。

Why Open Data is good for AWS?

当日のスライド(一部加筆あり)

スクリーンショット 2016-03-15 19.55.34
こちらが当日のスライドです。即席で作っただけあって色々直球というか身も蓋もないことが書かれてたりしますが気にしない。

AWS使ってると感じるジレンマ(俺だけかも)

AWS使っているとどうしてもデータ解析系をやってみたくなるんですよね。

というか「なんでやらないの?」と遠回しに言われてるんじゃないかと思うくらいデータ処理系のサービスが豊富です。

やっぱEC2と睨めっこしてるよりも、HadoopとかElasticsearchとかKinesissとかAmazon Machine Learningとか使ってみたいじゃないですか。

ただまぁ使ってみたいとは言ってもちょうどいい案件がなければ肝心の「処理するデータ」が手元にないんですよね。

勝手にクライアントの情報突っ込むとか裁判沙汰不可避ですし、自分で作れる情報なんてだいたいAWSで処理するまでもないような量ですし。

そこでオープンデータなんですよ

オープンデータという素材の山

普段滅多に見ることのない行政のサイトですが、いざ見に行ってみると結構いろんなデータ公開していたりします。

ざっと見ただけでも大津市東京都大阪市などなど。。

LinkData.orgというサイトをみると個人でデータを作られている方もいたりして結構見ているだけでも楽しかったりします。

ただこうやって公開されてるデータが実際にめっちゃ使われているかというと、そうでもなさそうなんです。

オープンデータ界隈だとSPARQLというクエリでデータを取ってくるかローカルにダウンロードしてからアプリに組み込むかみたいなところあるっぽいのですが、いかんせんめんどくさい。

じゃあどうすればいいの?ってなった時にスッと提案したいのがAWSなわけです。

Opendata + AWS

オープンデータはだいたいRDF/XLSX/CSV/XML/JSONのどれかで公開されてます。

前者2つはスクレイピングとか得意そうな人に任せるとして、AWSでぶん回せそうなのは後半の「CSV/XML/JSON」。

Amazon MLにはCSVで学習データを投入しますし、JSONのようなKVS形式のデータはDynamoDBやElasticsearchなどのNoSQL系サービスに保存して処理しやすいです。XMLもLambdaとかEC2でいい感じに処理すれば投入できます。

行政が公開しているcsvデータで面白そうなものを拾い集めて、片っ端からAmazon MLに突っ込んでみるとか楽しそうじゃないですか?

Mr.Tのスライド見ながらチューニング頑張っていい感じの予測データができれば、そのままAPI Gatewayとか使ってなにかしらのサービスが作れそうですし。

あとはElasticsearchに気象データ突っ込んでおいて、センサーで取得した気象データと照合させて気象予測的な何かをやってみるとか。

(他の人がどう言うか知りませんが)AWSでオープンデータをぶん回すって案外やってみると面白いと思いますよ?

Follow me!

Okamoto Hidetaka
デジタルキューブのインフラエンジニア。勉強会に和太鼓の練習から直行することが多く「太鼓の人」とかよばれてます。 思いつきで公式ディレクトリにテーマやプラグインをアップしたりテーマレビューやったりしています。 AWS / WordPress / LinkedOpenData周りで活動していて、APIをどうこうして何か作るというのが多いです。 ひとこと
mautic is open source marketing automation