データとして見た『パナマ文書』
連日マスコミを賑わせている『パナマ文書』ですが、純粋にデータとして見ると、とても人海戦術で解析できるようなデータ量、ファイル件数、データ種別では無いことが分かります。(*_*)まず、数字で見ると、以下のようになります。データ量:2.6TB、ファイル件数:11,500,000件、データ種別:メール=42%、データベース=27%、PDF=19%、画像=10%、テキストファイル=3%、その他=1%◎添付のグラフ参照データ分析の手法で見ると、まずデータ形式の統一(テキスト形式化)、データベース化、解析用資料化と言うことになりますが、生のデータベースもそのままでは使えず、メールは整形も必要でしょうし、PDFや画像ファイルからOCRソフトでテキスト化するだけで気が遠くなりそうです。(*_*)これらの作業を世界中のマスコミ関係者(データ分析可能なスキルを持った人たちが、ツールやクラウドサービスを駆使して)が、数百人規模で連携しながら解析中とのことですが、解析用資料(グラフと言うのだそうです)から因果関係を割り出すのは人間。これまた、とてつもない労力が必要でしょう。(*_*)分かったところから、順次公表されていくと思いますが、上に書いたようなことをKeiichiro Ono氏が分かり易い資料を添えて、サイトにアップしてくれています。
https://medium.com/@c_z/パナマ文書-解析の技術的側面-d10201bbe195#.nvy4ua8gk
http://www.e-nekorakuen.net/wp-content/uploads/d3diary/00c5761879ea31fda6cdea596608fba883.jpg
http://www.e-nekorakuen.net/wp-content/uploads/d3diary/01d7cedc65399189b5a2979c5b0ebe810c.jpg