パナマ論文:グラフデータベースの力を使って接続を見つける

Neo4jのこのようなグラフデータベースは、パナマ論文に関連するような大きなデータセットのパターンを示すことができます。

今年の4月以前は、パナマについて考えてみたら、休暇中のパンフレットを手に入れていたのかもしれません。

しかし、中米の小さな共和国は現在、パナマ・ペーパーと呼ばれる財務記録の巨大な漏洩と関連している。パナマ・ペーパーは、世界の税務局に莫大な金額が隠されていることを明らかにした。

この啓示は、ワシントン・ポストとル・モンドをはじめ、ニューヨークのガーディアンとBBCを含むニューヨークに拠点を置く組織である国際調査学会(ICIJ)の活動です。

すべてのデータを調べるために、ジャーナリストはNeo4jのグラフデータベースソフトウェアを使用しました。この技術が今までの10年の最大のニュース記事をどのように解明したかを知るために、私たちはICIJのデータ編集者、Mar Cabraと話しました。

あなたの背景はジャーナリズムですか?

Cabra:はい、私は訓練されたジャーナリストです。私はテレビのジャーナリストで、マンチェスターのTVジャーナリストなど様々な仕事をしました。私はスペインのCNNプラスとネットワークニュースのために働いていました。

しかし、私は急速に変化するニュースラインにはあまり慣れていないことに気がついたので、ニューヨークの大学に行き、捜査ジャーナリズムに特化しました。データジャーナリズムを発見し、データを体系的なストーリーを作成するためにどのように使うことができるのかがそこにありました。そして、データジャーナリズムから、私は開発者と仕事を始めました。それが私がICIJに入って調査報告を始めた方法です。私は2014年以来そこに調査報告書の責任者を務めています。

Q:データに基づいてストーリーを開発する方法をどのように設定しますか?

パナマ論文では、SüddeutscheZeitungの同僚たちが2.6テラバイトのデータを漏らしていて、彼らは私たちに来て、「ねえ、これをすべて分析して、一緒にチームを作りましょう」と言った。

私のチームは、このデータセットにどのように取り組むことができるかを最初に見ていくために、数ヶ月間、データを調べました。これは、データとドキュメントの組み合わせを意味します。だから私たちは「これらの文書を処理して、どのような分析をしてその物語が何であるかを見てみましょう」と言って始めました。

ICIJのカブラ:「私たちの中核的な質問の1つは、「これについて体系的に話すことができますか?」

主流になる:Neo4jとグラフデータベースの将来、3つの重要な教訓は、世界の指導者はパナマ論文から学ぶべきであり、パナマ論文はグラフデータベースの力をグラフィカルに実証する

時には、データが入っている問題があり、解決方法を見つけようとします。それ以外の時は、例えば世界銀行で何かしました。私たちの捜査記者の一人は、世界銀行が経済的にも物理的にも人々を追い払っている世界中の開発プロジェクトに資金を提供していることを示唆している情報源から何かを拾い上げたが、これは広範な問題であった。

私たちはそれを調べ、それが問題と思われたので、私たちの次のステップは、この問題を定量化して体系的な観点から話すことができるかどうか尋ねることでした。データソースとは何ですか?どのようにこれに取り組むことができますか?私たちはこれを体系的な問題としてどのように扱うことができますか?

ICIJでは、常にトピックを扱う際に3つの基準を確立しようとしています。そして、我々は1年に2〜3つの問題だけを扱うので、質問は非常に重要です。

3つの質問は次のとおりです。グローバルな関心事ですか?壊れているシステムを扱っていますか?そして、結果を得る可能性はありますか?

ビッグデータ分析、Big Data Analytics、DataRobotはデータサイエンスの欠点を自動化することを目指している、Big Data Analytics、MapR創設者のJohn Schroederが辞任し、交換するCOO

ビッグデータの詳細

ご覧のとおり、私たちの中核的な質問の1つは、「これについて体系的に話すことができますか?」です。すでにデータセットを持っているかどうか、問題があるかどうかを知るかどうかは、それが全体的であることを示す必要があります。

Q:これは画期的なもので、人生の変化の問題ですか?

ご存知のように、現在、私たちが行っている調査はありません。進行中であり、データコンポーネントを持っていません。ジャーナリスティックな観点からのデータについて考えると、ビジネスの観点からも、何かが体系的なやり方でどのように起こるかがわかります。そしてジャーナリストの見解から、あなたが知らなかったかもしれない話をあなたに示すことができます。

グラフデータベース

Q:ICIJはどのようにグラフデータに関与しましたか?

2014年には、ICIJは約1,400のオフショア・タックス・ヘイブンのリストと、これらのタックス・ヘイブンを使用していた10万社以上の企業のリストを発表しました。私たちは多くのデータを発表したばかりであり、過去3年間、ICIJが生産した最も成功した製品でした。

私たちの一般人は、私たちの読者が驚いて、ただそれを愛していました。そして、彼らは出かけて自分の仕事をし、ネットワークを拡大し続けました。

私たちが最初に気づいたのは、データにとって非常に人気があったということでしたが、レポートの観点からは面白いかもしれないと考えました。

私たちはグラフを内部的に視覚化できるソフトウェアを見ていました。我々は適切なソフトウェアについて尋ね、Neo4jが推奨された。私たちはそれを試して、それを気に入って、私たちは行った。

それは非常に使いやすいので、とても良かったです。彼らはあなたにライセンスを与え、あなたのサーバーに置いて、Neo4jデータベースに接続し、視覚化している時間内にライセンスを与えます。あなたはそれの上にパスワード保護を置くだけであなたはそれを持っています。閉じたネットワークに入れるのはとても簡単です。

Q:パナマ論文が来る前に何か他のものに使ったことがありますか?

1150万件のファイルのおかげで、データマイニング技術が脚光を浴びています。

HSBCのデータであるスイスのリークデータに使用しました。しかし、その場合、私たちはプロジェクトの終わりにそれを使用することしかできませんでした。事実チェックや、すべての接続を調べたことを確認するのに非常に役立ちました。そして、我々はいくつかのつながりを見逃してしまったことを非常に素早く確立しました。

文書を見たりグラフを見たりするのは非常に便利でした。私たちの脳はグラフを見るために配線されていません。あなたは文書を見ることができ、あなたがそれらを見ることができるので、物を描くことができます。しかし、私たちの記者が[Neo4j]を使っていた時、彼らは「オハイオ州の神よ、これは魔法のようなものです。

一年前にパナマ論文を始めたとき、私の上司からの最初の質問の1つは、「だから私たちはグラフデータベースを持っていますか?

Q:あなたはパナマ論文とNeo4jを持っていました – 次は何ですか?

ドキュメントを検索したり、ドキュメントを検索したりするためのプラットフォームが必要でした。ドキュメントを検索したり、クライアントデータベースの接続だけを調べることができます。

私たちはもっと多くのことをすることができたと思う。たとえば、文書でさえも電子メールなどのように構造化することができます。私はここに来て私を止めた同僚と話をしていただけです。彼は「あなたは電子メールで何かをする必要がある」と言った。十分な時間がなかったのでできなかったと私は言った。しかし、すべての電子メールにはデータがあります。送信者、 ‘から’、 ‘から’、件名などです。

メタデータを抽象化し、Mossack Fonsecaやそのすべてのパターンを分析することができましたが、時間がありませんでした。しかしそれはグラフでもあります。コミュニケーションの集まりで誰が誰とコミュニケーションしているのかを見たいと思っています。

ジャーナリズムは接続を見つけることすべてであり、多くの場合、接続は簡単ではありません。グラフソフトウェアを使用すると、これらのリンクの背後にあるものを確認することができます。

私は、私たちが持っている文書を理解するために、世界をよりよく理解しなければならないものすべてを結びつけることができるという考えに魅了されています。

オフショアの世界では、それは秘密のこれらの層に関するすべてであり、グラフはそれらを探索する方法です。

LinkedInが新しいブログプラットフォームを発表

これはBig OLAPの時代ですか?

DataRobotは、データサイエンスの果実の低さを自動化することを目指しています

MapRの創設者John Schroederが辞任し、COOが辞任