Dun & Bradstreet社のチーフデータサイエンティスト、Anthony Scriffignano氏による、データに関する神話や誤解の検証
膨大な量のデータが驚異的なスピードで増加している現在、現代の企業が貴重な洞察を得る機会とその結果としての可能性は常に進化しています。そのため、データとその利用に関する話題も同様に進化しなければなりません。ほんの数年前までは、データ業界では、ビッグデータ、データローカリゼーション、非構造化データ、予測分析などが主なトピックでした。最近では、データ操作、個人データのプライバシー、データの偏りなどの話題が中心となっています。データの重要性が増すにつれ、その利用に関する疑問や懸念も増えています。
Scriffignanoは、35年以上にわたり複数の業界で経験を積んできた国際的に有名なデータサイエンティストであり、 Dun & Bradstreet社のチーフデータサイエンティストとして、金融、政府、企業の世界に深く関わっています。最近開催されたイベント「Data for AI」で、Scriffignanoは、Dun & Bradstreet社のような企業でのデータの活用と応用について、興味深い洞察を語ってくれました。
データの利用に関する意思決定
データはさまざまな意味でユニークな資源です。入手できる量や寿命に限りがある天然資源とは異なり、データにはそのような限界がなく、量も入手可能性も無限に増えていきます。データは利用されることで成長し続け、さらには合成されていきます。実際、データを使用したり生成したりすると、メタデータ(データに関するデータ)が作成されます。そのため、データを使用する際には、データの増加、利用可能性、そしてますます困難になる操作のニーズに対応するために、独自の考慮事項があります。
Scriffignanoは、どのようなシナリオにおいても、データにはすぐに使用できる手元のデータと、判断材料として入手できる発見可能なデータという2つのタイプがあると言います。データを利用する際の最初の判断は、その判断を下すのに十分なデータが存在するかどうかを決めることです。この問題の答えは、データがどのような質問に答えようとしているのか、また、利用可能なデータが現実を代表しているかどうかによって決まります。
しかし、データには3つ目のタイプがあります。それは、存在するが不完全なデータです。データには多くの未知数がありますが、その未知数にもかかわらず、組織は意思決定を求められます。例えば、初の月面着陸を可能にするために必要な科学と知識の進歩は驚くべきものでしたが、科学者たちには月のレゴリス(月の塵)の「しぼみ具合」を見積もることができない要素がありました。月着陸船は未知の表面に着陸するため、転倒を防ぐために巨大な半球状の足をつけていた。このように、データの不完全さが結果に与える影響を考慮することで、データが完全でなくても、より多くの可能性を考慮し、正しい判断を下すことができるのです。
よくある神話と不都合な真実
数十年前までは、フィットネスモニターやGPS、AIを搭載したレコメンデーションエンジンなどは、多くの人にとってサイエンスフィクションのように聞こえていました。しかし、データの力と高度な分析方法によって、これらはすべて今日可能になっています。実際、私たちの多くは、これらの機器がどのように機能し、どれほどのデータが収集・利用されているのかについて、あまり考えずに毎日使用しています。
私たちは、データのおかげで当たり前のように現代の豊かさを享受しています。しかし、データを利用する際には、一度立ち止まって、情報の文脈とその真の意味を考えるのがユーザーの責任だと、スクリフィナーノは説明します。データがどのように変化しているのか、それによって結論がどのように変わるのかを考えることで、データとその利用にまつわるよくある神話や誤解の犠牲になることを避けることができるのです。
最も一般的な神話の一つは、「データが多ければ良い結果が得られる」というものです。人類は驚異的な量のデータを生成・蓄積しているため、目的のデータを特定することは、増え続ける干し草の中から針を探すようなもので、重要なデータを見つけることは難しく、エラーやバイアス、ノイズを拡大させる可能性もあります。やみくもにデータを集めれば、”データレイク “が “データスワンプ “になってしまうことも少なくありません。
もう一つの神話は、データを使うことで、AIや機械学習が答えや隠された真実を発見するというものです。実際には、AIや機械学習のアルゴリズムは、与えられたデータの信憑性を評価することはできません。例えば、駐車場に降り立つカモメの画像をもとに学習した機械学習アルゴリズムを考えてみましょう。カモメが連続した駐車スペースに着地する例が5つ与えられたとすると、アルゴリズムは「次に来たカモメは、次に空いている駐車スペースに着地する」と結論づける可能性があります。もちろん、常識的に考えれば、このような考えは馬鹿げている。カモメは意図的に特定の連続した駐車スペースに着地しているわけではなく、たまたまパターンのように見えるランダムな着地をしているだけなのだ。Scriffignanoは、AIがこのような愚かな仮定をしてしまうアルゴリズムの例を挙げ、プロセスを自動化することで、この種のミスが深刻さを増す可能性があると指摘しています。
このような誤解の例は、データがどこにでもある重要なものになるにつれ、データを熟考して賢く利用することがますます重要になっていることを示しています。データは強力なツールであり、貴重な知見を提供してくれますが、悪意を持ってであれ、無知から誤ってであれ、データの不適切な使用は有害な結果をもたらす可能性があります。
進化するデータの未来
オンラインのData for AIコミュニティで毎月行われているようなデータに関する議論は、これらの問題の複雑さを示しています。以前の技術的な波の中では、企業はデータベースの管理、データの読み込み、PythonやRなどのプログラミング言語を使って社内でデータを操作したり動かしたりすることに長けた人材を必要としていました。これらは今でも必須のスキルですが、現在では、許容される使用、知的財産、AI倫理などの概念を理解している専門家も必要とされています。
データの新たな目的が次々と開発されるにつれ、責任を持ってデータを利用することに焦点を当てた対話が行われるようになっています。不平等、AIの偏見、敵対的なデータ操作、データの権利、その他の脅威について、常に話題の中心に据えておく必要があります。”これらのことを無視してはいけません。不都合な真実にしてはいけません」とScriffignano氏は警告します。次のような厳しい質問をしてください。何の権利があってこのデータを使っているのか?このデータはどこで手に入れたのか?そのデータが真実であることをどうやって知ることができるか?これらはすべて、意思決定のためにデータを使用する前に考慮すべき重要な質問です。
膨大な量のデータがあり、その中に無限の可能性があるとしても、常に立ち止まって考えることを忘れてはなりません。データには価値がありますが、コンテキストを得るためには、データ自体を超えて考える必要があります。データをどれだけ持っているかではなく、データをどれだけ作っているかではなく、データから何を感じ取っているかが重要なのです。