最近電車内の広告から「ダークデータ」なる言葉を目にしました。初めて目にするその言葉から「どういったデータなんだろう」と頭から離れずにいました。
昨今「ビッグデータ」というものが注目されていますが、必ずしもそれが全て有効活用されているわけではなく、その中にはあまり有効活用されていない「ダークデータ」と呼ばれるものも存在するようです。
この分野については、まだあまり調べてはいないのですが、興味があるので今知っている範囲でダークデータというものについて書いていってみます。
ダークデータとは
「ダークデータ」と意味について次の記事で以下のように書かれています。
価値がある(もしくは、あるかもしれない)にもかかわらず、収集・蓄積されるだけで活用されていないデータのことを、ダークデータと呼ぶことがあります。
研究・開発者が収集する実験や調査、観測に関するデータは、「実験に失敗した」、「仮説を裏づけるものではなかった」など様々な理由でお蔵入りになることが少なくありません。
研究室の片隅で“日の目を見ない”ことから、ダークデータと呼ばれるようになりました。このように元々は学術分野で使われていた言葉ですが、厳密な定義があるわけではありません。
企業が保管するデータの85%は価値がないと書かれている記事もあります。「データ」というとパソコンのフォルダ内にある過去のデータなどデジタルデータを思い浮かべる人が多いでしょう。それだけではなく「アナログデータ」も含まれるようです。
わかりやすい例で言えば文書類でしょう。パソコンなどがまだ普及していなかった時代に記録した顧客データや売上に関するものなど、他にもデジタル化されていない様々な記録が考えられます。
ダークデータというものに対してROTとも言われており、それは以下の3つの頭文字になります。
- Redundant(冗長)
- Obsolete(陳腐)
- Trivial(無駄)
以上の3つは以下の意味合いで使われたりします。
- 「重複している」
- 「古い」
- 「価値がない」
このような「ダークデータ」というものを企業活動において、もっと有益に使うことはできないかという流れがあるようです。
企業のサーバや倉庫でダークデータと化しているデータや文書
企業で働いていると、確かにダークデータと呼ばれるデータがたくさんあることがわかります。
経理として働いている人ならわかると思うのですが、会計伝票や証憑類は保管期間というものがありまして、それぞれ法律ごとにその期間が決まっています。
例えば決算書や総勘定元帳であれば会社法・法人税法において10年間保管する必要があります。
株主資本等変動計算書、個別注記表などであれば会社法において10年間の保管が必要。
請求書、注文請書、見積書、納品書などであれば法人税法において7年間の保管が義務付けられています。
それほど大きくない企業であればまだいいのですが、それでも書類がまとまるとかなりの量となり場所もとります。
ある程度の規模の企業になるとそれはもう膨大な量になります。その書類を保管するための専用の棚はもちろん、専用のスペースや部屋も使うようになるほどです。
以上のようなアナログデータは他の部署でもたくさんあるでしょう。また、デジタルデータでもつくられたままで、今はほとんど使われていないものもたくさんありました。
例えば企業が各地域に営業所を持っていたとして各営業所別の売上高やその他に使用した費用などの金額、それらの月次、年次ごとのデータなどがあるでしょう。
またどのような顧客に、どのような商品を、いくらで売ったのか、といった定量的なデータや、この商品を使ってもらった時にこういったコメントや意見をもらった、という定性的なデータもあるかもしれません。
これらの日々生成されるデータが、何の分析もされず、ただ積み重ねられていっているというケースは意外と多いかもしれません。
そもそもなぜこんな言葉が使われるようになったのだろうかと考えましたが、いくつかの意図がありそうです。
「ダークデータ」という言葉が使われるようになった理由や意図というのはいろいろとあると思うのですが、自分は「売上面」と「費用面」から考えてみました。
「売上面」におけるダークデータについて
このブログでは以下のような過去記事を書いてきました。
今の時代は多くの人は、生活において必要最低限のものは既に持っています。企業はそのような中でさらに品質を上げたり機能を追加したり、効率化して値段を下げたりして、なんとか消費者に商品を買ってもらう努力を続けてきましたが、それも段々と難しくなってきました。
そのため企業は「商品を欲しいと思っている消費者を効率よく探して買ってもらう」ために「マーケティング」という分野を取り入れていきます。
このマーケティングにはある程度の情報量が必要ですが、それに加えて収集したデータを「分析」したり「加工」したりして、そこから顧客の行動に何らかの法則性を見出して売上に繋げていく必要があります。
それら一連の作業のために必要なデータが足りていないのか、それとも収集したデータを使う人の能力に問題があるのかわかりません。
ですが、上記に書いたように、アナログデータをデジタルデータに移行させて分析の精度を上げるということや、既存のデジタルデータの中であまり使われていないデータも有効活用して売上向上に繋げていこうという意図があるのではないでしょうか。
「費用面」におけるダークデータについて
上記で経理の仕事には膨大な書類の処理作業があるといったことを書いてきました。実際に自分がその作業に携わっていると疑問がわいてくるようになります。それは
「なんでこんな非効率なことを今も続けているんだろうか」という点です。
それはそれで意味があると思うのです。例えば売上に関する請求書などの書類は企業にとって重要な証憑です。
「100万円売り上げました。」
「100万円仕入れました。」
という証拠の書類を残すことで後で言った言わないのいざこざを避けるという意味合いもあるでしょうし、経理部門において仕訳をきるための証拠の書類にもなります。他にも様々な意味合いがあるでしょう。
ですが、そもそもそれは「絶対に『紙』という媒体を使わなければいけないのか」という疑問が残ります。デジタルデータでは駄目なのか?と。
というのもその作業自体も手間がかかるのですが、その書類を作ったり保管したり送付するというだけで様々な費用が発生します。
例えばその書類を保管するための外部の倉庫代、書類を運ぶ時に使うダンボール代、請求書を取引差に送る時の封筒代や切手代、それらの作業をさせるための人件費や時間、
詳しく調べればもっとあるかもしれませんが、ただ紙というアナログデータにしておくだけでお金がかかります。
デジタルデータでも容量が多くなってくると、サーバやストレージ関する費用が嵩んでいきます。ちゃんと整理されていなければ、どこに何があるのかわからず、必要なデータを探すというだけで時間がかかります。
アナログデータのデジタルデータへの移行や、デジタルデータの整理や廃棄、統合などが企業内の経費を抑えるという点で必要になってきているということではないでしょうか。
まとめ
以上のことをまとめると、企業は「今までのやり方だと生き残るのが厳しいから、いろいろと今までのやり方を変えられないか」ということを考えているのではないでしょうか。
以上「ダークデータ」というものに関して、自分なりの考察をまとめてみました。この分野でまたおもしろい情報を見つけましたら、このブログで書いていきたいと思います。
あわせて読みたい
- 「検索」「決済」と本屋を比較して思う情報空間の利便性について – 知識の倉庫の整理
- トランスボーダー社会は21世紀のパノプティコンやマッチングモデルを可能にする – 知識の倉庫の整理
- 今後個人が生き延びていくには情報製造業やゲシュタルトメーカーという発想が必要ではないだろうか – 知識の倉庫の整理
- みずほ銀行のペッパー・ワトソン導入やファナックのFIELD systemなどのロボット同士が会話をする未来について – 知識の倉庫の整理
- 音声認識や画像認識等の大人の人工知能と動作やモーション等の子どもの人工知能という分類 – 知識の倉庫の整理
- なぜクラスター分析などの統計学や手法について叫ばれるようになったのか━その時代背景は何なのか – 知識の倉庫の整理
- Iot時代に非構造化データやデータベースに関する知識が必要と思う理由
- 人工知能の進化は電子空間上の膨大なデータの蓄積によって促されていると思われる
コメント