スキップしてメイン コンテンツに移動

データ可視化に特化すべき

おはようございます。
随分と御無沙汰しておりました。
本業でバタバタとしておりまして。ようやく落ち着いたところです。


それにしても独学がなかなか進みませんね。
仕事も〆切に向かって忙しかったし、リゾーム状にいろんな方面に手を出しつつですから。

ただ、そこで肚に決めたことがあります。
自分は「データの可視化に特化すべきである」と。
勿論、そのメイン・ターゲットであるデータ・サイエンスの通習はします。
でも、自分の強みは分析者として、ではなく、分析されたデータを可視化することにある、と。
微妙な違いですね。(苦笑)


というのも、やっぱりなんだかんだ言って、長年 3DCG の技術者(デザイナー)として研鑽を積んできたので、それを活かすかたちで近未来の展開を考えたほうがイイと考えたからなのです。


自分の強みはなにか?
すくなくとも自分の専門に於いては、洋書を読むことが苦でないことです。
これで国内にいても数年程度の差は付けられる。
すこしはアドヴァンテージになる、というものです。


それにいまどきは以下のような書籍について、定額会員コースがあります。
もう、乱読の環境は整っているのです。
https://ssearch.oreilly.com/?q=visualization
https://search.packtpub.com/?query=Visualization&refinementList%5Breleased%5D%5B0%5D=Available


昨夜は就寝前、データ可視化にかんするいくつかの言語の電子書籍の頁を繰りました。
MATLAB, Mathematica, D3.js, Processing 2, ......
時代は変わりましたよね。二十年前はいろいろと自作しなければならなかったのですから。あとは 3D 系で Unity/Unreal といったところでしょうか。


これからも SE+PG としての復帰を目指して自学します。



そうそう。
放送大学の学部に入学しました。
ええ、「学部」です。
これから8年ぐらいたっぷりとかけて、諸学問をやり直します。
すでに学界で枯れた知見になっているのに知らないで損をしていること、たくさんあると感じているのです。

コメント

このブログの人気の投稿

複数の時系列データの因果関係が分かる(?)

今日和。 さて、独学ブログとして本来の路線へ。 本日は、 沖本 竜義 著『経済・ファイナンスデータの計量時系列分析 』から。 何故ならば、個人的に「時系列データ」の分析に多くの興味を持っているからです。 そこで本業が手薄な期間をつかって勉強しています。 その最中で、おもしろいモデル化手法を知りました。 “VAR モデル” のことです。 この界隈では有名な TJO 氏が解説しているので、その投稿記事へのリンクを貼ります。 本投稿は、多くを以下の 2 リンクを中心とした TJO 氏記事に参考にしてます。 https://tjo.hatenablog.com/entry/2013/07/25/194546  https://tjo.hatenablog.com/entry/2013/07/30/191853 沖本本、第 4 章冒頭から多少強調のために改変しつつ引用します。 “ベクトル自己回帰(VAR)モデル は、 自己回帰モデルを多変量に拡張したもの である。VAR モデルを用いる目的は主に 2 つで 1 つは 複数の変数を用いて予測精度の向上を図る ことであり、 もう 1 つは 変数間の動学的関係の分析を行う ことである。 特に、変数間の動学的関係の分析に関して、VAR モデルは グレンジャー因果性   インパルス応答関数 分散分解 という強力なツールを提供でき、推定も容易であるので、80 年代以降、マクロ経済学やファイナンスの分野で頻繁に利用されるようになった。本章では、 多変量のデータの動学的関係を分析する上で非常に重要なモデル である VAR モデルについて述べる。 ” このなかで、わたしが注目したのは 『インパルス応答関数』 です。 https://ja.wikipedia.org/wiki/インパルス応答 “インパルス応答(英語: impulse response)とは、インパルスと呼ばれる非常に短い信号を入力したときのシステムの出力である。インパルス反応とも。インパルスとは、時間的幅が無限小で高さが無限大のパルスである。実際のシステムではこのような信号は生成できないが、理想化としては有益な概念である。” 何故、これが有益かというと、以下の具体例から御理解いただ...

あたらしい道具

今晩和。 またまた御無沙汰しております。 きょうは、大変おもしろい『道具』に出逢ったので、その御紹介を。 その道具とは “TensorBoard” です。 詳しくは、以下のリンクのページを熟読なさってください。 https://yag-ays.github.io/project/embedding-visualization/ この分析ツールを使ってみるために、国連の『世界人権宣言』を mecab で分かち書きにしてから word2vec に通してみました。 わたしは門外漢なので、あまりよく分かっていませんが、要はこれ、主成分分析(PCA)ですね。いや、オプションで t-SNE という「学習」にも切り替えられますが。 なんで、こんなツールを探し出して使ってみたかというと、実は仕事上の必要から、大量の文献の調査をしているのです。ところがアタマがパンクしそうになるくらい大量で困っていたのでした。そこで、要領よく文献を精査するために、キーワード検索を多用しようか、と云う段階になりました。 そうすると、とあるキーワードに「距離的に近い」別のキーワード群を知りたいと思ったのです。そこでネットを散策していたら上記のページに行き当たり。 上記の例では、対象が『世界人権宣言』ですので、まあ、ドキュメントの量としても短いし、出てくる単語の語彙も限られていて、いわゆる予想どおりの結果になっております。 ですが、これを不特定多数のドキュメント群に対して施したときに、どうなるか? まだ、わたしには分かりません。 ですが、確かな手応えを感じています。 こんなツールが、ちょっと環境を整えるだけで使える時代。 ああ、ほんとうに良くなりました。 感謝深甚です。 追記: 手持ちの参考文献をすべて .txt にして、TensorBoard で可視化してみました。 これはスゴい! 便利です。

霞ヶ関文学の劣化ぶりを垣間見る——『一事が万事?』——

おはようございます。 ちょっと古い(半年前くらいの)トピックなんですが、看過できないものを見かけました。そこで所感をまとめておきます。 【経済産業省】:DXレポート ~ITシステム「2025年の崖」克服とDXの本格的な展開~ https://www.meti.go.jp/shingikai/mono_info_service/digital_transformation/20180907_report.html どうも、あまりにも問題が多すぎるレポートです。 ですから『本文』.PDF の 27 ページに話を絞って、分析します。 https://www.meti.go.jp/shingikai/mono_info_service/digital_transformation/pdf/20180907_03.pdf 『(注)経済損失の算出根拠』からの文章を、じっくりとお読みください。 私見では、まことしやかに数字を列挙しながら「試算」を進めている、この注釈。 論理的な妥当性には、かなり乏しいです。 この「試算」は、3 つの統計調査の引用でできあがっています。 情報処理推進機構(ベースは他社による調査) 日経 BP 社「日経コンピュータ 2017.8.3」の記事 日本情報システム・ユーザー協会「企業 IT 動向調査報告書 2016」 ですが、それらを並べて試算している、そのやり方が微妙にオカシイのです。 まず、これは前提として(仕方なく、)仮に許しましょう。 1. > データ損失やシステムダウン等の システム障害により生じた 2014 年 1 年間の損失額は国内全体で約 4.96 兆円。 つまり、既に 5 年前の段階で年間あたり約 5 兆円の損失を(レガシー系に代表される基幹系システムは)計上している訳です。  次に、ここが要注意です。 2. > (1)セキュリティ 29.1%、 > (2)ソフトの不具合 23.1%、 > (3)性能・容量不足7.7%、 > (4)人的ミス 18.8%、 > (5)ハードの故障・不慮の事故 19.7%。 > レガシーシステムに起因して起こる可能性があるのは、仮に、このうち (1)・(2)・(3)・(...