スキップしてメイン コンテンツに移動

あたらしい道具

今晩和。
またまた御無沙汰しております。
きょうは、大変おもしろい『道具』に出逢ったので、その御紹介を。





その道具とは “TensorBoard” です。
詳しくは、以下のリンクのページを熟読なさってください。
https://yag-ays.github.io/project/embedding-visualization/


この分析ツールを使ってみるために、国連の『世界人権宣言』を mecab で分かち書きにしてから word2vec に通してみました。

わたしは門外漢なので、あまりよく分かっていませんが、要はこれ、主成分分析(PCA)ですね。いや、オプションで t-SNE という「学習」にも切り替えられますが。


なんで、こんなツールを探し出して使ってみたかというと、実は仕事上の必要から、大量の文献の調査をしているのです。ところがアタマがパンクしそうになるくらい大量で困っていたのでした。そこで、要領よく文献を精査するために、キーワード検索を多用しようか、と云う段階になりました。

そうすると、とあるキーワードに「距離的に近い」別のキーワード群を知りたいと思ったのです。そこでネットを散策していたら上記のページに行き当たり。


上記の例では、対象が『世界人権宣言』ですので、まあ、ドキュメントの量としても短いし、出てくる単語の語彙も限られていて、いわゆる予想どおりの結果になっております。

ですが、これを不特定多数のドキュメント群に対して施したときに、どうなるか?


まだ、わたしには分かりません。
ですが、確かな手応えを感じています。

こんなツールが、ちょっと環境を整えるだけで使える時代。
ああ、ほんとうに良くなりました。
感謝深甚です。



追記:
手持ちの参考文献をすべて .txt にして、TensorBoard で可視化してみました。
これはスゴい!
便利です。


コメント

このブログの人気の投稿

複数の時系列データの因果関係が分かる(?)

今日和。 さて、独学ブログとして本来の路線へ。 本日は、 沖本 竜義 著『経済・ファイナンスデータの計量時系列分析 』から。 何故ならば、個人的に「時系列データ」の分析に多くの興味を持っているからです。 そこで本業が手薄な期間をつかって勉強しています。 その最中で、おもしろいモデル化手法を知りました。 “VAR モデル” のことです。 この界隈では有名な TJO 氏が解説しているので、その投稿記事へのリンクを貼ります。 本投稿は、多くを以下の 2 リンクを中心とした TJO 氏記事に参考にしてます。 https://tjo.hatenablog.com/entry/2013/07/25/194546  https://tjo.hatenablog.com/entry/2013/07/30/191853 沖本本、第 4 章冒頭から多少強調のために改変しつつ引用します。 “ベクトル自己回帰(VAR)モデル は、 自己回帰モデルを多変量に拡張したもの である。VAR モデルを用いる目的は主に 2 つで 1 つは 複数の変数を用いて予測精度の向上を図る ことであり、 もう 1 つは 変数間の動学的関係の分析を行う ことである。 特に、変数間の動学的関係の分析に関して、VAR モデルは グレンジャー因果性   インパルス応答関数 分散分解 という強力なツールを提供でき、推定も容易であるので、80 年代以降、マクロ経済学やファイナンスの分野で頻繁に利用されるようになった。本章では、 多変量のデータの動学的関係を分析する上で非常に重要なモデル である VAR モデルについて述べる。 ” このなかで、わたしが注目したのは 『インパルス応答関数』 です。 https://ja.wikipedia.org/wiki/インパルス応答 “インパルス応答(英語: impulse response)とは、インパルスと呼ばれる非常に短い信号を入力したときのシステムの出力である。インパルス反応とも。インパルスとは、時間的幅が無限小で高さが無限大のパルスである。実際のシステムではこのような信号は生成できないが、理想化としては有益な概念である。” 何故、これが有益かというと、以下の具体例から御理解いただ...

霞ヶ関文学の劣化ぶりを垣間見る——『一事が万事?』——

おはようございます。 ちょっと古い(半年前くらいの)トピックなんですが、看過できないものを見かけました。そこで所感をまとめておきます。 【経済産業省】:DXレポート ~ITシステム「2025年の崖」克服とDXの本格的な展開~ https://www.meti.go.jp/shingikai/mono_info_service/digital_transformation/20180907_report.html どうも、あまりにも問題が多すぎるレポートです。 ですから『本文』.PDF の 27 ページに話を絞って、分析します。 https://www.meti.go.jp/shingikai/mono_info_service/digital_transformation/pdf/20180907_03.pdf 『(注)経済損失の算出根拠』からの文章を、じっくりとお読みください。 私見では、まことしやかに数字を列挙しながら「試算」を進めている、この注釈。 論理的な妥当性には、かなり乏しいです。 この「試算」は、3 つの統計調査の引用でできあがっています。 情報処理推進機構(ベースは他社による調査) 日経 BP 社「日経コンピュータ 2017.8.3」の記事 日本情報システム・ユーザー協会「企業 IT 動向調査報告書 2016」 ですが、それらを並べて試算している、そのやり方が微妙にオカシイのです。 まず、これは前提として(仕方なく、)仮に許しましょう。 1. > データ損失やシステムダウン等の システム障害により生じた 2014 年 1 年間の損失額は国内全体で約 4.96 兆円。 つまり、既に 5 年前の段階で年間あたり約 5 兆円の損失を(レガシー系に代表される基幹系システムは)計上している訳です。  次に、ここが要注意です。 2. > (1)セキュリティ 29.1%、 > (2)ソフトの不具合 23.1%、 > (3)性能・容量不足7.7%、 > (4)人的ミス 18.8%、 > (5)ハードの故障・不慮の事故 19.7%。 > レガシーシステムに起因して起こる可能性があるのは、仮に、このうち (1)・(2)・(3)・(...