スキップしてメイン コンテンツに移動

投稿

6月, 2019の投稿を表示しています

あたらしい道具

今晩和。 またまた御無沙汰しております。 きょうは、大変おもしろい『道具』に出逢ったので、その御紹介を。 その道具とは “TensorBoard” です。 詳しくは、以下のリンクのページを熟読なさってください。 https://yag-ays.github.io/project/embedding-visualization/ この分析ツールを使ってみるために、国連の『世界人権宣言』を mecab で分かち書きにしてから word2vec に通してみました。 わたしは門外漢なので、あまりよく分かっていませんが、要はこれ、主成分分析(PCA)ですね。いや、オプションで t-SNE という「学習」にも切り替えられますが。 なんで、こんなツールを探し出して使ってみたかというと、実は仕事上の必要から、大量の文献の調査をしているのです。ところがアタマがパンクしそうになるくらい大量で困っていたのでした。そこで、要領よく文献を精査するために、キーワード検索を多用しようか、と云う段階になりました。 そうすると、とあるキーワードに「距離的に近い」別のキーワード群を知りたいと思ったのです。そこでネットを散策していたら上記のページに行き当たり。 上記の例では、対象が『世界人権宣言』ですので、まあ、ドキュメントの量としても短いし、出てくる単語の語彙も限られていて、いわゆる予想どおりの結果になっております。 ですが、これを不特定多数のドキュメント群に対して施したときに、どうなるか? まだ、わたしには分かりません。 ですが、確かな手応えを感じています。 こんなツールが、ちょっと環境を整えるだけで使える時代。 ああ、ほんとうに良くなりました。 感謝深甚です。 追記: 手持ちの参考文献をすべて .txt にして、TensorBoard で可視化してみました。 これはスゴい! 便利です。