今晩和。 またまた御無沙汰しております。 きょうは、大変おもしろい『道具』に出逢ったので、その御紹介を。 その道具とは “TensorBoard” です。 詳しくは、以下のリンクのページを熟読なさってください。 https://yag-ays.github.io/project/embedding-visualization/ この分析ツールを使ってみるために、国連の『世界人権宣言』を mecab で分かち書きにしてから word2vec に通してみました。 わたしは門外漢なので、あまりよく分かっていませんが、要はこれ、主成分分析(PCA)ですね。いや、オプションで t-SNE という「学習」にも切り替えられますが。 なんで、こんなツールを探し出して使ってみたかというと、実は仕事上の必要から、大量の文献の調査をしているのです。ところがアタマがパンクしそうになるくらい大量で困っていたのでした。そこで、要領よく文献を精査するために、キーワード検索を多用しようか、と云う段階になりました。 そうすると、とあるキーワードに「距離的に近い」別のキーワード群を知りたいと思ったのです。そこでネットを散策していたら上記のページに行き当たり。 上記の例では、対象が『世界人権宣言』ですので、まあ、ドキュメントの量としても短いし、出てくる単語の語彙も限られていて、いわゆる予想どおりの結果になっております。 ですが、これを不特定多数のドキュメント群に対して施したときに、どうなるか? まだ、わたしには分かりません。 ですが、確かな手応えを感じています。 こんなツールが、ちょっと環境を整えるだけで使える時代。 ああ、ほんとうに良くなりました。 感謝深甚です。 追記: 手持ちの参考文献をすべて .txt にして、TensorBoard で可視化してみました。 これはスゴい! 便利です。
今日和。 またまた御無沙汰しております。 如何お過ごしでしょうか。 わたしが住む地域は比較的、好い陽気が続いており、ありがたく思っています。 初老も迎えた小生、とてもとても「不惑」に達したなどとは云えず、いろいろと物思う日々を送っている次第です。 先日から何冊か、結城 浩 氏の著作を読んだり読み直したりしておりました。 学生時代から雑誌連載を通じてお世話になってきた、私淑の師のひとりです。 今回は『文章作法』や『デザ・パタ本』を読んだのですが、そこで語られている内容そのものより、その背後にある《暗黙の前提》が気になりました。 たとえば『文章作法』は執筆術です。 ですが、それは「書いてあること」をどのように読み取るか/読み取らせるか、の 《読解術》 であるように感得されました。 『デザイン・パターン』はプログラミングするときの処理の類型です。 ですが、こちらも「プログラム」に留まらず、取得した情報をどのように加工して望みの結果を得るか、という 《情報処理術》 に見えました。 そもそも 《情報処理》 とはなんであるか? 現行のパラダイムでは 「入力された情報を、なんらかのアルゴリズムによって処理して、計算結果を出力する」 ということになります。大学で「情報科学」や「情報工学」と銘打った授業は多数ありますが、それらの分野を、たんなる「コンピューターの使い方」として受け取るのは、非常に勿体ない気がするのです。 むしろ、 情報処理とは、人間の生存・生産活動において必須の、重要なプロセスについての【抽象化 】 ではないか と。 書店に出かけると『アルゴリズムとデータ構造事典』みたいな本を売っています。 あれを単なるレシピ集としてだけ読むのは損だと思うのです。そうではなく、あれはもっと応用範囲のひろい、 『「仕事のやり方」の虎の巻』 ではないかと。現実の人生や仕事で直面する諸問題を、いかに 《モデル化》 し、それを一定の手続きのもと処理し、望みの結果を得るか、というのは、単に「情報処理」だけのパラダイムではなく、 『作業』そのもののパラダイム なのだと痛感するようになりました。 だって、もともと「情報処理」は現実に存在する諸問題を、抽象的にモデル化して、処理して解決するために生まれてきた学問なのですから。 だから