2017年08月03日

WordでLatex

LaTeXで数学、物理の論文を書いたことのある人はどのくらいいらっしゃるのでしょうか。MS Wordでは長らく数式を美しく、読みやすく入力することができなかったので、数学物理など、数式を主に取り扱う論文では圧倒的にLaTeXを使う方が多かったと思いますが、最近、Office 2007頃からだったと思いますが、数式エディタが刷新されてからは、Wordでもそこそこ美しく数式を入力することができるようになったので、もはやLaTeXに頼ることがなくなりました。

過去記事:
Word2007の数式エディタが実はすばらしいこと
マシになった(はず)のMS数式エディタをTeXと比較

さて、そういうところに最近のニュースで、「LaTeXを使った数式の入力がWordやPowerPointで可能に。マイクロソフトが明らかに」というのを見かけました。これは今までの数式エディタと何が違うのでしょう?

MS Wordの数式エディタの入力は、LaTeXっぽい入力ができるのですが、まだまだ開きがありました。例えば、文字自体を操作するのは(例えばギリシャ文字や記号など、また、上付き、下付文字等)ほぼLaTeXと同様の記入感でいけるのですけれど(これをUnicodeMathと言うそうです、参考:「Linear format equations using UnicodeMath and LaTeX in Word」)、分数や記号の入れ子など数式が多段になっているところは、記号を入力すると出てくる箱にうまく文字を入れてやらなければなりません。例えば、分数を入力するには「a/b」と入力すると自動的に

\begin{eqnarray}
\frac{a}{b}
\end{eqnarray}

と書いてくれるのですけれど、あくまでも「自動的」なので、本当は縦でなくて横のまま

\begin{eqnarray}
a/b
\end{eqnarray}

と書きたかった場合でも勝手に縦になってしまって、わざわざ横用の分数をマウス操作で選択してあげなければならない。つまり、やりたいことの7割くらいは簡単にできるようになったのだけれど、もうちょっと融通きいてほしいなぁと思うところはまだ残ってました。それでも、昔の数式エディタと比較すれば入力のしやすさも数式の美しさも格段に良くなったのですが。

ということで、今までの数式エディタはあくまでも数式用文字の入力が簡単になっただけでした。それが今回の記事によれば、LaTeX側にもっと振れて、数式の構造自体をちゃんとLaTeX式に入力ができるようになる。例えば上の分数は、「a/b」と打って自動的に縦にしてもらうのではなくて、ちゃんと「\frac{a}{b}」と入力することになります。(なお、横向きにa/bと書くときには普通にa/bと書けば良いです。)

ちなみに同記事によれば、日本語版への適用はまだまだ先とのこと。待ち望まれます。
posted by jinya at 17:05| Comment(0) | 日記 | このブログの読者になる | 更新情報をチェックする

2017年04月28日

共起関係を用いたアイドルネットワークの分析

ゴーガ解析のメンバーの石田さんが、共起関係を用いたアイドルネットワークの分析をしています。

アイドルに関するデータ収集〜分析:1.1TwitterデータからDD度の可視化

彼はこの春からアイドルオタクになったそうで、業界的にめちゃめちゃ忙しい年度末をアイドルパワーで乗り切ってくださいました。仕事がしんどいときでも笑顔でアイドルのことを語ってくれるので、アイドルに救われるっていうのはこういうことを指すのだなぁと思いました。

さて、彼の分析結果、まだ途中だと思いますけれど、これを見てコメントです。

各アカウントのフォロワー直近500人をとってきているとのことですが、これは少なくとも時期をランダムにするか、もっと量を増やすべきだと思いました。twitterのデータは、ボットやスパムアカウントの影響をどうやって排除するかというところがいつも難しくて、直近500だとその影響が大きく出てしまうのではないかという懸念があります。収集数を増やせばその影響は減りますし、時期をランダムにしても同様の効果が出ると思います。一方で、twitter apiの制約もあると思いますから、そのあたりで妥協しなければならないところもあると思うのですが。

AKB系とハロプロ系で様相が全く異なるのは、記事にもあるとおりタレントさんご本人のアカウントの影響が大きい気がします。グループのファンなのか、タレントさん個人のファンなのかというところで、ファン心理が違うのかもしれません。また、分析者本人がハロプロファンなので、AKB系のファンの動向がよくわかっていないのも、これから補強すべき所なのだろうと思います。

データ分析をするときは、その業界なりその市場に対する深い理解と愛情が必要になります。それなしには市場のメカニズムを想像することなどできません。この現象は、こうなんじゃないか、ああなんじゃないか、と、様々な想像を巡らせて、仮説を作り、検証する、の繰り返しです。一方で、あまりに深入りしすぎて森が見えなくなってしまってもダメなのが難しいところ。主観が入りすぎると、仮説が恣意的になりすぎます。そのシステムに愛情を持ちつつ、一歩引いて客観的に仮説を想像するのが、データサイエンティストのポジションです。

最後に、共起関係のネットワークを見るポイント。

共起ネットワークは、実は繋がっているところを見ていてもあまり面白くないんですね。これは、繋がっていないところを見るべきなんです。なぜここは繋がっていないのかを考えると、いろんな仮説が出てきます。例えば記事中の図を見ると(これはまだ途中の画像なのでこの先変わるかもしれませんが、ひとまず今の段階で見ると)、NMBとHKTのつながりが非常に薄い。これはなぜか。また、ネットワークの外側にあるのはJKT, BNKに加えて、momowgp、つまりももクロが外側にいて、他とのつながりが薄い。JKTとBNKは両方とも海外にあるので、共通のユーザーがいないことの意味がなんとなくわかりますが、momowgpは国内で、かつフォロワー数もそこそこ多いにもかかわらず、孤立しているのはなぜか。このあたりに仮説の種がありそうです。
posted by jinya at 12:42| Comment(0) | 日記 | このブログの読者になる | 更新情報をチェックする

2017年04月10日

ノッティンガム大学

懐かしくなって、ノッティンガム大学の地図を見ていたメモです。

通っていた校舎。さすがに約20年ほど経っているので、壁が新しくなっていますが、当時の面影が残っていました。

と思ったら、別の写真では新しい建物が!撮った時期が違うんですね。

お世話になった学生会館みたいなところ。こちら側が当時の面影のある建物なのですが、これも、取り壊されて更地になっているstreet viewが近くにありました。ここでインターネットの契約をしたり、100ポンド紙幣を出して売店のおばちゃんに目を丸くされたり(当時、100ポンド紙幣は通常流通しておらず、偽札じゃ無いかと思われて念入りに調べられました)。

通学路。冬は何にもない道なんですが、春にはこれらに全部花が咲きます。4月後半〜5月が最高に美しい道です。

住んでいた留学生会館。こんなゲートは無かった気がしますが、建物はたぶん変わっていません。留学生の他、海外から短期間招聘された先生などもここに住んでいました。

住んでいるところから一番近いスーパーマーケット、Sainsbury's。ここには米と醤油があったので、キッチンで炊き込みご飯っぽいものを作っていました。椎茸の代わりにマッシュルームを入れて、鶏肉と野菜で。パンは麦の粒がごろごろ入っているもの。

ノッティンガム駅。あちらでは長距離バスがかなり発達しているので、移動は基本的にバスでした。ノッティンガム駅は一度しか使ったことがありません。今はsuicaのようなものがあるらしいですが、当時は改札というものがなく、切符は自己申告で、停車駅ではアナウンスも無いので、常に注意していないと乗り過ごしてしまう。しかも、英国では乗り過ごしたら罰金、不正乗車の罪になりましたので、めちゃめちゃ緊張しました。

ノッティンガム城。唯一(?)の観光名所。ロビンフッドの像があります。でも、たまにしか来たことがありません。ほとんどは宿舎と大学を行ったりきたりでした。
posted by jinya at 18:03| Comment(0) | 日記 | このブログの読者になる | 更新情報をチェックする

クラークスのビジネスシューズ

先日、十何年ぶりかに渋谷のクラークスに行ったところ、ビジネスシューズの取り扱いがあって、大喜びした話です。

クラークス(Clarks, http://www.clarks.com/ )はイギリスの靴メーカーで、創業1825年とのことですから、およそ200年ほども続いている老舗です。私がまだ学生時代、イギリスの中部にあるノッティンガムというところに留学していたとき、靴を買いたいんだけれどと相談したところ、中心街にあるこのお店を、この街で靴を買うならここしか無い!っていうくらい猛烈に勧められて、黒いビジネスシューズを購入しました。このお店です。(→street view )まだ残っていました、さすがイングランドです。

さて、その後日本に戻ってきて就職し、数年はこのときに買った靴を愛用していたのですが、あるときついに破れてしまいまして、同じ靴はないかと思い日本の取扱店を探したのですが、まったく見つかりません。15年ほど前でしょうか。当時、日本のクラークスでは、コンフォートシューズの取り扱いしかなく、クラークスというブランドは普通の靴メーカーではなくて、コンフォートシューズメーカーという位置づけでブランディングされていたんです。ですから、本国では普通の靴メーカーで、ビジネスシューズもお店にたくさん並んでいたのに、日本では結局それらを買うことはできませんでした。当時はまだネット通販など始まったばかりで、amazon.comも本しか売っていなかった時代ですから、日本にいてイングランドの靴を買うことは困難でした。

その後、私の靴探しの放浪が始まります。合う靴が全く見つかりません。おそらく足の形が悪いのと、無理に合わない靴を履いたせいで足の指の関節を痛めてしまい、今でも合わない靴を履くとすぐに痛くて歩けなくなってしまいます。ですので、結婚式などどうしても履かなければならないときには我慢して履きますが、基本的には黒いスニーカーなどをで代用していました。そうすると、スーツなどもだんだん着にくくなって、ジャケットにチノパンという格好が多くなりました。思い出すたびに買ってはみるのですが、数回履いては捨てることも何度も。5万円ほどするのも試しましたし、いろんな形を履いてみて、たまに変な形のでしばらく我慢して履いてフィットさせられても、変な形なのですぐ廃番になってしまってまた放浪です。

ということで、ビジネスシューズにはずっと悩んできたのですが、先日上のクラークスの国内店舗(渋谷店)を何気なくのぞいてみたところ、なんとビジネスシューズが並んでいるではないですか。驚いて店員さんに尋ねてみると、数年前から取り扱いしているのだとか。早速一足はいてみたところ、柔らかいし、フィットするし、即決で購入、ついでに近所のお店で最近来ていないスーツも購入して帰りました。いまのところ快適に履いています。やっと自分が履ける革靴のお店が見つかりましたから、これからは、いままで茶色の革靴が無かったため(黒さえ見つからない状態なので)に着られなかった淡色のスーツやパンツも合わせられそうです。
posted by jinya at 17:16| Comment(0) | 日記 | このブログの読者になる | 更新情報をチェックする

2017年02月22日

巨大なcsvファイルのヘッダだけ取り替えたい

巨大なcsvファイルのヘッダだけを取り替えたいということがしばしばあります。例えば、あるソフトウェアにデータを読み込ませたいのだけれど使用できない文字が入っているとか、ヘッダにだけ2バイト文字が入っていて、それらを英数になおしたいとか、ヘッダをつけ間違えたとか。でも、大きすぎてエディタで開いて修正することはできないし。

修正したいヘッダ付きのcsvファイルをA.csvとし、修正済みのヘッダだけを一行書いたファイルをH.csvとします。A.csvのヘッダをH.csvで取り替えて、B.csvに出力します。

コマンドラインから、

cat H.csv <(cat A.csv | tail -n +2) > B.csv

でOK。一つ前の記事でも使ったプロセス置換です。

この方法が本領発揮するのは、巨大なデータファイルがgzipされているとき。そもそも大きいファイルは圧縮されていることが多く、これらを展開するとやたらディスクを食うので、できれば圧縮したまま取り扱いたい。その場合には

cat H.csv <(zcat A.csv.gz | tail -n +2) | gzip > B.csv.gz

こうすれば、展開ファイルを作ることなくヘッダを取り替えられます。

posted by jinya at 23:29| Comment(0) | 日記 | このブログの読者になる | 更新情報をチェックする

2017年02月06日

【bash】teeとプロセス置換を使ってパイプを分岐

bashにてteeとプロセス置換を使ってパイプを分岐する方法の備忘録です。

bashのパイプラインはテキスト処理に便利ですね。ビッグデータが普通に取り扱われるようになった昨今ですが、システムに組み込み済みの処理はともかく、アドホックなデータ分析業務の場合はまだまだテキストファイルでデータを受け渡しすることが多いです。そうすると、データが巨大な場合はそれをちょっと確認するだけでも一苦労もふた苦労もあったりして、そんなときにbashのテキスト処理系コマンドが威力を発揮します。

ここで、途中まで同じで、後ろが異なる処理を複数やりたい場合がありました。例えば、

zcat file0.gz | ./script0 | ./script1 > file1
zcat file0.gz | ./script0 | ./script2 > file2
zcat file0.gz | ./script0 | ./script3 > file3

のようなケースです。

ここで、file0.gzが小さくて、script0が一瞬で終わるようなものだったらどうってことないのですが、数ギガとか数十ギガという巨大なファイルを取り扱う場合には、このscript0を三回繰り返すのが勿体ない。かといって、script0を適用した結果を保存しておくにはディスクスペースが勿体ない。

そこで、teeを使ってパイプラインを分岐し、それぞれ結果を出力します。

zcat file0.gz | ./script0 | tee >(./script1 > file1) \
| tee >(./script2 | file2) | ./script3 > file3

こうすると、file0の展開ファイルを作る必要が無く、また、script0を適用する回数も一回で済み、やりたい三つの作業を実行することができます。繰り返しになりますが、file0.gzが小さかったり、script0の処理が軽かったりすればなにもこんな面倒なことをしなくて済むのですが、巨大で重い場合はこれだけでかなりの時間節約になります。

なお、各scriptがメモリを大きく食う場合はメモリ不足に要注意です。そもそもパイプラインは一行単位のテキスト処理であるケースが多いですから、その場合はあまり気にしなくても大丈夫だろうと思います。


ちなみにこれを何に使ったかというと、あるPOSデータを記した巨大なcsvファイルの整形です。このファイルには、商品情報と店舗情報がマスターになっておらず、一つのテーブルにまとめて書いてありましたので、


zcat pos.csv.gz | nkf -Sw | sed -e 's/,/\t/g' -e 's/\"//g' \
| tee >(cut -f 3,4,5,6 | sort -u > item.txt) \
| tee >(cut -f 7,8,9,10 | sort -u > shop.txt) \
| cut -f 1,2,3,7,11,12 | gzip > transaction.txt.gz


こうやって商品マスター、店舗マスター、トランザクションの三つに分割しています。このcsvはたまたま要素内に半角カンマがないことがわかっていたので、切り出しは単純にカンマ区切りでOKでしたが、ダブルクオーテーションの中にカンマや改行が入っていたらもっと厄介なことになっていました。カラム3と7がそれぞれ商品マスタと店舗マスタの固有IDです。pos.csv.gzはめちゃめちゃ巨大なので、展開したデータを置いておきたくないですし、さらに文字コードを変換したデータを置くのも厳しいので、展開と文字コード変換を一度だけ実施した上で三つの作業を同時にやりたかった、というわけです。

posted by jinya at 19:59| Comment(0) | 日記 | このブログの読者になる | 更新情報をチェックする

2016年12月07日

「この世界の片隅に」〜テレビプロモーションによらない、前代未聞の情報拡散事例

最近、マーケティング系の研究会でヒットとクチコミとの関係モデルを研究していまして(参考:電通/吉田財団助成研究から、画期的な成果(「環メディア」の発見と「コクーンブレークモデル」の実証)が生まれた(法政大小川教授のブログ))、日頃からヒット商品とそのクチコミは興味深くウォッチしているのですが、今年は映画が非常に面白いですね。「聲の形」、「シン・ゴジラ」、「君の名は。」、そして「この世界の片隅に」。どれもネットメディアやSNSでかなり話題になっており、興行成績もそれに合わせてこれまでの映画と異なる推移を示しているようです。

その中でも大注目しているのが、「この世界の片隅に」です。

上のリンクで示したモデルは、草の根から発信が始まって、ある時期に中規模ネットメディアに見つかり、それが拡散を広範化させ、それを繰り返すうちにテレビに見つかって大ブレークするというメカニズムを観察しています。最初のステップは共通の趣味の人が訪れるまとめサイト、次は中規模のネットニュース、それがYahoo!JAPANのニュースに繋がり、地上波ワイドショーで取り上げられてブレークするのが共通したヒットの法則でした。しかしこれを裏返すと、大ヒットの裏には必ずテレビの影響があるということ。大ヒットにはテレビは欠かせないメディアであり、テレビの影響なくして大ヒットには繋がらない(もしくは、非常に難しい)というのが、コクーンブレークモデルの結論の一つです。

しかし、映画「この世界の片隅に」は、もしかしたらそのモデルを覆すのかもしれません。なぜなら、これまでテレビでのプロモーションがほとんど行われていないからです。さらには、SNSやネットメディアでこれほどまでに盛り上がっているのにもかかわらず、ワイドショー等が取り上げない(上のコクーンブレークモデルでは、ある程度の盛り上がりがあったら、テレビがそれを見つけて再拡散するというメカニズムが働く)という希有な事例でもあります。

プロモーションが行われない理由、また、テレビがニュースとして取り上げない理由はここでは関知するところではありませんし、議論する気もありません。私が科学として興味があるのは、テレビ露出がこれまでほとんどないという事実に対して、そのような商材がなぜこれほどまでに情報拡散され、消費されているのか、その情報がどのような拡散のメカニズムを経由したのかというところです。特に、映画館ではお年寄りの姿も多いとのことですが、しかし、お年寄りはネットを利用するよりも、テレビから情報を得るのが圧倒的というのがこれまでのモデルでした。もしかしたら、いわゆるM3F3層のネット利用率、ネット使いこなし率は、現在思っているよりもかなり高いのかもしれない、などの興味がどんどん湧いて出てきます。もちろん、実際のデータを見てみないことには本当のところはわかりませんが、想像するだけでも、これまでのプロモーションの通説を覆すいろんな要素が、この映画の拡散プロセスには詰まっているような気がします。


ところで。

本作品、もちろん科学としての興味も大きいのですが、私はこの映画自体も素晴らしいと感じましたし、作品の素晴らしさが突き抜けているからこそ、大規模プロモーション無しでこれほどの拡散が観察されるのだろうと思いました。実は二度ほど観に行きまして。私の祖母がちょうどすずさんと同じくらいの年齢だと思います。幼い父を抱えて空襲の中を逃げたという当時の話を聞いていましたから、あの光景が非常に身近に感じられます。防空壕の中にいて、落ちてくる爆弾の音のリアリティも鳥肌がたつほどの恐怖をかき立てます。そして、クライマックスからエンディングにかけての子持ちの親としての感慨もあります。つまり、そもそも作品として素晴らしいし、また、観終わった後、これを身近な人にもぜひ見てもらいたいと思う気持ちが非常に強く感じられるのが、本作品の特徴なのだろうと思います。

最初はわずか63館で始まったとのことですが、年明けには190もの映画館での上映が決まっているとのこと。また、海外上映への動きも始まっているとのことで、今後も興味深く観察していきたいと思います。あとは、データがあったらぜひ分析してみたいですね。
posted by jinya at 20:27| Comment(0) | 日記 | このブログの読者になる | 更新情報をチェックする

2016年10月06日

新会社「ゴーガ解析コンサルティング」設立の趣旨

早いもので、新会社を設立してから三ヶ月が経ちました。ブログの引越がずるずると先延ばしになっていたのにやっと手を付けまして、全部こちらの jinya.seesaa.net に引っ越しました。

設立したのは「株式会社ゴーガ解析コンサルティング」で、以前に取締役を務めていました株式会社ゴーガからデータ分析・解析のチームを子会社で分社化しました。旧社で10年やったので、もう一度経営方針を考え直して心機一転といったところです。目論見は二つありまして、一つは解析だけのチームで子会社化することで、データ分析コンサルティングの分野でより一層の機動力を発揮することなのですが、もう一つは人事面の見直しです。

ウェブの世界とデータ分析の世界は似ているようでちょっと違っていて、ウェブの世界は習うより慣れろでぐいぐい開発の経験値を溜めて一人前になる印象がありますけれど、データ分析の世界は地味な作業や勉強とコミュニケーションを積み上げなければなかなか一人前にはなれません。技術の一点突破ではなくて、技術と理論とコミュニケーションを偏りなく高めていく必要があります。少なくとも、私が志向するデータ解析コンサルティングとはそういう方向性です。その結果、どうしても人材育成には時間がかかる。その時間差みたいなものを解消しようというのが、今回の分社化のもう一つの目論見です。

数年前から「ビッグデータ」と共に「データサイエンティスト」なるキーワードがもてはやされて、業界団体ができたり(弊社も参加しています)人材争奪合戦が激しさを増してきたりしていますが、サイエンスは流行り廃りに左右されるものではありません。数学や統計学などの知識と経験をしっかりと基礎から積み上げて、そこに最新のデータエンジニアリングのテクニックと、ビジネスの知見を織り交ぜてコンサルティングができる、そういう人材を育成していくことが、私の次の10年の取り組みです。
posted by jinya at 15:13| Comment(0) | 日記 | このブログの読者になる | 更新情報をチェックする

2016年09月23日

Windows10のアップグレード後、メモリの使用可能域が半分に

最近、自分の計算用マシンにWindows10のアニバーサリーアップグレードを入れてから、調子が悪いなぁと思っていたのですが、メモリの使用可能域が半分になっていることに気がつきました。[システム]を見ると、実装メモリ(RAM)は16GBなのに、その横に括弧書きで(使用可能 7.68GB)と書いてあることを発見。リソースモニターなどもよくよく見ると最大が8GBになっていて、ハードウェア予約済みに半分の8GBが持って行かれている状況。

ググると、BIOSだ、内蔵グラフィックだ、ブートだ、といろんな説が出てきたのですが、どれを実行しても効果がなかったり、そもそも項目がなかったり。と、その中の一つの解決方法に、「メモリを刺し直す」っていうのがあって、まさかそんなとは思いつつ最後の手段として実施してみたところ、見事解決。そんなバカな、と思いながらも、やってみるものですね。

ところで、アニバーサリーアップグレードはもちろん、Ubuntu on Windowsを試すために入れたのですけれど、これは開発者モードをONにすると自動的にsshもONになります。それなりに危ないので、UoWを使う際はsshのサービスは無効化しておくのがよいと思います。
posted by jinya at 18:54| Comment(0) | 日記 | このブログの読者になる | 更新情報をチェックする

2016年05月23日

ゴーガ解析コンサルティング設立のお知らせ

「株式会社ゴーガ解析コンサルティング」を設立します。

ニュースリリース:
http://www.goga.co.jp/company/news20160523.html

営業開始は7月1日より。ただいま鋭意準備中です。
今後ともよろしくお願いします。

posted by jinya at 20:12| Comment(0) | 日記 | このブログの読者になる | 更新情報をチェックする