データの整理

http://apollon.cc.u-tokyo.ac.jp/~watanabe/diary/d201002.html#18

 データの整理。データの管理にはいろんな主義があるだろうが、僕は生データから論文用の図までフルオートマティックにできるシェルスクリプトを用意するべきと考える。誓っても良いが、論文用の図を一度作ったあと、一週間もすればデータの解析手法を忘れる。間違いないく忘れる。で、ジョブを投げ直してもう一度図を作ったら全然違う図になって焦る、なんてことになる。

 シェルスクリプトにしておけば、自分が何をしたかが明らかであるし、とりあえず精度の悪いデータを作っておいて、論文を書きながら精度を上げていく、なんてことをしても図を作り直す手間がほぼゼロとなる。データの改ざん疑惑やデータの恣意的な操作を疑われたときも、スクリプトを提出しておしまい。

Igor Proの良いところは、command windowにデータ処理の過程が残っているところ。完全ではないけど、気をつければだいたい再現できる。他人のデータ整理したものでもある程度は想像できる。Kaleida Graphは、そういう途中経過が残っていないから、どういう処理をして最終的なグラフが出てきたのかがさっぱり分からないことがある。Igorは少々取っつきづらいかもしれないけど、良いソフトだと思う。command windowにスクリプトを書いておけばデータを素早く処理できるのも本当に便利。

論文に出てくるデータって途中経過が曖昧なことが多い。生データおよびそのシェルスクリプトの公開の義務化は意味があることだと思う。