Easy to type

個人的な勉強の記録です。データ分析、可視化などをメイントピックとしています。

StanのMAP推定の収束判定についてのコードを読む

概要 Stanではoptimizing関数(R)/メソッド(Python)を使うことで尤度関数の最大化を実施することができます。デフォルトではL-BFGSアルゴリズムが使われているのですが、これに対する収束は幾つかのパラメータで制御されています。そのメモ記事です。 もし収…

DockerでPyomo+Jupyterlabの実行環境をパッケージ化

概要 ajhjhaf.hatenablog.com このブログの技術関連で最もアクセスとかコメントを頂けるのはこの記事です。その関係もあってか、インストール方法についての質問がたまに飛んできました。 自身でも同じ計算環境をもう一度作るのがかなりしんどそうだな、と思…

こうしてGoogleに落ちた

TL;DR Leetcodeをもっとやる必要がありました Googleの社員が選考過程についてブログを書いています。ちょっと前にNTTブームを引き起こしたid:kumagiさんとか。 kumagi.hatenablog.com ところで、僕もGoogleの選考をわずか一ヶ月前に受け、そして落ちました…

ScipyでBrunner-Munzel検定

概要 Brunner-Munzel検定は、不当分散のときに使えるノンパラメトリック検定です。ランクから、得られたデータの中央値に有意差があるか検出します。 ノンパラメトリックの検定では、Wilcoxon-Mann-WhitneyのU検定が非常に有名ですが、この検定は不当分散の…

Stanで非閉型な逆関数を含む分布のモデリング

概要 この記事はStanアドベントカレンダー-5日目の記事です(冗談です)。 趣味でやっている円周分布の勉強もそこそこ進みました。この記事では、清水本に載っている逆Batchelet変換(Inverse batschelet transformation)を使った分布をStanで実装して、現時点…

StanのThreading動作確認

TL; DR Stanのmap_rect使うchain内並列化は、たぶんデータ点が10万ぐらいはないとご利益ないような…。その10万個を切って並列処理する感じ。— Kentaro Matsuura (@hankagosa) 2018年10月10日 導入 PyStanは2.18.0系からStanに搭載されたThreading機能を使う…

離散ハート型分布の導出とシミュレーション

概要 相変わらず、ちょこちょこと円周統計を勉強しています。 角度データのモデリング ISMシリーズ:進化する統計数理作者: 清水邦夫出版社/メーカー: 近代科学社発売日: 2018/01/30メディア: Kindle版この商品を含むブログを見る テキスト中では、方向統…

角度データの変化検知を可視化するプロット

概要 角度データの解析を勉強しています。 角度データのモデリング (ISMシリーズ:進化する統計数理)作者: 清水邦夫出版社/メーカー: 近代科学社発売日: 2018/01/30メディア: 単行本この商品を含むブログを見る この書籍中ではP95で、時系列角度データの変化…

Python + Pyomoによる(非線形)数値最適化

TL; DR Pythonのデータマネジメント技術と数値最適化をスムーズに繋げたい Pyomoを使うことで自然な記法でモデルを組み立てることが出来る Webドキュメントは貧弱だが、コミュニティは活発! 概要 数値最適化は機械学習や数値モデリングの基礎も基礎ですが、…

Pythonによる超初歩的な金融資産解析(ついでのビットコイン)

概要 資産を増やす金融商品として、投資信託や株、債権なんかがメジャーです。初歩的なポートフォリオ理論では 株などの資産がどのように変動するかは予測することが出来ない 一方で経済は成長するので、全体を長期的に見たらプラスに成長する なので、分散…

人生で初めて[海外に||一人で||猫と]暮らしている(現在進行系)

いい機会なので、滞在中の心境を研究留学 Advent Calendar 2017に似せたフォーマットで纏めておきます。 どうやって行ったか 8月11日、研究室の指導教員から「ベルギーにいる僕の友人が、短期滞在で研究員を探しているんですけど、興味ありますか?」と言わ…

Stanで生存時間解析(Weibull 回帰)

生存時間解析とは? 生存時間解析は、イベントの時間を解析するための手法です。例えば、 ソーシャルゲームやwebサービスなどに登録した人の利用継続時間(マーケティング) 投薬群と対照群(プラセボ)で、どれだけ長生きするか(医用統計) 新規材料が既存の材料…

StanとPythonでベイズ統計モデリング その3 Chapter6

アヒル本(StanとRでベイズ統計モデリング)のChapter6にPythonで取り組んでいきます。 この章は丁寧に分布を解説していくものなので、内容の復習は飛ばします。おざなりにされそうな章ですが、自分でパラメータをいじって分布からサンプリングしてみると新し…

StanとPythonでベイズ統計モデリング その2 Chapter5

アヒル本(StanとRでベイズ統計モデリング)のChapter5にPythonで取り組んでいきます。 練習問題を解いて、本文中に書かれてるグラフをPythonで描いてみます。 なおChapter1~3は導入だったのと、Chapter4は練習問題の内容が「はじめての統計データ分析」と被っ…

StanとPythonでベイズ統計モデリング その1

StanとRでベイズ統計モデリング(通称アヒル本)をだいたい読みました。 StanとRでベイズ統計モデリング (Wonderful R)作者: 松浦健太郎,石田基広出版社/メーカー: 共立出版発売日: 2016/10/25メディア: 単行本この商品を含むブログ (8件) を見る 本の紹介 既…

はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学― その7

その7です。今回は第6章の章末問題に取り組んでいきます。 6章 比率とクロス表の推測 内容 離散的な値をとるカウントデータの解析 比率の差のz検定、クロス表のカイ二乗検定のオルタナ カテゴリカル分布 : カテゴリカルな分類においてカウントとして得られる…

はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学― その6

その6です。今回は第5章の章末問題に取り組んでいきます。 5章 実験計画による多群の差の推測 内容 分散分析によるF検定へのオルタナ 要因から生じる影響の調査 要因 : 離散的なカテゴリーによる影響のこと 水準: 要因が取りうる様々な状態のこと 水準数: 水…

はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学― その5

その5です。今回は第4章の章末問題に取り組んでいきます。 4章 対応ある2群の差と相関の推測 内容 対応ある2群のt検定のオルタナとして機能します 対応ある、の意味とは? 同じ観察対象から2回測定しているもの beforeの体重とafterの体重のセット * n個など…

はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学― その4.1

対応のあるt検定を行う前に、3章の内容を等分散モデルで書くとどうなるか、をちゃんと検証します。 番外編 3章の等分散モデルと変分ベイズによる推定 等分散モデルによる差の推定 といっても、Stanのモデルをちょっと変えるだけなのでした。 まずコンパイル …

はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学― その4

その4です。今回は第3章の話をしていきます。 3章 独立した2群の差の推測 内容 2群に分けた群比較をする際には、ランダム化による交絡因子の排除が重要!(ランダマイゼーション) 2群の、どんな差を見たいかで仮説は変わる 群1の平均が群2の平均を上回る確率 …

はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学― その3

その3です。今回は第2章の話をしていきます。 2章 MCMCと正規分布の推測 内容 解析的に事後分布を推定するのは難しい! ベイズの定理を利用しても、分母に位置する正則化定数の積分が複雑で解析的に解けない 事後分布に従う乱数を発生させる、という発想転換…

はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学― その2

前置き 環境構築 まずPythonを実行する環境を作ります。 一応メモとして書きますが、他にもPythonの導入の記事はたくさんありますので、そちらも参考ください。 以下のものはOSXを想定しています。 自分は基本的にはpyenv + pyenv-virtualenvを利用していま…

はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学― その1

このブログの開設目的の、 はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学―作者: 豊田秀樹出版社/メーカー: 朝倉書店発売日: 2016/06/02メディア: 単行本(ソフトカバー)この商品を含むブログ (11件) を見る についての記事インデックスで…

ブログ始めました。

自己紹介 ブログ始めました。 普段は次世代シーケンサー(NGS)を用いた遺伝統計学や、ゲノム配列から得られる知見の解析、それらのツール・DB開発などを行っています。 ブログの目的 自身で勉強したことを内部のWikiに書いていたのですが、もっと外部に公開し…