Easy to type

個人的な勉強の記録です。データ分析、可視化などをメイントピックとしています。

StanのThreading動作確認

TL; DR Stanのmap_rect使うchain内並列化は、たぶんデータ点が10万ぐらいはないとご利益ないような…。その10万個を切って並列処理する感じ。— Kentaro Matsuura (@hankagosa) 2018年10月10日 導入 PyStanは2.18.0系からStanに搭載されたThreading機能を使う…

離散ハート型分布の導出とシミュレーション

概要 相変わらず、ちょこちょこと円周統計を勉強しています。 角度データのモデリング ISMシリーズ:進化する統計数理作者: 清水邦夫出版社/メーカー: 近代科学社発売日: 2018/01/30メディア: Kindle版この商品を含むブログを見る テキスト中では、方向統…

角度データの変化検知を可視化するプロット

概要 角度データの解析を勉強しています。 角度データのモデリング (ISMシリーズ:進化する統計数理)作者: 清水邦夫出版社/メーカー: 近代科学社発売日: 2018/01/30メディア: 単行本この商品を含むブログを見る この書籍中ではP95で、時系列角度データの変化…

Python + Pyomoによる(非線形)数値最適化

TL; DR Pythonのデータマネジメント技術と数値最適化をスムーズに繋げたい Pyomoを使うことで自然な記法でモデルを組み立てることが出来る Webドキュメントは貧弱だが、コミュニティは活発! 概要 数値最適化は機械学習や数値モデリングの基礎も基礎ですが、…

Pythonによる超初歩的な金融資産解析(ついでのビットコイン)

概要 資産を増やす金融商品として、投資信託や株、債権なんかがメジャーです。初歩的なポートフォリオ理論では 株などの資産がどのように変動するかは予測することが出来ない 一方で経済は成長するので、全体を長期的に見たらプラスに成長する なので、分散…

人生で初めて[海外に||一人で||猫と]暮らしている(現在進行系)

いい機会なので、滞在中の心境を研究留学 Advent Calendar 2017に似せたフォーマットで纏めておきます。 どうやって行ったか 8月11日、研究室の指導教員から「ベルギーにいる僕の友人が、短期滞在で研究員を探しているんですけど、興味ありますか?」と言わ…

Stanで生存時間解析(Weibull 回帰)

生存時間解析とは? 生存時間解析は、イベントの時間を解析するための手法です。例えば、 ソーシャルゲームやwebサービスなどに登録した人の利用継続時間(マーケティング) 投薬群と対照群(プラセボ)で、どれだけ長生きするか(医用統計) 新規材料が既存の材料…

StanとPythonでベイズ統計モデリング その3 Chapter6

アヒル本(StanとRでベイズ統計モデリング)のChapter6にPythonで取り組んでいきます。 この章は丁寧に分布を解説していくものなので、内容の復習は飛ばします。おざなりにされそうな章ですが、自分でパラメータをいじって分布からサンプリングしてみると新し…

StanとPythonでベイズ統計モデリング その2 Chapter5

アヒル本(StanとRでベイズ統計モデリング)のChapter5にPythonで取り組んでいきます。 練習問題を解いて、本文中に書かれてるグラフをPythonで描いてみます。 なおChapter1~3は導入だったのと、Chapter4は練習問題の内容が「はじめての統計データ分析」と被っ…

StanとPythonでベイズ統計モデリング その1

StanとRでベイズ統計モデリング(通称アヒル本)をだいたい読みました。 StanとRでベイズ統計モデリング (Wonderful R)作者: 松浦健太郎,石田基広出版社/メーカー: 共立出版発売日: 2016/10/25メディア: 単行本この商品を含むブログ (8件) を見る 本の紹介 既…

はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学― その7

その7です。今回は第6章の章末問題に取り組んでいきます。 6章 比率とクロス表の推測 内容 離散的な値をとるカウントデータの解析 比率の差のz検定、クロス表のカイ二乗検定のオルタナ カテゴリカル分布 : カテゴリカルな分類においてカウントとして得られる…

はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学― その6

その6です。今回は第5章の章末問題に取り組んでいきます。 5章 実験計画による多群の差の推測 内容 分散分析によるF検定へのオルタナ 要因から生じる影響の調査 要因 : 離散的なカテゴリーによる影響のこと 水準: 要因が取りうる様々な状態のこと 水準数: 水…

はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学― その5

その5です。今回は第4章の章末問題に取り組んでいきます。 4章 対応ある2群の差と相関の推測 内容 対応ある2群のt検定のオルタナとして機能します 対応ある、の意味とは? 同じ観察対象から2回測定しているもの beforeの体重とafterの体重のセット * n個など…

はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学― その4.1

対応のあるt検定を行う前に、3章の内容を等分散モデルで書くとどうなるか、をちゃんと検証します。 番外編 3章の等分散モデルと変分ベイズによる推定 等分散モデルによる差の推定 といっても、Stanのモデルをちょっと変えるだけなのでした。 まずコンパイル …

はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学― その4

その4です。今回は第3章の話をしていきます。 3章 独立した2群の差の推測 内容 2群に分けた群比較をする際には、ランダム化による交絡因子の排除が重要!(ランダマイゼーション) 2群の、どんな差を見たいかで仮説は変わる 群1の平均が群2の平均を上回る確率 …

はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学― その3

その3です。今回は第2章の話をしていきます。 2章 MCMCと正規分布の推測 内容 解析的に事後分布を推定するのは難しい! ベイズの定理を利用しても、分母に位置する正則化定数の積分が複雑で解析的に解けない 事後分布に従う乱数を発生させる、という発想転換…

はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学― その2

前置き 環境構築 まずPythonを実行する環境を作ります。 一応メモとして書きますが、他にもPythonの導入の記事はたくさんありますので、そちらも参考ください。 以下のものはOSXを想定しています。 自分は基本的にはpyenv + pyenv-virtualenvを利用していま…

はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学― その1

このブログの開設目的の、 はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学―作者: 豊田秀樹出版社/メーカー: 朝倉書店発売日: 2016/06/02メディア: 単行本(ソフトカバー)この商品を含むブログ (11件) を見る についての記事インデックスで…

ブログ始めました。

自己紹介 ブログ始めました。 普段は次世代シーケンサー(NGS)を用いた遺伝統計学や、ゲノム配列から得られる知見の解析、それらのツール・DB開発などを行っています。 ブログの目的 自身で勉強したことを内部のWikiに書いていたのですが、もっと外部に公開し…