Skip to content

sato1214syun/python-mi-for_chemical_engineering

Repository files navigation

化学・化学工学のための実践データサイエンス―Pythonによるデータ解析・機械学習―

書籍「化学・化学工学のための実践データサイエンス―Pythonによるデータ解析・機械学習―」(金子弘昌 著) のサンプルプログラム・サンプルデータセットです。
内容: https://datachemeng.com/python_intermediate_asakura/

本書のURL
朝倉書店: https://www.asakura.co.jp/detail.php?book_code=25047
Amazon: https://www.amazon.co.jp/dp/4254250479

サンプルプログラムの使い方は本書に記載されています。本を読んでデータ解析・機械学習の学習をしながら、サンプルプログラムによりデータ解析・機械学習の実行結果を確認できます。さらに、サンプルプログラムにより本の中で説明されている材料設計・分子設計・ソフトセンサー解析・異常検出・異常診断の実行もできます。ぜひご利用ください。

目次

  1. はじめに
    1.1 分子設計・材料設計・プロセス設計・プロセス管理
    1.2 事前準備~Python 環境と DCEKit~

  2. データセットの作成
    2.1 データ解析前における説明変数 x の決め方・選び方の方針
    2.2 複数の物質が混合されてできた物質の特徴量の作成
    2.3 モデルの逆解析により得られるサンプルの多様性を高める

  3. 化学データ・化学工学データの前処理
    3.1 説明変数の標準化をするべきときと、するべきでないとき
    3.2 標準偏差(分散)が0の説明変数を削除してよいのか
    3.3 対数変換やロジット変換による特徴量の非線形変換
    3.4 スペクトル・時系列データの前処理の方法
    3.5 外れ値検出もしくは外れサンプル検出
    3.6 回帰分析のときに外れサンプルを検出する手法
    3.7 欠損値(欠損データ)の補完

  4. 特徴量選択(変数選択)
    4.1 特徴量選択(変数選択)をするときに注意すること
    4.2 同じ値を持つ特徴量の削除
    4.3 相関係数で特徴量選択
    4.4 相関係数で特徴量のクラスタリング
    4.5 GAPLS, GASVR
    4.6 スペクトル解析における波長領域の選択
    4.7 時系列データ解析におけるプロセス変数とその時間遅れの選択
    4.8 Boruta

  5. データセットの可視化・見える化
    5.1 データセットの可視化をする理由
    5.2 データの可視化・見える化のための手法を選ぶときのポイント
    5.3 見える化・可視化した結果を評価する指標
    5.4 GTM

  6. クラスタリング
    6.1 クラスタリングのメリット
    6.2 GMM
    6.3 SGTM

  7. 回帰分析とクラス分類
    7.1 定性的な特徴量を定量的な特徴量に変換する方法
    7.2 回帰分析からクラス分類へ、またはクラス分類から回帰分析へ変換するときのメリットとデメリット
    7.3 アダブースト
    7.4 勾配ブースティング
    7.5 各サブモデルの適用範囲を考慮したアンサンブル学習
    7.6 半教師あり学習(半教師付き学習)
    7.7 半教師あり学習におけるサンプル選択
    7.8 転移学習
    7.9 モデルの予測精度を上げるための考え方・方針

  8. モデルの検証
    8.1 回帰分析手法・クラス分類手法の選び方
    8.2 モデルの評価と最適化に関する注意
    8.3 最適化する際の注意点
    8.4 ハイパーパラメータの選択に失敗してしまったときの対処法
    8.5 回帰分析における目的変数の実測値 vs. 推定値プロットの見方
    8.6 オーバーフィッティング(過学習)とその対処法
    8.7 小さなデータセットが抱える大きな問題と、その対処法
    8.8 回帰分析・クラス分類をするときの、トレーニングデータとテストデータの分け方
    8.9 ダブルクロスバリデーション(モデルクロスバリデーション)
    8.10 yランダマイゼーションでオーバーフィッティング(過学習), chance correlation(偶然の相関)の危険度を評価
    8.11 クロスバリデーションのとき、特徴量の標準化はどうするか
    8.12 クロスバリデーションなしでのハイパーパラメータの最適化
    8.13 テストデータの MAE をトレーニングデータから推定する方法
    8.14 テストデータ・バリデーションデータにおけるモデルの精度が低いときのポジティブな側面

  9. モデルの適用範囲・ベイズ最適化
    9.1 モデルを構築するのにサンプルはいくつ必要か
    9.2 内挿・外挿はモデルの適用範囲内・適用範囲外と異なる
    9.3 守りの AD、攻めの BO
    9.4 モデルがどれくらい外挿できるかの検証方法
    9.5 ガウシアンカーネルを用いたサポートベクター回帰ではモデルの適用範囲を考慮しなくてよいのか
    9.6 特徴量を適切に非線形変換することでモデルの適用範囲を拡大する

  10. モデルの逆解析
    10.1 モデルの逆解析をするときのチェックリスト
    10.2 モデルの予測性能が低いときも、モデルの逆解析をやるべきか
    10.3 目的変数の予測値だけでなく、説明変数の感度も設計のときに考慮する
    10.4 ランダムフォレストや決定木で構築したモデルの逆解析
    10.5 部分的最小二乗法でモデル逆解析をするときのメリット
    10.6 材料設計の限界 (モデルの逆解析の限界) はわかるのか
    10.7 モデルの予測結果の活用方法~モデルの逆解析と目的変数の評価~
    10.8 目的変数が複数個ある時のモデルの逆解析
    10.9 GMR
    10.10 VBGMR
    10.11 True GMR と説明変数に制約条件がある中での遺伝的アルゴリズムを用いた解析
    10.12 GTMR
    索引

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published