糖尿病は、医学会でよく知られるいくつかのパラメーターから発見することが可能です。 この測定により、医学界とコンピューター化されたシステム(特に AI)を支援すべく、(米)国立糖尿病・消化器・腎疾病研究所(NIDDK)は、糖尿病の検出/予測における ML アルゴリズムをトレーニングするための非常に便利なデータセットを公開しました。 このデータセットは、ML の最大級のデータリポジトリとして最もよく知られている Kaggle に公開されています: https://www.kaggle.com/datasets/mathchi/diabetes-data-set。
糖尿病データセットには、以下のメタデータ情報が含まれています(出典: https://www.kaggle.com/datasets/mathchi/diabetes-data-set):
- Pregnancies: 妊娠回数
- Glucose: 経口ブドウ糖負荷試験における 2 時間後の血漿グルコース濃度
- BloodPressure: 拡張期血圧(mm Hg)
- SkinThickness: 上腕三頭筋皮下脂肪厚(mm)
- Insulin: 2 時間血清インスリン(mu U/ml)
- BMI: ボディマス指数(体重 kg/(身長 m)^2)
- DiabetesPedigreeFunction: 糖尿病血統要因(親族の糖尿病歴、およびこれらの親族と患者の遺伝的関係に関するいくつかのデータが提供されました。 この遺伝的影響の測定により、真性糖尿病の発症に伴う遺伝的リスクについての考えが得られました - 出典: https://machinelearningmastery.com/case-study-predicting-the-onset-of-di...)
- Age: 年齢
- Outcome: クラス変数(0 または 1)
インスタンス数: 768
属性数: 8 + class
各属性について:(すべて数値)
- 妊娠回数
- 経口ブドウ糖負荷試験における 2 時間後の血漿グルコース濃度
- 拡張期血圧(mm Hg)
- 上腕三頭筋皮下脂肪厚(mm)
- 2 時間血清インスリン(mu U/ml)
- ボディマス指数(体重 kg/(身長 m)^2)
- 糖尿病血統要因
- 年齢
- クラス変数(0 または 1)
属性値の欠落: あり
クラス分布:(クラス値 1 は「糖尿病の検査で陽性」として解釈)
Kaggle から糖尿病データを取得する
Kaggle の糖尿病データは、Health-Dataset アプリケーション(https://openexchange.intersystems.com/package/Health-Dataset)を使って IRIS テーブルに読み込めます。 これを行うには、module.xml プロジェクトから依存関係(Health Dataset 用の ModuleReference)を設定します。
Health Dataset アプリケーションリファレンスを含む Module.xml
糖尿病を予測するための Web フロントエンドとバックエンドのアプリケーション
Open Exchange アプリのリンク(https://openexchange.intersystems.com/package/Disease-Predictor)に移動し、以下の手順に従います。
- リポジトリを任意のローカルディレクトリに Git pull します。
$ git clone https://github.com/yurimarx/predict-diseases.git
- このディレクトリで Docker ターミナルを開き、以下を実行します。
$ docker-compose build
- IRIS コンテナを実行します。
$ docker-compose up -d
- AI モデルをトレーニングするための Execute Query into Management Portal(http://localhost:52773/csp/sys/exp/%25CSP.UI.Portal.SQL.Home.zen?$NAMESPACE=USER)に移動します。
- トレーニングに使用するビューを作成します。
CREATE VIEW DiabetesTrain AS SELECT Outcome, age, bloodpressure, bmi, diabetespedigree, glucose, insulin, pregnancies, skinthickness FROM dc_data_health.Diabetes
- ビューを使用して AI モデルを作成します。
CREATE MODEL DiabetesModel PREDICTING (Outcome) FROM DiabetesTrain
- モデルをトレーニングします。
TRAIN MODEL DiabetesModel
-
http://localhost:52773/disease-predictor/index.html に移動し、Disease Predictor フロントエンドを使用して、以下のように疾患を予測します。
背後の処理
糖尿病を予測するためのバックエンドのクラスメソッド
InterSystems IRIS では、前に作成されたモデルを使って予測するSELECT を実行することができます。
糖尿病を予測するためのバックエンドのクラスメソッド
これで、どの Web アプリケーションもこの予測を使用して、結果を表示できるようになりました。 predict-diseases アプリケーションのソースコードは、frontend フォルダをご覧ください。