{ "cells": [ { "cell_type": "markdown", "metadata": { "id": "oMv_I3EiF6Rd" }, "source": [ "# Regresja logistyczna, walidacja krzyżowa, krzywe ROC\n", "Autor: Jarosław Żygierewicz" ] }, { "cell_type": "markdown", "metadata": { "id": "yJjklVp9F6Rg" }, "source": [ "## Część I: regresja logistyczna\n", "Ten notebook pomoże Ci zapoznać się z regresją logistyczną. \n", "\n", "Zbudujemy klasyfikator bazujący na regresji logistycznej. Jego zadaniem będzie określanie prawdopodobieństwa przyjęcia kandydata na studia na podstawie wyników z dwóch egzaminów maturalnych (każdy przeskalowany na zakres 0-100%): z matematyki i z biologii. " ] }, { "cell_type": "markdown", "metadata": { "id": "qpPO3J51F6Rj" }, "source": [ "Zanim przejdziemy do właściwych zadań zaimportujmy potrzebne moduły:" ] }, { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": [ "import pandas as pd\n", "import matplotlib.pyplot as plt\n", "import numpy as np\n", "import scipy.optimize as so" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Zestaw uczący pobieramy z repozytorium github i wczytujemy używając klasy Pandas DataFrame. Najpierw pobieramy repozytorium z github. Repozytorium zawiera kod do naszych ćwiczeń, oraz przykładowe dane w katalogu \"dane\"." ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [], "source": [ "#!git clone https://github.com/rav2/uczenie-maszynowe-2021-22" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [], "source": [ "df = pd.read_csv(\"../uczenie-maszynowe-2021-22/dane/reg_log_data.txt\", encoding='latin-1', sep=\",\", names=[\"matematyka\", \"biologia\", \"wynik\"])" ] }, { "cell_type": "markdown", "metadata": { "id": "tK8shSDdF6R2" }, "source": [ "Aby łatwiej było się nimi posługiwać wydzielmy z nich dane wejściowe jako 'X' i wyjściowe jako 'Y':" ] }, { "cell_type": "markdown", "metadata": { "id": "lzoi2OTNF6R7" }, "source": [ "## Analiza wizualna danych. \n", "\n", "Pierwszy krok przy analizie danych z użyciem dowolnego algorytmu to ich inspekcja. Korzystając z metod klasy DataFrame proszę:\n", "* wypisać na ekran framgent danych\n", "* narysować rozkłady wszystkich zmiennych wejściowych, w naszym przypadku wyniku egzaminów z matematyki i biologii dla całego zbioru\n", "* narysować rozkłady wszystkich zmiennych wejściowych, w naszym przypadku wyniku egzaminów z matematyki i biologii dla wierszy gdzie wynik=0\n", "* narysować rozkłady wszystkich zmiennych wejściowych, w naszym przypadku wyniku egzaminów z matematyki i biologii dla wierszy gdzie wynik=1\n", "\n", "**Wskazówka**: proszę użyć filtrowania danych, tak jak to było robione na pierwszych zajęciach." ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " matematyka biologia wynik\n", "0 34.623660 78.024693 0\n", "1 30.286711 43.894998 0\n", "2 35.847409 72.902198 0\n", "3 60.182599 86.308552 1\n", "4 79.032736 75.344376 1\n", ".. ... ... ...\n", "95 83.489163 48.380286 1\n", "96 42.261701 87.103851 1\n", "97 99.315009 68.775409 1\n", "98 55.340018 64.931938 1\n", "99 74.775893 89.529813 1\n", "\n", "[100 rows x 3 columns]\n" ] }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "# uzyj tego do okreslenia rozmiaru obrazka\n", "figsize=(15,5)\n", "# wypisz dataframe\n", "print(df)\n", "# wyplotuj wszystko\n", "df.hist(figsize=figsize);\n", "# wyplotuj tych co zdali\n", "df_passed = df[df[\"wynik\"]==1]\n", "df_passed.hist(figsize=figsize);\n", "# wyplotuj tych co nie zdali\n", "df_failed = df[df[\"wynik\"]==0]\n", "df_failed.hist(figsize=figsize);\n", "\n", "#To samo co powyżej w jednej linii\n", "df.hist(figsize=figsize, by=\"wynik\");" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "To co nas interesuje to są jednak korelacje między zmiennymi. Korzystając z przykładu z pierwszych ćwiczeń proszę:\n", "\n", "* narysować wykres korelacji między zmiennymi wejściowymi dla pełnych danych, oraz wierszy gdzie wynik=0 lub 1\n", "\n", "**Wskazówka**: proszę użyć parametru \"hue\" funkcji sns.jointplot()" ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "import seaborn as sns\n", "\n", "x = sns.jointplot(x=\"matematyka\", y=\"biologia\", data=df_passed, kind='hist')\n", "x.set_axis_labels('matematyka', 'biologia', fontsize=16);\n", "\n", "x = sns.jointplot(x=\"matematyka\", y=\"biologia\", data=df_failed, kind='hist')\n", "x.set_axis_labels('matematyka', 'biologia', fontsize=16);\n", "\n", "x = sns.jointplot(x=\"matematyka\", y=\"biologia\", data=df, kind='hist', hue=\"wynik\")\n", "x.set_axis_labels('matematyka', 'biologia', fontsize=16);" ] }, { "cell_type": "markdown", "metadata": { "id": "KCic0Ta2F6SH" }, "source": [ "## Hipoteza\n", "Dla przypomnienia _hipoteza_ w regresji logistycznej ma postać: \n", "\n", "$\\qquad$ $h_\\theta(x) = \\frac{1}{1+\\exp(-\\theta x^T )}$.\n", "\n", "W implementacji dobrze jest myśleć o tej funkcji tak:\n", "\n", "$\\qquad$ $h_\\theta(x) = \\frac{1}{1+f}$.\n", "\n", "gdzie: $f = \\exp(-\\theta x^T)$\n", "\n", "Proszę napisać funkcję ```logistic_func(x, theta)``` która:\n", "\n", "* implementuje funkcję logistyczną\n", "* jako argumenty przyjmuje parametry regresji logistycznej $(\\theta_{0}, \\theta_{1}, ..., \\theta_{i})$ oraz tablicę danych wejściowych $x$. \n", "* w kodzie fukcji proszę rozszerzyć tablicę $x$ o dodatkową kolumnę jedynek, by parametr $\\theta_{0}$ był traktowany na tej same zasadzie co pozostałe parametry\n", "* ze względu na stabilność numeryczną obliczeń ma ograniczony zakres zmienności. Proszę ograniczyć wartości wykładnika w mianowniku do zakresu $\\pm18$\n", "\n", "**Ostrzeżenie:** x to tablica która może zawierać wiele kolumn i wiele wierszy.\n", "\n", "**Wskazówka**: ograniczając zakres zwracanych wartości proszę skorzystać z funkcji np.where() zaaplikowanej do wektora wartości wykładnika.\n", "\n", "Proszę sprawdzić działanie funkcji na następujących danych testowych:\n", "```\n", "theta = np.array([1,1,2])\n", "x = np.array([[5,5],\n", " [5,6],\n", " [-5,-5],\n", " [-5,-8]])\n", "```" ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "array([ 16., 18., -14., -20.])" ] }, "execution_count": 6, "metadata": {}, "output_type": "execute_result" } ], "source": [ "theta = np.array([1,1,2])\n", "x = np.array([[5,5],\n", " [5,6],\n", " [-5,-5],\n", " [-5,-8]])\n", "x_expanded = np.column_stack((np.ones(x.shape[0]), x))\n", "\n", "np.sum(theta*x_expanded, axis=1)" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "[9.99999887e-01 9.99999985e-01 8.31528028e-07 1.52299795e-08]\n" ] } ], "source": [ "def logistic_func(theta, x):\n", " # dodaj kolumne jedynek\n", " x_expanded = np.column_stack((np.ones(x.shape[0]), x))\n", " #arg1 = (theta.reshape(1, len(theta)) @ x_expanded.T).reshape(-1)\n", " # policz argument funkcji\n", " arg = np.sum(theta*x_expanded, axis=1)\n", " # uzyj np.where żeby ograniczyc wartosci parmetru do [-18,18]\n", " arg = np.where(np.abs(arg)<18, arg, 18*np.sign(arg))\n", " return 1.0/(1+np.exp(-arg))\n", "\n", "\n", "\n", "theta = np.array([1,1,2])\n", "x = np.array([[5,5],\n", " [5,6],\n", " [-5,-5],\n", " [-5,-8]])\n", "res = logistic_func(theta, x)\n", "# poprosze liste o podanym wymiarze na wyniku\n", "assert res.shape == (4,)\n", "print(res)\n" ] }, { "cell_type": "markdown", "metadata": { "id": "ARAowqB7F6SP" }, "source": [ "## Funkcja log-wiarygodności: \n", "Parametry regresji znajdujemy przez maksymalizację [funkcji log-wiarygodności](https://brain.fuw.edu.pl/edu/index.php/Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wykład_6#Funkcja_wiarygodno.C5.9Bci):\n", "\n", "$\\qquad$ $l(\\theta) = \\log L(\\theta) = \\sum_{j=1}^m y^{(j)} \\log h(x^{(j)}) + (1 - y^{(j)}) \\log (1 - h(x^{(j)}))$,\n", "gdzie: \n", "\n", "m - liczebność próbki\n", "\n", "x - dane wejściowe, u nas wyniki z egaminów z matematyki i biologii\n", "\n", "y - dane wyjściowe, u nas wynik rekrutacji na studia\n", "\n", "h - postać zależności wyniku od danych wejściowych. U nas to jest funkcja logistyczna, czyli oczekujemy, że wzór y = h(x) dobrze opisuje zależnośc między danymi wejściowymi, a wyjściowymi.\n", "\n", "\n", "
\n", "\n", "Proszę napisać funkcję ```log_likelihood(theta, x,y, model)``` która:\n", "\n", "* implementuje funkcję log-wiarygodności\n", "* jako argumenty przyjmuje parametry regresji logistycznej $(\\theta_{0}, \\theta_{1}, ..., \\theta_{i})$ oraz tablicę danych wejściowych $x, y$. \n", "* model dla którego szukamy parametrów $\\theta_{i}$ w naszym przypadku to będzie funkcja logistyczna: ```logistic_func```\n", "\n", "**Uwaga**: argument $theta$ musi być pierwszy " ] }, { "cell_type": "code", "execution_count": 27, "metadata": {}, "outputs": [], "source": [ "def log_likelihood(theta, x, y, model):\n", " # Miejsce na twój kod. Użyj argumentu model zamiast konkretnej funkcji.\n", " model_result = model(theta, x)\n", " result = y*np.log(model_result) + (1-y)*np.log(1-model_result)\n", " result = np.sum(result)\n", " return result" ] }, { "cell_type": "markdown", "metadata": { "id": "7pCk325NF6SS" }, "source": [ "Maksymalizacja to zadanie optymalizacyjne - szukamy optymalnych parametrów, a kryterium optymalności to maksymalna wartość funckji log-wiarygodności.\n", "W tym ćwiczeniu zrobimy to za pomocą funkcji optymalizacyjnych z modułu [scipy.optimize]( http://docs.scipy.org/doc/scipy/reference/optimize.html#module-scipy.optimize). \n", "\n", "\n", "Wynikają z tego dwie konsekwencje:\n", "* funkcje te są przystosowane do szukania minimów funkcji celu. Musimy więc podawać im jako argumenty funkcję minus log-wiarygodności\n", "* niektóre algorytmy mogą działać szybciej jeśli zaimplementujemy jawnie postać pochodnej:\n", "\n", "$\\qquad$ $\n", "\\begin{array}{lcl}\n", "\\frac{\\partial}{\\partial \\theta_i} l(\\theta) =\\sum_{j=1}^m (y^{(j)}-h_\\theta(x^{(j)}))x_i^{(j)}\n", "\\end{array}\n", "$" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Proszę napisać funkcję ```negative_log_likelihood(theta, x,y, model)``` która:\n", "\n", "* zwraca funkcję log-wiarygodności pomnożoną przez $-1$" ] }, { "cell_type": "code", "execution_count": 28, "metadata": {}, "outputs": [], "source": [ "def negative_log_likelihood(theta, x, y, model):\n", " return -log_likelihood(theta, x, y, model)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Proszę napisać funkcję ```log_likelihood_derivative(theta, x,y, model)``` oraz ```negative_log_likelihood_derivative(theta, x,y, model)``` które:\n", "\n", "* zwraca funkcję pochodną log-wiarygodności\n", "* zwraca funkcję pochodną log-wiarygodności pomnożoną przez $-1$\n", "\n", "**Uwaga**: mnożąc przez $x_{i}$ trzeba uwzględnić kolumnę jedynek" ] }, { "cell_type": "code", "execution_count": 29, "metadata": {}, "outputs": [], "source": [ "def log_likelihood_derivative(theta, x, y, model):\n", " # Miejsce na Twój kod. Pamiętaj, żeby dodać kolumnę jedynek do x.\n", " #\n", " # 1. Policz wynik modelu dzialajacego na danych wejsciowych\n", " x_expanded = np.column_stack((np.ones(x.shape[0]), x))\n", " model_result = model(theta, x)\n", " # 2. Policz różnicę względem danych wyjściowcyh\n", " delta = np.array(y - model_result)\n", " # 3. Policz wartość pochodnej pamiętając o sumowaniu\n", " delta = np.reshape(delta,(-1,1))\n", " result = delta*x_expanded\n", " result = np.sum(result, axis=0)\n", " # 4. zwróc wynik, wartość pochodnej we wszystkich kierunkach (kolumnach)\n", " assert result.shape == theta.shape\n", " return result\n", "\n", "def negative_log_likelihood_derivative(theta, x, y, model):\n", " return -log_likelihood_derivative(theta, x, y, model)" ] }, { "cell_type": "markdown", "metadata": { "id": "HgN1eW3HF6Sc" }, "source": [ "## Procedura minimalizacji funkcji log-wiarygodności ze wsględu na parametry $\\theta$ dla konkretnych danych.\n", "\n", "W naszym przypadku mamy trzy parametry $\\theta$ - mnożące odpowiednio 1, wynik z matematyki, wynik z biologii.\n", "\n", "Proszę:\n", "* zainicjalizować parametry $\\theta_{0}, \\theta_{1}, \\theta_{2}$ na wartości 0.\n", "* obliczyć wartość i pochodną funkcji wiarygodności na danych początkowych \n", "\n", "Poprawne wartości to:\n", "```\n", "Wartość funkcji log-wiarygodności dla zbioru testowego = -69.31471805599453\n", "Wartość pochodnej funkcji log-wiarygodności dla zbioru testowego = [ 10. 1200.92165893 1126.28422055]\n", "```" ] }, { "cell_type": "code", "execution_count": 30, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Wartość funkcji log-wiarygodności dla zbioru testowego = -69.31471805599453\n", "Wartość pochodnej funkcji log-wiarygodności dla zbioru testowego = [ -31. -1475.63866911 -1526.82006556]\n" ] } ], "source": [ "theta0 = np.array([0,0,0])\n", "\n", "model = logistic_func\n", "\n", "# wartość funkcji log-wiarygodności\n", "llh = log_likelihood(theta0, df[[\"matematyka\",\"biologia\"]], df[\"wynik\"], model)\n", "# wartość pochodnej\n", "llh_derivative = log_likelihood_derivative(theta0, df[[\"matematyka\",\"biologia\"]], df[\"wynik\"], model)\n", "\n", "print(\"Wartość funkcji log-wiarygodności dla zbioru testowego = {}\".format(llh))\n", "print(\"Wartość pochodnej funkcji log-wiarygodności dla zbioru testowego = {}\".format(llh_derivative))" ] }, { "cell_type": "markdown", "metadata": { "id": "cxsFdI1sF6Sv" }, "source": [ "## Optymalizacja \n", "\n", "Funkcje optymalizujące zaczerpniemy z modułu scipy.optimize: ```scipy.optimize.fmin_bfgs```. Ponieważ funkcje te są zaimplementowane do mnimalizowania to zamiast maksymalizować funkcję low-wiarygodności będziemy minimalizować tą funkcje przemnożoną przez -1 czyli ```f=negative_log_likelihood``` oraz ```fprime=negative_log_likelihood_derivative```\n", "\n", "\n", "* proszę wywołać funckję ```scipy.optimize.fmin_bfgs``` z obpowiednimi argumentami.\n", "* proszę porównać liczbę wywołań i czas wykonywania komórki z i bez podania explicite postaci pochodnej\n", "(https://ipython.readthedocs.io/en/stable/interactive/magics.html?highlight=%25time#cell-magics)" ] }, { "cell_type": "code", "execution_count": 12, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "[1 1 2]\n", "Optimization terminated successfully.\n", " Current function value: 20.349770\n", " Iterations: 21\n", " Function evaluations: 160\n", " Gradient evaluations: 40\n", "Optymalne wartości parametrów theta: [-25.16124413 0.20623099 0.20147087]\n", "Wartość funkcji log-wiarygodności dla optymalnych parametrów: -20.34977015906372\n", "CPU times: user 225 ms, sys: 13.8 ms, total: 239 ms\n", "Wall time: 244 ms\n" ] } ], "source": [ "%%time \n", "# ^ rozpoczecie mierzenia czasu dzieje sie tu\n", "\n", "\n", "model = logistic_func\n", "print(theta)\n", "# znajdz optymalne parametry theta\n", "theta_opt = so.fmin_bfgs(f=negative_log_likelihood, x0=theta0, \n", " #fprime=negative_log_likelihood_derivative, \n", " args=(df[[\"matematyka\",\"biologia\"]], df[\"wynik\"], model), disp= True)\n", "# policz log-wiarygosnosc z optymalnymi parametrami\n", "llh = log_likelihood(theta_opt, df[[\"matematyka\",\"biologia\"]], df[\"wynik\"], model)\n", "\n", "print('Optymalne wartości parametrów theta: {}'.format(theta_opt))\n", "print(\"Wartość funkcji log-wiarygodności dla optymalnych parametrów: {}\".format(llh))" ] }, { "cell_type": "markdown", "metadata": { "id": "UtH3eaZOF6S4" }, "source": [ "## Wyniki\n", "Wyniki regresji logistycznej możemy odbierać na dwa sposoby:\n", "* obliczyć wartość hipotezy dla badanego wejścia i dopasowanych parametrów: miara ta ma interpretację prawdopodobieństwa przynależności wejścia do klasy 1,\n", "* dopisać funkcję wykonującą klasyfikację, tzn. porównanie wartości hipotezy z 1/2: \n", " * dla wartości hipotezy > 1/2 klasyfikacja zwraca 1, \n", " * w przeciwnym razie 0.\n", " \n", " \n", "Proszę napisać funkcję ```classification(theta, x)``` która:\n", "* jako argument przyjmuje wektora parametrów modelu $\\theta$, tablicę danych wejściowych $x$, oraz $model$\n", "* zwraca listę klasyfikacyjną: $1$ gdy $model(x)>0.5$, a $0$ w przeciwnym przypadku" ] }, { "cell_type": "code", "execution_count": 13, "metadata": {}, "outputs": [], "source": [ "def classification(theta, x, model):\n", " model_result = model(theta, x)\n", " return model_result>0.5" ] }, { "cell_type": "markdown", "metadata": { "id": "rUmEhM5WF6S8" }, "source": [ "## Przewidywanie \n", "\n", "Proszę:\n", "\n", "* korzystając z modelu ```logistic_func``` wraz z parametrami zwróconymi przez procedurę optymalizacyjną obliczyć prawdopobobieństwo zdania\n", " osoby, która uzyskała 20 pkt. z matematyki, oraz 80 z biologii.\n", "* korzystając z funckji \"classification\" wyznaczyć czy osoba należy do klasy $0$ czy $1$." ] }, { "cell_type": "code", "execution_count": 14, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Osoba z 20 pkt z matematyki, oraz 80 pkt. z biologii ma 0.725% szans na przyjęcie na studia.\n", "Osoba zalicza się do klasy: [0]\n" ] } ], "source": [ "# stworz dane odpowiadajace naszej osobie\n", "x = np.array([[20, 80]])\n", "# policz prawdopodobienstwo zdania\n", "p = model(theta_opt, x)\n", "\n", "print(\"Osoba z {} pkt z matematyki, oraz {} pkt. z biologii ma {}% szans na przyjęcie na studia.\".format(x[0,0], x[0,1], round(p[0]*100,3)))\n", "\n", "# sklasyfikuj osobę\n", "class_number = classification(theta_opt, x, model).astype(int)\n", "print(\"Osoba zalicza się do klasy: {}\".format(class_number))" ] }, { "cell_type": "markdown", "metadata": { "id": "YtZFghLDF6TE" }, "source": [ "Narysujmy uzyskany podział. Na tle punktów pokolorowanych zgodnie z przynależnością do klas dorysujemy prostą rozgraniczającą obszary \"1\" od \"0\". Ma ona równanie \n", "\n", "$\\qquad$ $h_\\theta(x)=1/2$, \n", "\n", "tzn:\n", "\n", "$\\qquad$ $\\theta x^T = 0$\n", "\n", "czyli \n", "\n", "$\\theta_0 +\\theta_1 x_1 + \\theta_2 x_2 =0 $\n", "\n", "Przekształcając to do równania prostej we współrzędnych $(x_1,x_2)$ mamy:\n", "\n", "$- \\theta_2 x_2 = \\theta_0 +\\theta_1 x_1 $\n", "\n", "$ x_2 = - \\frac{1}{\\theta_2}( \\theta_0 +\\theta_1 x_1 )$" ] }, { "cell_type": "code", "execution_count": 15, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "df_passed = df[df[\"wynik\"]==1]\n", "df_failed = df[df[\"wynik\"]==0]\n", "\n", "fig, axes = plt.subplots(1,1, figsize=(5,5))\n", "# narysuj tych co zdali na niebiesko, pamietaj o argumencie \"label\" dla czytelnosci\n", "df_passed.plot(x=\"matematyka\",y=\"biologia\", ax=axes, kind=\"scatter\", label=\"passed\", c=\"blue\")\n", "# narysuj tych co nie zdali na czerwono, pamietaj o argumencie \"label\" dla czytelnosci\n", "df_failed.plot(x=\"matematyka\",y=\"biologia\", ax=axes, kind=\"scatter\", label=\"failed\", c =\"red\");\n", "\n", "# znajdz prostą\n", "x = np.array([df[\"matematyka\"].min(),df[\"matematyka\"].max()])\n", "y = -(theta_opt[0] + theta_opt[1]*x)/theta_opt[2]\n", "\n", "# rysowanie prostej i legendy\n", "axes.plot(x,y, label=\"logistic regression model\")\n", "axes.legend();" ] }, { "cell_type": "markdown", "metadata": { "id": "U8EZX9WNF6TH" }, "source": [ "## Część II: Walidacja - to na ćwiczenia w przyszłym tygodniu\n", "Teoria do tej części znajduje się tu:\n", "\n", "https://brain.fuw.edu.pl/edu/index.php/Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wykład_Ocena_jakości_klasyfikacji" ] }, { "cell_type": "markdown", "metadata": { "id": "qzYhR3-IF6TI" }, "source": [ "### Zastosowanie w naszym przykładzie\n", "Dodamy teraz kross-walidację typu $leave-one-out$.\n", "Po kolei odłożymy po jednym przykładzie ze zbioru uczącego i na takim zredukownaym zbiorze nauczymy regresję, a następnie sprawdzimy \n", "działanie modelu na odłożonym przykładzie:\n", "\n", "
    \n", "
  1. ze zbioru uczącego odrzucamy jeden przykład
  2. \n", "
  3. na pozostałych przykładach \"trenujemy model\", czyli znajdujemy parametry $\\theta$
  4. \n", "
  5. sprawdzamy działanie modelu na odrzuconym wcześniej przykładzie
  6. \n", "
  7. procedurę powtarzamy dla wszystkich przykładów w zbiorze uczącym
  8. \n", "
\n", "\n", "Proszę napisać funckję ```leave_one_out_CV(df, theta, model)```\n", "\n", "która:\n", "* przyjmuje zestaw uczący w postaci obiektu DataFrame, początkowych parametrów $\\theta$, oraz model $model$\n", "* wykonuje operację \"leave-one-out\" i tworzy listę wyników modelu dla każdego przykładu:\n", "\n", "```\n", "passed = np.append(passed, classification(theta_opt, df_left_out[[\"matematyka\",\"biologia\"]], model))\n", "```\n", "\n", "* dodaje do obiektu DataFrame kolumnę z wynikami modelu:\n", "\n", "```\n", "df[\"model\"] = passed \n", "``` " ] }, { "cell_type": "code", "execution_count": 16, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " matematyka biologia wynik model\n", "0 34.623660 78.024693 0 0.0\n", "1 30.286711 43.894998 0 0.0\n", "2 35.847409 72.902198 0 0.0\n", "3 60.182599 86.308552 1 1.0\n", "4 79.032736 75.344376 1 1.0\n", ".. ... ... ... ...\n", "95 83.489163 48.380286 1 1.0\n", "96 42.261701 87.103851 1 1.0\n", "97 99.315009 68.775409 1 1.0\n", "98 55.340018 64.931938 1 0.0\n", "99 74.775893 89.529813 1 1.0\n", "\n", "[100 rows x 4 columns]\n", "CPU times: user 3.67 s, sys: 12.2 ms, total: 3.68 s\n", "Wall time: 3.68 s\n" ] } ], "source": [ "%%time \n", "\n", "def leave_one_out_CV(df, theta0, model):\n", " # tutaj bedziemy wpisywac wyniki modelu\n", " passed = np.array([])\n", " # tworzymy kopie data frame\n", " df_with_model = df.copy()\n", " \n", " # pętla po wszystkich przykładach\n", " for leave_out_index in df.index:\n", " # 1. stworz dataframe bez jednego przykladu\n", " df_filtered = df[df.index!=leave_out_index]\n", " # 2. znajdz optymalne parametry theta\n", " theta_opt = so.fmin_bfgs(f=negative_log_likelihood, x0=theta0, \n", " fprime=negative_log_likelihood_derivative, \n", " args=(df_filtered[[\"matematyka\",\"biologia\"]], df_filtered[\"wynik\"], model), disp=False)\n", " # 3. stworz dataframe z odrzuconego (pojedynczego) przykladu\n", " df_left_out = df[df.index==leave_out_index]\n", " # 4. dodajemy wynik modelu do poprzednich\n", " passed = np.append(passed, classification(theta_opt, df_left_out[[\"matematyka\",\"biologia\"]], model))\n", " # Dodajemy wyniki modelu do calego data frame\n", " df_with_model[\"model\"] = passed\n", " # zwracamy data frame powiekszony o kolumne z wynikami modelu\n", " return df_with_model\n", " \n", "theta0 = np.array([0,0,0])\n", "model = logistic_func \n", "df_with_model = leave_one_out_CV(df, theta0, model)\n", "print(df_with_model)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Zdefiniujmy następujące przypadki gdy nasz model się myli lub podaje poprawny wynik:\n", "\n", "* \"True Positive\" (TP): stan faktyczny jest pozytywny (y=1) i klasyfikator się nie myli (wynik = 1)\n", "* \"True Negative\" (TN): stan faktyczny jest negatywny (y=0) i klasyfikator się nie myli (wynik = 0) \n", "* \"False Positive\" (FP): wynik fałszywie pozytywny (fałszywy alarm): stan faktyczny jest negatywny (y=0) ale klasyfikator się myli (wynik = 1)\n", "* \"False Netative\" (FN): przegapiony alarm: stan faktyczny jest pozytywny (y=1) i klasyfikator się myli (wynik = 0)\n", "\n", "Proszę napisać kod, który oblicza TP, TN, FP, FN. Dla naszego zbioru uczącego powinniśmy uzyskać:\n", "```\n", "TP: 55\n", "FP: 6\n", "TN: 34\n", "FN: 5\n", "``` \n", "\n", "**Wskazówka:** proszę zliczać liczbę wierszy w odpowiednio przefiltrowanym obiekcie DataFrame" ] }, { "cell_type": "code", "execution_count": 17, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "TP = 55\n", "FP = 6\n", "TN = 34\n", "FN = 5\n" ] } ], "source": [ "# podpowiedz: uzyj warunkow logicznych aby wybrac odpowiednie dane i pola shape aby dostac liczbe wierszy\n", "tp = df_with_model[(df_with_model[\"model\"]>0.5)&(df_with_model[\"wynik\"]==1)].shape[0]\n", "fp = df_with_model[(df_with_model[\"model\"]>0.5)&(df_with_model[\"wynik\"]==0)].shape[0]\n", "tn = df_with_model[(df_with_model[\"model\"]<0.5)&(df_with_model[\"wynik\"]==0)].shape[0]\n", "fn = df_with_model[(df_with_model[\"model\"]<0.5)&(df_with_model[\"wynik\"]==1)].shape[0]\n", "\n", "print(\"TP = {}\\nFP = {}\\nTN = {}\\nFN = {}\".format(tp, fp, tn, fn))" ] }, { "cell_type": "markdown", "metadata": { "id": "0UNsb51DF6TQ" }, "source": [ "## Krzywa ROC\n", "\n", "Aby wykreślić krzywą ROC należy przeprowadzić klasyfikację dla wielu możliwych wartości progu dla hipotezy, powyżej którego uznajemy przypadek za należący do klasy 1. W tym celu należy zmodyfikować funckję ```leave_one_out_CV(df, theta0, model)``` tak by zapisywała prawdopodobieństwo, a nie wynik działania funkcji ```classification```\n", "\n", "Proszę napisać funkcję ```leave_one_out_CV_with_prob(df, theta0, model)``` \n", "* która zapisuje kolumnę z prawdopodobieństwem zamiast wynikiem klasyfikacji" ] }, { "cell_type": "code", "execution_count": 18, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " matematyka biologia wynik model_prob\n", "0 34.623660 78.024693 0 0.096879\n", "1 30.286711 43.894998 0 0.000042\n", "2 35.847409 72.902198 0 0.045566\n", "3 60.182599 86.308552 1 0.990292\n", "4 79.032736 75.344376 1 0.998192\n", ".. ... ... ... ...\n", "95 83.489163 48.380286 1 0.850268\n", "96 42.261701 87.103851 1 0.721421\n", "97 99.315009 68.775409 1 0.999897\n", "98 55.340018 64.931938 1 0.306822\n", "99 74.775893 89.529813 1 0.999751\n", "\n", "[100 rows x 4 columns]\n", "CPU times: user 3.62 s, sys: 15.4 ms, total: 3.64 s\n", "Wall time: 3.65 s\n" ] } ], "source": [ "%%time \n", "\n", "def leave_one_out_CV_with_prob(df, theta0, model):\n", " # tutaj bedziemy wpisywac wyniki modelu (prawdopodobienstwa)\n", " prob = np.array([])\n", " # robimy kopie oryginalnych danych do ktorych dodamy kolumne\n", " df_with_model = df.copy()\n", " # petla po wszystkich przykladach\n", " for leave_out_index in df.index:\n", " # 1. stworz dataframe bez jednego przykladu\n", " df_filtered = df[df.index!=leave_out_index]\n", " # 2. znajdz optymalne parametry theta\n", " theta_opt = so.fmin_bfgs(f=negative_log_likelihood, x0=theta0, \n", " fprime=negative_log_likelihood_derivative, \n", " args=(df_filtered[[\"matematyka\",\"biologia\"]], df_filtered[\"wynik\"], model), disp=False)\n", " # 3. stworz dataframe z odrzuconego (pojedynczego) przykladu\n", " df_left_out = df[df.index==leave_out_index]\n", " # 4. dodajemy wynik modelu do poprzednich\n", " prob = np.append(prob, model(theta_opt, df_left_out[[\"matematyka\",\"biologia\"]]))\n", " # Dodajemy wyniki modelu (prawdopodobienstwa) do calego data frame\n", " df_with_model[\"model_prob\"] = prob\n", " # zwracamy data frame powiekszony o kolumne z wynikami modelu (prawdopodobienstwami)\n", " return df_with_model\n", " \n", "theta0 = np.array([0,0,0])\n", "model = logistic_func \n", "df_with_prob = leave_one_out_CV_with_prob(df, theta0, model)\n", "print(df_with_prob)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Korzystając z biblioteki ```sklearn``` proszę narysować krzywą ROC oraz obliczyć pole pod nią (\"area unde ROC, AUC) dla naszego modelu.\n", "\n", "**Wskazówka:** wpisać w Google hasło \"scikit learn Receiver Operating Characteristic\"" ] }, { "cell_type": "code", "execution_count": 19, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "from sklearn.metrics import roc_curve, auc\n", "from sklearn.metrics import roc_auc_score\n", "\n", "fpr, tpr, thresholds = roc_curve(df_with_prob[\"wynik\"], df_with_prob[\"model_prob\"])\n", "roc_auc = auc(fpr, tpr)\n", "\n", "plt.figure()\n", "lw = 2\n", "plt.plot(fpr, tpr, color='darkorange',lw=lw, label='ROC curve (area = %0.2f)' % roc_auc)\n", "# narysujmy krzywą (diagonala) dla rzutu monetą (naiwny klasyfikator, najgorsze rozwiązanie)\n", "plt.plot([0, 1], [0, 1], color='navy', lw=lw, linestyle='--')\n", "plt.xlim([0.0, 1.0])\n", "plt.ylim([0.0, 1.05])\n", "plt.xlabel('False Positive Rate')\n", "plt.ylabel('True Positive Rate')\n", "plt.title('Receiver operating characteristic for logistic regression')\n", "plt.legend(loc=\"lower right\")\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Modyfikacja modelu\n", "\n", "Proszę wykonać trening regresji logistycznej dla modelu, który używa wyniku tylko z jednego egzaminu i narysować na jednym rysunku krzywe ROC dla trzech wariantów:\n", "* modelu używającego wyników z obu przedmiotów\n", "* modelu używającego tylko wyników z matematyki\n", "* modelu używającego tylko wyników z biologii\n", "\n", "**Wskazówka**: należy przerobić funkcję ```leave_one_out_CV_with_prob``` tak by wykonywała obliczenia dla wszystkich trzech wariantów" ] }, { "cell_type": "code", "execution_count": 20, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " matematyka biologia wynik model_prob model_prob_matematyka \\\n", "0 34.623660 78.024693 0 0.096879 0.132115 \n", "1 30.286711 43.894998 0 0.000042 0.096571 \n", "2 35.847409 72.902198 0 0.045566 0.143957 \n", "3 60.182599 86.308552 1 0.990292 0.530217 \n", "4 79.032736 75.344376 1 0.998192 0.839340 \n", ".. ... ... ... ... ... \n", "95 83.489163 48.380286 1 0.850268 0.882310 \n", "96 42.261701 87.103851 1 0.721421 0.191751 \n", "97 99.315009 68.775409 1 0.999897 0.964477 \n", "98 55.340018 64.931938 1 0.306822 0.429564 \n", "99 74.775893 89.529813 1 0.999751 0.787323 \n", "\n", " model_prob_biologia \n", "0 0.816447 \n", "1 0.276754 \n", "2 0.750268 \n", "3 0.875439 \n", "4 0.765500 \n", ".. ... \n", "95 0.320625 \n", "96 0.881395 \n", "97 0.673462 \n", "98 0.611549 \n", "99 0.898072 \n", "\n", "[100 rows x 6 columns]\n", "CPU times: user 7.2 s, sys: 16.3 ms, total: 7.22 s\n", "Wall time: 7.22 s\n" ] } ], "source": [ "%%time\n", "\n", "def leave_one_out_CV_many_models(df, theta0, model):\n", " # tu zapisujemy wszystkie prawdopodobienstwa\n", " prob = np.array([])\n", " # tu tylko dla matematyki\n", " prob_math = np.array([])\n", " # tu tylko dla biologii\n", " prob_biol = np.array([])\n", " # tu robimy kopie\n", " df_with_model = df.copy()\n", " \n", " for leave_out_index in df.index:\n", " # robimy podobnie jak poprzednio, ale tym razem 3 razy: dla obu dziedzin, tylko dla majcy, tylko dla biologii\n", " df_filtered = df[df.index!=leave_out_index]\n", " df_left_out = df[df.index==leave_out_index]\n", " ###########\n", " theta_opt = so.fmin_bfgs(f=negative_log_likelihood, x0=theta0, \n", " fprime=negative_log_likelihood_derivative, \n", " args=(df_filtered[[\"matematyka\",\"biologia\"]], df_filtered[\"wynik\"], model), disp=False)\n", " prob = np.append(prob, model(theta_opt, df_left_out[[\"matematyka\",\"biologia\"]]))\n", " ##########\n", " theta_opt = so.fmin_bfgs(f=negative_log_likelihood, x0=theta0[0:2], \n", " fprime=negative_log_likelihood_derivative, \n", " args=(df_filtered[\"matematyka\"], df_filtered[\"wynik\"], model), disp=False)\n", " prob_math = np.append(prob_math, model(theta_opt, df_left_out[[\"matematyka\"]]))\n", " #########\n", " theta_opt = so.fmin_bfgs(f=negative_log_likelihood, x0=theta0[0:2], \n", " fprime=negative_log_likelihood_derivative, \n", " args=(df_filtered[\"biologia\"], df_filtered[\"wynik\"], model), disp=False)\n", " prob_biol = np.append(prob_biol, model(theta_opt, df_left_out[[\"biologia\"]]))\n", " ##########\n", " # dodajemy kolumny do data frame i zwracamy\n", " df_with_model[\"model_prob\"] = prob\n", " df_with_model[\"model_prob_matematyka\"] = prob_math\n", " df_with_model[\"model_prob_biologia\"] = prob_biol\n", " return df_with_model\n", " \n", "theta0 = np.array([0,0,0])\n", "model = logistic_func \n", "df_with_prob = leave_one_out_CV_many_models(df, theta0, model)\n", "print(df_with_prob)" ] }, { "cell_type": "code", "execution_count": 21, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "# analogicznie jak poprzednio, ale tym razem liczymy i plotujemy 3 ROC \n", "fpr, tpr, thresholds = roc_curve(df_with_prob[\"wynik\"], df_with_prob[\"model_prob\"])\n", "fpr_math, tpr_math, thresholds = roc_curve(df_with_prob[\"wynik\"], df_with_prob[\"model_prob_matematyka\"])\n", "fpr_biol, tpr_biol, thresholds = roc_curve(df_with_prob[\"wynik\"], df_with_prob[\"model_prob_biologia\"])\n", "\n", "roc_auc = auc(fpr, tpr)\n", "roc_auc_math = auc(fpr_math, tpr_math)\n", "roc_auc_biol = auc(fpr_biol, tpr_biol)\n", "\n", "plt.figure()\n", "lw = 2\n", "# uzupelnij kod poniżej\n", "plt.plot(fpr, tpr, color='darkorange',lw=lw, label='matematyka+biologia (area = %0.2f)' % roc_auc)\n", "plt.plot(fpr_math, tpr_math, color='darkblue',lw=lw, label='matematyka (area = %0.2f)' % roc_auc_math)\n", "plt.plot(fpr_biol, tpr_biol, color='darkgreen',lw=lw, label='biologia (area = %0.2f)' % roc_auc_math)\n", "#\n", "plt.plot([0, 1], [0, 1], color='navy', lw=lw, linestyle='--')\n", "plt.xlim([0.0, 1.0])\n", "plt.ylim([0.0, 1.05])\n", "plt.xlabel('False Positive Rate')\n", "plt.ylabel('True Positive Rate')\n", "plt.title('Receiver operating characteristic for logistic regression')\n", "plt.legend(loc=\"lower right\")\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Zastosowanie do innego rodzaju danych\n", "\n", "Proszę przeprowadzić procedurę treningu i narysować krzywą ROC dla danych gdzie występuje inny podział między klasami:\n" ] }, { "cell_type": "code", "execution_count": 22, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "nPoints = 100\n", "x = 100*np.random.random_sample(nPoints)\n", "y = 100*np.random.random_sample(nPoints)\n", "\n", "df = pd.DataFrame(data=x, columns=[\"matematyka\"])\n", "df[\"biologia\"] = y\n", "# tworzymy nowe dane\n", "df[\"wynik\"] = np.sqrt((x-50)**2 + (y-50)**2)<25\n", "# narysuj dwuwymiarowy wykres aby zobaczy korelacje\n", "x = sns.jointplot(x=\"matematyka\", y=\"biologia\", data=df, kind='hist', hue=\"wynik\")\n", "x.set_axis_labels('matematyka', 'biologia', fontsize=16);" ] }, { "cell_type": "code", "execution_count": 23, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " matematyka biologia wynik model_prob\n", "0 45.926269 74.411000 True 0.190826\n", "1 60.088653 51.720146 True 0.182010\n", "2 50.269143 64.609756 True 0.188722\n", "3 5.266773 2.839107 False 0.163356\n", "4 85.158238 63.750033 False 0.209377\n", ".. ... ... ... ...\n", "95 4.371252 18.498147 False 0.170463\n", "96 81.149053 52.954530 False 0.200206\n", "97 75.106507 56.949164 False 0.201112\n", "98 52.531317 67.718316 True 0.190123\n", "99 54.916940 68.649330 True 0.190588\n", "\n", "[100 rows x 4 columns]\n" ] } ], "source": [ "theta0 = np.array([0,0,0])\n", "model = logistic_func\n", "# policz prawdopodobienstwa z modelu przy uzyciu walidacji leave_one_out\n", "df_with_prob = leave_one_out_CV_with_prob(df, theta0, model)\n", "print(df_with_prob)" ] }, { "cell_type": "code", "execution_count": 24, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "# narysuj ŁADNY wykres z krzywą ROC i wypisz AUC w legendzie\n", "fpr, tpr, thresholds = roc_curve(df_with_prob[\"wynik\"], df_with_prob[\"model_prob\"])\n", "roc_auc = auc(fpr, tpr)\n", "\n", "plt.figure()\n", "lw = 2\n", "plt.plot(fpr, tpr, color='darkorange',lw=lw, label='ROC curve (area = %0.2f)' % roc_auc)\n", "plt.plot([0, 1], [0, 1], color='navy', lw=lw, linestyle='--')\n", "plt.xlim([0.0, 1.0])\n", "plt.ylim([0.0, 1.05])\n", "plt.xlabel('False Positive Rate')\n", "plt.ylabel('True Positive Rate')\n", "plt.title('Receiver operating characteristic for logistic regression')\n", "plt.legend(loc=\"lower right\")\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Co można zrobić by poprawić działanie modelu na takich danych?" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Napisz funkcję logistic_func_1(theta, x) która będzie działać podobnie do oryginalnej, ale dodaj w niej do oryginalnych danych 3 kolumny: kolumnę jedynek (tak jak poprzednio), kolumnę x1^2, kolumnę x2^2, gdzie x1 i x2 to wyniki z matematyki i biologii odpowiednio.\n", "\n", "Następnie uzupełnij funkcję leave_one_out_CV_with_prob(df, theta0, model), analogicznie do poprzednich funkcji. Funkcja ma wykonań walidację leave-one-out i zwrocić prawdopodbieństwo uzyskane z modelu." ] }, { "cell_type": "code", "execution_count": 25, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " matematyka biologia wynik model_prob\n", "0 45.926269 74.411000 True 1.964148e-07\n", "1 60.088653 51.720146 True 1.000000e+00\n", "2 50.269143 64.609756 True 1.000000e+00\n", "3 5.266773 2.839107 False 1.522998e-08\n", "4 85.158238 63.750033 False 1.522998e-08\n", ".. ... ... ... ...\n", "95 4.371252 18.498147 False 1.522998e-08\n", "96 81.149053 52.954530 False 1.522998e-08\n", "97 75.106507 56.949164 False 9.999978e-01\n", "98 52.531317 67.718316 True 1.000000e+00\n", "99 54.916940 68.649330 True 1.000000e+00\n", "\n", "[100 rows x 4 columns]\n", "CPU times: user 49.5 s, sys: 170 ms, total: 49.7 s\n", "Wall time: 49.7 s\n" ] } ], "source": [ "%%time\n", "\n", "def logistic_func_1(theta, x):\n", " #x = np.reshape(x.to_numpy(), (x.shape[0],-1))\n", " x_expanded = np.column_stack((np.ones(x.shape[0]), x*x, x))\n", "# print(x, (x*x))\n", "# exit()\n", " arg = np.sum(theta*x_expanded, axis=1)\n", " arg = np.where(np.abs(arg)<18, arg, 18*np.sign(arg))\n", " return 1.0/(1+np.exp(-arg))\n", "\n", "def leave_one_out_CV_with_prob(df, theta0, model):\n", " \n", " prob = np.array([])\n", " df_with_model = df.copy()\n", " # napisz petle po przypadkach analoficznie jak poprzednio\n", " for leave_out_index in df.index:\n", " df_filtered = df[df.index!=leave_out_index]\n", " theta_opt = so.fmin_bfgs(f=negative_log_likelihood, x0=theta0, \n", " args=(df_filtered[[\"matematyka\",\"biologia\"]], df_filtered[\"wynik\"], model), disp=False)\n", " df_left_out = df[df.index==leave_out_index]\n", " prob = np.append(prob, model(theta_opt, df_left_out[[\"matematyka\",\"biologia\"]]))\n", " # dodaj prob jako nową kolumnę\n", " df_with_model[\"model_prob\"] = prob\n", " return df_with_model\n", "\n", "theta0 = np.array([0,0,0,0,0])\n", "model = logistic_func_1 \n", "df_with_prob = leave_one_out_CV_with_prob(df, theta0, model)\n", "print(df_with_prob)" ] }, { "cell_type": "code", "execution_count": 26, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "# narysuj ładny wykres ROC tak jak poprzednio ale dla nowego modelu\n", "fpr, tpr, thresholds = roc_curve(df_with_prob[\"wynik\"], df_with_prob[\"model_prob\"])\n", "roc_auc = auc(fpr, tpr)\n", "\n", "plt.figure()\n", "lw = 2\n", "plt.plot(fpr, tpr, color='darkorange',lw=lw, label='ROC curve (area = %0.2f)' % roc_auc)\n", "plt.plot([0, 1], [0, 1], color='navy', lw=lw, linestyle='--')\n", "plt.xlim([0.0, 1.0])\n", "plt.ylim([0.0, 1.05])\n", "plt.xlabel('False Positive Rate')\n", "plt.ylabel('True Positive Rate')\n", "plt.title('Receiver operating characteristic for logistic regression')\n", "plt.legend(loc=\"lower right\")\n", "plt.show()" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] } ], "metadata": { "colab": { "collapsed_sections": [], "name": "02M_Regresja_logistyczna.ipynb", "provenance": [ { "file_id": "1QyygSjtzI9iNile4e8Qlcur7Qn0r_VRN", "timestamp": 1546856483810 } ] }, "interpreter": { "hash": "fcb4468fb47c6127ab44332c3f3439a85914e2850b2efd86c12e06a03080f93f" }, "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.8.6" }, "widgets": { "application/vnd.jupyter.widget-state+json": { "4a92c6b51368406ba79cf23ea6c1be11": { "model_module": "@jupyter-widgets/base", "model_name": "LayoutModel", "state": { "_model_module": "@jupyter-widgets/base", "_model_module_version": "1.2.0", "_model_name": "LayoutModel", "_view_count": null, "_view_module": "@jupyter-widgets/base", "_view_module_version": "1.2.0", "_view_name": "LayoutView", "align_content": null, "align_items": null, "align_self": null, "border": null, "bottom": null, "display": null, "flex": null, "flex_flow": null, "grid_area": null, "grid_auto_columns": null, "grid_auto_flow": null, "grid_auto_rows": null, "grid_column": null, "grid_gap": null, "grid_row": null, "grid_template_areas": null, "grid_template_columns": null, "grid_template_rows": null, "height": null, "justify_content": null, "justify_items": null, "left": null, "margin": null, "max_height": null, "max_width": null, "min_height": null, "min_width": null, "object_fit": null, "object_position": null, "order": null, "overflow": null, "overflow_x": null, "overflow_y": null, "padding": null, "right": null, "top": null, "visibility": null, "width": null } }, "a6e5e2c335854c40857d817fde071239": { "model_module": "@jupyter-widgets/controls", "model_name": "ProgressStyleModel", "state": { "_model_module": "@jupyter-widgets/controls", "_model_module_version": "1.5.0", "_model_name": "ProgressStyleModel", "_view_count": null, "_view_module": "@jupyter-widgets/base", "_view_module_version": "1.2.0", "_view_name": "StyleView", "bar_color": null, "description_width": "" } }, "c276665ac3fb4531948d896f79ef1c22": { "model_module": "@jupyter-widgets/controls", "model_name": "FloatProgressModel", "state": { "_dom_classes": [], "_model_module": "@jupyter-widgets/controls", "_model_module_version": "1.5.0", "_model_name": "FloatProgressModel", "_view_count": null, "_view_module": "@jupyter-widgets/controls", "_view_module_version": "1.5.0", "_view_name": "ProgressView", "bar_style": "", "description": "", "description_tooltip": null, "layout": "IPY_MODEL_4a92c6b51368406ba79cf23ea6c1be11", "max": 100, "min": 0, "orientation": "horizontal", "style": "IPY_MODEL_a6e5e2c335854c40857d817fde071239", "value": 100 } } } } }, "nbformat": 4, "nbformat_minor": 4 }