{ "cells": [ { "cell_type": "markdown", "metadata": { "id": "uTxi8m8GEfHL" }, "source": [ "# Sieci neuronowe - pierwszy stopień wtajemniczenia\n", "Autor: Anna Dawid\n", "\n", "Korekta: Rafał Masełek\n", "\n", "Dzisiaj pod lupę weźmiemy jeden z najpopularniejszych i wszechstronnych modeli uczenia maszynowego - sieci neuronowe. Skupimy się na dwóch zagadnieniach: jak znaleźć optymalną architekturę sieci oraz o arcyważnym problemie regularyzacji. Będziemy pracować na zbiorze MNIST, czyli zbiorze czarno-białych obrazków z ręcznie napisanymi cyframi." ] }, { "cell_type": "markdown", "metadata": { "id": "D1bbElA8FMVw" }, "source": [ "## Import danych MNIST" ] }, { "cell_type": "code", "execution_count": 1, "metadata": { "executionInfo": { "elapsed": 570, "status": "ok", "timestamp": 1610535209888, "user": { "displayName": "Anna Dawid", "photoUrl": "https://lh3.googleusercontent.com/a-/AOh14GgUQAwZ7wyayL4BbiM0n_EANCgBjSdZ9H14lgcCFEE=s64", "userId": "02862484648310443813" }, "user_tz": -60 }, "id": "PBUeRZ9PFFFn" }, "outputs": [], "source": [ "import numpy as np\n", "import tensorflow as tf\n", "from tensorflow import keras\n", "\n", "# Dzisiaj usuniemy przypadkowość z ćwiczenia, żeby mieć pewność, że zobaczymy to, co planuję ;)\n", "seed = 128\n", "rng = np.random.RandomState(seed)" ] }, { "cell_type": "code", "execution_count": 2, "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 1000 }, "executionInfo": { "elapsed": 1340, "status": "ok", "timestamp": 1610535210666, "user": { "displayName": "Anna Dawid", "photoUrl": "https://lh3.googleusercontent.com/a-/AOh14GgUQAwZ7wyayL4BbiM0n_EANCgBjSdZ9H14lgcCFEE=s64", "userId": "02862484648310443813" }, "user_tz": -60 }, "id": "6Q-8PezyGxfg", "outputId": "9dac9369-d8ab-471d-e24a-8a4dfb4a5e32" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "[[ 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0\n", " 0 0 0 0 0 0 0 0 0 0]\n", " [ 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0\n", " 0 0 0 0 0 0 0 0 0 0]\n", " [ 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0\n", " 0 0 0 0 0 0 0 0 0 0]\n", " [ 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0\n", " 0 0 0 0 0 0 0 0 0 0]\n", " [ 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0\n", " 0 0 0 0 0 0 0 0 0 0]\n", " [ 0 0 0 0 0 0 0 0 0 0 0 0 3 18 18 18 126 136\n", " 175 26 166 255 247 127 0 0 0 0]\n", " [ 0 0 0 0 0 0 0 0 30 36 94 154 170 253 253 253 253 253\n", " 225 172 253 242 195 64 0 0 0 0]\n", " [ 0 0 0 0 0 0 0 49 238 253 253 253 253 253 253 253 253 251\n", " 93 82 82 56 39 0 0 0 0 0]\n", " [ 0 0 0 0 0 0 0 18 219 253 253 253 253 253 198 182 247 241\n", " 0 0 0 0 0 0 0 0 0 0]\n", " [ 0 0 0 0 0 0 0 0 80 156 107 253 253 205 11 0 43 154\n", " 0 0 0 0 0 0 0 0 0 0]\n", " [ 0 0 0 0 0 0 0 0 0 14 1 154 253 90 0 0 0 0\n", " 0 0 0 0 0 0 0 0 0 0]\n", " [ 0 0 0 0 0 0 0 0 0 0 0 139 253 190 2 0 0 0\n", " 0 0 0 0 0 0 0 0 0 0]\n", " [ 0 0 0 0 0 0 0 0 0 0 0 11 190 253 70 0 0 0\n", " 0 0 0 0 0 0 0 0 0 0]\n", " [ 0 0 0 0 0 0 0 0 0 0 0 0 35 241 225 160 108 1\n", " 0 0 0 0 0 0 0 0 0 0]\n", " [ 0 0 0 0 0 0 0 0 0 0 0 0 0 81 240 253 253 119\n", " 25 0 0 0 0 0 0 0 0 0]\n", " [ 0 0 0 0 0 0 0 0 0 0 0 0 0 0 45 186 253 253\n", " 150 27 0 0 0 0 0 0 0 0]\n", " [ 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 16 93 252\n", " 253 187 0 0 0 0 0 0 0 0]\n", " [ 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 249\n", " 253 249 64 0 0 0 0 0 0 0]\n", " [ 0 0 0 0 0 0 0 0 0 0 0 0 0 0 46 130 183 253\n", " 253 207 2 0 0 0 0 0 0 0]\n", " [ 0 0 0 0 0 0 0 0 0 0 0 0 39 148 229 253 253 253\n", " 250 182 0 0 0 0 0 0 0 0]\n", " [ 0 0 0 0 0 0 0 0 0 0 24 114 221 253 253 253 253 201\n", " 78 0 0 0 0 0 0 0 0 0]\n", " [ 0 0 0 0 0 0 0 0 23 66 213 253 253 253 253 198 81 2\n", " 0 0 0 0 0 0 0 0 0 0]\n", " [ 0 0 0 0 0 0 18 171 219 253 253 253 253 195 80 9 0 0\n", " 0 0 0 0 0 0 0 0 0 0]\n", " [ 0 0 0 0 55 172 226 253 253 253 253 244 133 11 0 0 0 0\n", " 0 0 0 0 0 0 0 0 0 0]\n", " [ 0 0 0 0 136 253 253 253 212 135 132 16 0 0 0 0 0 0\n", " 0 0 0 0 0 0 0 0 0 0]\n", " [ 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0\n", " 0 0 0 0 0 0 0 0 0 0]\n", " [ 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0\n", " 0 0 0 0 0 0 0 0 0 0]\n", " [ 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0\n", " 0 0 0 0 0 0 0 0 0 0]]\n" ] }, { "data": { "text/plain": [ "" ] }, "execution_count": 2, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "iVBORw0KGgoAAAANSUhEUgAAAPsAAAD4CAYAAAAq5pAIAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjMuMywgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy/Il7ecAAAACXBIWXMAAAsTAAALEwEAmpwYAAAN8klEQVR4nO3df6jVdZ7H8ddrbfojxzI39iZOrWOEUdE6i9nSyjYRTj8o7FYMIzQ0JDl/JDSwyIb7xxSLIVu6rBSDDtXYMus0UJHFMNVm5S6BdDMrs21qoxjlphtmmv1a9b1/3K9xp+75nOs53/PD+34+4HDO+b7P93zffPHl99f53o8jQgAmvj/rdQMAuoOwA0kQdiAJwg4kQdiBJE7o5sJsc+of6LCI8FjT29qy277C9lu237F9ezvfBaCz3Op1dtuTJP1B0gJJOyW9JGlRROwozMOWHeiwTmzZ50l6JyLejYgvJf1G0sI2vg9AB7UT9hmS/jjq/c5q2p+wvcT2kO2hNpYFoE0dP0EXEeskrZPYjQd6qZ0t+y5JZ4x6/51qGoA+1E7YX5J0tu3v2j5R0o8kbaynLQB1a3k3PiIO2V4q6SlJkyQ9EBFv1NYZgFq1fOmtpYVxzA50XEd+VAPg+EHYgSQIO5AEYQeSIOxAEoQdSIKwA0kQdiAJwg4kQdiBJAg7kARhB5Ig7EAShB1IgrADSRB2IAnCDiRB2IEkCDuQBGEHkiDsQBKEHUiCsANJEHYgCcIOJEHYgSQIO5AEYQeSIOxAEi0P2Yzjw6RJk4r1U045paPLX7p0acPaSSedVJx39uzZxfqtt95arN9zzz0Na4sWLSrO+/nnnxfrK1euLNbvvPPOYr0X2gq77fckHZB0WNKhiJhbR1MA6lfHlv3SiPiwhu8B0EEcswNJtBv2kPS07ZdtLxnrA7aX2B6yPdTmsgC0od3d+PkRscv2X0h6xvZ/R8Tm0R+IiHWS1kmS7WhzeQBa1NaWPSJ2Vc97JD0maV4dTQGoX8thtz3Z9pSjryX9QNL2uhoDUK92duMHJD1m++j3/HtE/L6WriaYM888s1g/8cQTi/WLL764WJ8/f37D2tSpU4vzXn/99cV6L+3cubNYX7NmTbE+ODjYsHbgwIHivK+++mqx/sILLxTr/ajlsEfEu5L+qsZeAHQQl96AJAg7kARhB5Ig7EAShB1IwhHd+1HbRP0F3Zw5c4r1TZs2Feudvs20Xx05cqRYv/nmm4v1Tz75pOVlDw8PF+sfffRRsf7WW2+1vOxOiwiPNZ0tO5AEYQeSIOxAEoQdSIKwA0kQdiAJwg4kwXX2GkybNq1Y37JlS7E+a9asOtupVbPe9+3bV6xfeumlDWtffvllcd6svz9oF9fZgeQIO5AEYQeSIOxAEoQdSIKwA0kQdiAJhmyuwd69e4v1ZcuWFetXX311sf7KK68U683+pHLJtm3bivUFCxYU6wcPHizWzzvvvIa12267rTgv6sWWHUiCsANJEHYgCcIOJEHYgSQIO5AEYQeS4H72PnDyyScX682GF167dm3D2uLFi4vz3njjjcX6hg0binX0n5bvZ7f9gO09trePmjbN9jO2366eT62zWQD1G89u/K8kXfG1abdLejYizpb0bPUeQB9rGvaI2Czp678HXShpffV6vaRr620LQN1a/W38QEQcHSzrA0kDjT5oe4mkJS0uB0BN2r4RJiKidOItItZJWidxgg7opVYvve22PV2Squc99bUEoBNaDftGSTdVr2+S9Hg97QDolKa78bY3SPq+pNNs75T0c0krJf3W9mJJ70v6YSebnOj279/f1vwff/xxy/PecsstxfrDDz9crDcbYx39o2nYI2JRg9JlNfcCoIP4uSyQBGEHkiDsQBKEHUiCsANJcIvrBDB58uSGtSeeeKI47yWXXFKsX3nllcX6008/Xayj+xiyGUiOsANJEHYgCcIOJEHYgSQIO5AEYQeS4Dr7BHfWWWcV61u3bi3W9+3bV6w/99xzxfrQ0FDD2n333Vect5v/NicSrrMDyRF2IAnCDiRB2IEkCDuQBGEHkiDsQBJcZ09ucHCwWH/wwQeL9SlTprS87OXLlxfrDz30ULE+PDxcrGfFdXYgOcIOJEHYgSQIO5AEYQeSIOxAEoQdSILr7Cg6//zzi/XVq1cX65dd1vpgv2vXri3WV6xYUazv2rWr5WUfz1q+zm77Adt7bG8fNe0O27tsb6seV9XZLID6jWc3/leSrhhj+r9ExJzq8bt62wJQt6Zhj4jNkvZ2oRcAHdTOCbqltl+rdvNPbfQh20tsD9lu/MfIAHRcq2H/haSzJM2RNCxpVaMPRsS6iJgbEXNbXBaAGrQU9ojYHRGHI+KIpF9KmldvWwDq1lLYbU8f9XZQ0vZGnwXQH5peZ7e9QdL3JZ0mabekn1fv50gKSe9J+mlENL25mOvsE8/UqVOL9WuuuaZhrdm98vaYl4u/smnTpmJ9wYIFxfpE1eg6+wnjmHHRGJPvb7sjAF3Fz2WBJAg7kARhB5Ig7EAShB1Igltc0TNffPFFsX7CCeWLRYcOHSrWL7/88oa1559/vjjv8Yw/JQ0kR9iBJAg7kARhB5Ig7EAShB1IgrADSTS96w25XXDBBcX6DTfcUKxfeOGFDWvNrqM3s2PHjmJ98+bNbX3/RMOWHUiCsANJEHYgCcIOJEHYgSQIO5AEYQeS4Dr7BDd79uxifenSpcX6ddddV6yffvrpx9zTeB0+fLhYHx4u//XyI0eO1NnOcY8tO5AEYQeSIOxAEoQdSIKwA0kQdiAJwg4kwXX240Cza9mLFo010O6IZtfRZ86c2UpLtRgaGirWV6xYUaxv3LixznYmvKZbdttn2H7O9g7bb9i+rZo+zfYztt+unk/tfLsAWjWe3fhDkv4+Is6V9DeSbrV9rqTbJT0bEWdLerZ6D6BPNQ17RAxHxNbq9QFJb0qaIWmhpPXVx9ZLurZDPQKowTEds9ueKel7krZIGoiIoz9O/kDSQIN5lkha0kaPAGow7rPxtr8t6RFJP4uI/aNrMTI65JiDNkbEuoiYGxFz2+oUQFvGFXbb39JI0H8dEY9Wk3fbnl7Vp0va05kWAdSh6W68bUu6X9KbEbF6VGmjpJskrayeH+9IhxPAwMCYRzhfOffcc4v1e++9t1g/55xzjrmnumzZsqVYv/vuuxvWHn+8/E+GW1TrNZ5j9r+V9GNJr9veVk1brpGQ/9b2YknvS/phRzoEUIumYY+I/5I05uDuki6rtx0AncLPZYEkCDuQBGEHkiDsQBKEHUiCW1zHadq0aQ1ra9euLc47Z86cYn3WrFmttFSLF198sVhftWpVsf7UU08V65999tkx94TOYMsOJEHYgSQIO5AEYQeSIOxAEoQdSIKwA0mkuc5+0UUXFevLli0r1ufNm9ewNmPGjJZ6qsunn37asLZmzZrivHfddVexfvDgwZZ6Qv9hyw4kQdiBJAg7kARhB5Ig7EAShB1IgrADSaS5zj44ONhWvR07duwo1p988sli/dChQ8V66Z7zffv2FedFHmzZgSQIO5AEYQeSIOxAEoQdSIKwA0kQdiAJR0T5A/YZkh6SNCApJK2LiH+1fYekWyT9b/XR5RHxuybfVV4YgLZFxJijLo8n7NMlTY+IrbanSHpZ0rUaGY/9k4i4Z7xNEHag8xqFfTzjsw9LGq5eH7D9pqTe/mkWAMfsmI7Zbc+U9D1JW6pJS22/ZvsB26c2mGeJ7SHbQ+21CqAdTXfjv/qg/W1JL0haERGP2h6Q9KFGjuP/SSO7+jc3+Q5244EOa/mYXZJsf0vSk5KeiojVY9RnSnoyIs5v8j2EHeiwRmFvuhtv25Lul/Tm6KBXJ+6OGpS0vd0mAXTOeM7Gz5f0n5Jel3Skmrxc0iJJczSyG/+epJ9WJ/NK38WWHeiwtnbj60LYgc5reTcewMRA2IEkCDuQBGEHkiDsQBKEHUiCsANJEHYgCcIOJEHYgSQIO5AEYQeSIOxAEoQdSKLbQzZ/KOn9Ue9Pq6b1o37trV/7kuitVXX29peNCl29n/0bC7eHImJuzxoo6Nfe+rUvid5a1a3e2I0HkiDsQBK9Dvu6Hi+/pF9769e+JHprVVd66+kxO4Du6fWWHUCXEHYgiZ6E3fYVtt+y/Y7t23vRQyO237P9uu1tvR6frhpDb4/t7aOmTbP9jO23q+cxx9jrUW932N5Vrbtttq/qUW9n2H7O9g7bb9i+rZre03VX6Ksr663rx+y2J0n6g6QFknZKeknSoojY0dVGGrD9nqS5EdHzH2DY/jtJn0h66OjQWrb/WdLeiFhZ/Ud5akT8Q5/0doeOcRjvDvXWaJjxn6iH667O4c9b0Yst+zxJ70TEuxHxpaTfSFrYgz76XkRslrT3a5MXSlpfvV6vkX8sXdegt74QEcMRsbV6fUDS0WHGe7ruCn11RS/CPkPSH0e936n+Gu89JD1t+2XbS3rdzBgGRg2z9YGkgV42M4amw3h309eGGe+bddfK8Oft4gTdN82PiL+WdKWkW6vd1b4UI8dg/XTt9BeSztLIGIDDklb1splqmPFHJP0sIvaPrvVy3Y3RV1fWWy/CvkvSGaPef6ea1hciYlf1vEfSYxo57Ognu4+OoFs97+lxP1+JiN0RcTgijkj6pXq47qphxh+R9OuIeLSa3PN1N1Zf3VpvvQj7S5LOtv1d2ydK+pGkjT3o4xtsT65OnMj2ZEk/UP8NRb1R0k3V65skPd7DXv5Evwzj3WiYcfV43fV8+POI6PpD0lUaOSP/P5L+sRc9NOhrlqRXq8cbve5N0gaN7Nb9n0bObSyW9OeSnpX0tqT/kDStj3r7N40M7f2aRoI1vUe9zdfILvprkrZVj6t6ve4KfXVlvfFzWSAJTtABSRB2IAnCDiRB2IEkCDuQBGEHkiDsQBL/DyJ7caZa7LphAAAAAElFTkSuQmCC\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "from tensorflow.keras.datasets import mnist\n", " \n", "# MNIST współpracuje z keras, zbudowany jest z predefiniowanych 60 000 danych treningowych i 10 000 danych testowych\n", "(X_train, y_train), (X_test, y_test) = mnist.load_data()\n", "\n", "from matplotlib import pyplot as plt\n", "print(X_train[0])\n", "plt.imshow(X_train[0], cmap='gray')" ] }, { "cell_type": "markdown", "metadata": { "id": "nasRLyqfH2V0" }, "source": [ "Dzisiaj korzystamy z głębokich sieci neuronowych, ale one wciąż nie są przystosowane do analizy obrazków (w przeciwieństwie do sieci, których będziemy używać na kolejnych zajęciach). Na wejściu potrzebują więc jednowymiarowy ciąg danych. Musimy też nasze dane znormalizować." ] }, { "cell_type": "code", "execution_count": 3, "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "executionInfo": { "elapsed": 1912, "status": "ok", "timestamp": 1610535211245, "user": { "displayName": "Anna Dawid", "photoUrl": "https://lh3.googleusercontent.com/a-/AOh14GgUQAwZ7wyayL4BbiM0n_EANCgBjSdZ9H14lgcCFEE=s64", "userId": "02862484648310443813" }, "user_tz": -60 }, "id": "paTR6HyiG-w4", "outputId": "da83dff4-e17c-42df-c9a0-5690c90356ca" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "[ 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0\n", " 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0\n", " 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0\n", " 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0\n", " 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0\n", " 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0\n", " 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0\n", " 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0\n", " 0 0 0 0 0 0 0 0 3 18 18 18 126 136 175 26 166 255\n", " 247 127 0 0 0 0 0 0 0 0 0 0 0 0 30 36 94 154\n", " 170 253 253 253 253 253 225 172 253 242 195 64 0 0 0 0 0 0\n", " 0 0 0 0 0 49 238 253 253 253 253 253 253 253 253 251 93 82\n", " 82 56 39 0 0 0 0 0 0 0 0 0 0 0 0 18 219 253\n", " 253 253 253 253 198 182 247 241 0 0 0 0 0 0 0 0 0 0\n", " 0 0 0 0 0 0 0 0 80 156 107 253 253 205 11 0 43 154\n", " 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0\n", " 0 14 1 154 253 90 0 0 0 0 0 0 0 0 0 0 0 0\n", " 0 0 0 0 0 0 0 0 0 0 0 0 0 139 253 190 2 0\n", " 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0\n", " 0 0 0 0 0 11 190 253 70 0 0 0 0 0 0 0 0 0\n", " 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 35 241\n", " 225 160 108 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0\n", " 0 0 0 0 0 0 0 0 0 81 240 253 253 119 25 0 0 0\n", " 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0\n", " 0 0 45 186 253 253 150 27 0 0 0 0 0 0 0 0 0 0\n", " 0 0 0 0 0 0 0 0 0 0 0 0 0 16 93 252 253 187\n", " 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0\n", " 0 0 0 0 0 0 0 249 253 249 64 0 0 0 0 0 0 0\n", " 0 0 0 0 0 0 0 0 0 0 0 0 0 0 46 130 183 253\n", " 253 207 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0\n", " 0 0 0 0 39 148 229 253 253 253 250 182 0 0 0 0 0 0\n", " 0 0 0 0 0 0 0 0 0 0 0 0 24 114 221 253 253 253\n", " 253 201 78 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0\n", " 0 0 23 66 213 253 253 253 253 198 81 2 0 0 0 0 0 0\n", " 0 0 0 0 0 0 0 0 0 0 18 171 219 253 253 253 253 195\n", " 80 9 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0\n", " 55 172 226 253 253 253 253 244 133 11 0 0 0 0 0 0 0 0\n", " 0 0 0 0 0 0 0 0 0 0 136 253 253 253 212 135 132 16\n", " 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0\n", " 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0\n", " 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0\n", " 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0\n", " 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0\n", " 0 0 0 0 0 0 0 0 0 0]\n", "(784,)\n" ] } ], "source": [ "# Reshape'ujemy\n", "X_train = X_train.reshape(X_train.shape[0], -1)\n", "X_test = X_test.reshape(X_test.shape[0], -1)\n", "\n", "print(X_train[0])\n", "print(X_train[0].shape)\n", "\n", "# Przygotowujemy inty do dzielenia\n", "X_train = X_train.astype('float32')\n", "X_test = X_test.astype('float32')\n", "\n", "# Wyjątkowy sposób normalizacji, bo wiemy, że piksele czarno-białe zawierają się w zakresie od 0 do 255\n", "X_train /= 255\n", "X_test /= 255" ] }, { "cell_type": "code", "execution_count": 4, "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "executionInfo": { "elapsed": 1907, "status": "ok", "timestamp": 1610535211246, "user": { "displayName": "Anna Dawid", "photoUrl": "https://lh3.googleusercontent.com/a-/AOh14GgUQAwZ7wyayL4BbiM0n_EANCgBjSdZ9H14lgcCFEE=s64", "userId": "02862484648310443813" }, "user_tz": -60 }, "id": "o0R94Fp9JE2b", "outputId": "78a17e54-da65-4385-cff6-738a764d804b" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Oryginalny sposób zapisu: 5\n", "(60000,)\n", "Po zmianie: [0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]\n", "(60000, 10)\n" ] } ], "source": [ "from tensorflow.keras.utils import to_categorical\n", "\n", "# Musimy jeszcze popracować z etykietkami. Mamy wskazanie, który obrazek przedstawia którą liczbę,\n", "# ale sieć potrzebuje szczególnego sformatowania\n", "print(\"Oryginalny sposób zapisu: \", y_train[0])\n", "print(y_train.shape)\n", "\n", "# dokumentacja kodowania\n", "# https://www.tensorflow.org/api_docs/python/tf/keras/utils/to_categorical\n", "Y_train = to_categorical(y_train, 10)\n", "Y_test = to_categorical(y_test, 10)\n", "print(\"Po zmianie: \", Y_train[0])\n", "print(Y_train.shape)" ] }, { "cell_type": "markdown", "metadata": { "id": "0FVTS1C0KC7v" }, "source": [ "## Stworzenie pierwszej architektury sieci neuronowej\n", "\n", "Pierwsza najważniejsza informacja z dzisiejszych zajęć: **nie ma uniwersalnych i uznanych szczegółowych zasad jak budować optymalną sieć neuronową dla danego problemu**. Głównymi narzędziami programistów są \"metoda prób i błędów\" oraz stworzona przed doświadczenie intuicja. Wielu matematyków i informatyków głowi się nad bardziej ścisłym sformułowaniu tego zagadnienia, są już pewne poszlaki, dla zainteresowanych polecam [tę publikację](https://arxiv.org/abs/1712.04741).\n", "\n", "Także i my jesteśmy skazani na metodę prób i błędów. Naszym pierwszym wyznacznikiem będzie skuteczność samego treningu. Będziemy obserwować jak zmienia się funkcja błędu i dokładność (accuracy). Nie musimy szukać lepszej miary jakości, jako że mamy zbalansowany zestaw danych.\n", "\n", "Drugim wyznacznikiem będzie skuteczność modelu na zestawie testowym (lub walidacyjnym, jak zobaczymy na końcu ćwiczenia)." ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [], "source": [ "# tworzymy model, korzystami z API sekwencyjnego, w którym kolejne warstwy ułożone są w ciąg/łańcuszek\n", "# jest to bardzo prosta i wygodna metoda tworzenia sieci feed-forward\n", "def create_model():\n", " # tworzymy obiekt typu Sequential\n", " model = Sequential()\n", " # dodajemy warstwę wejściową\n", " model.add(Input(shape=(784,))) # X_train[0].shape. Poza pierwszą warstwą nie trzeba już definiować \"input units\"\n", " # dodajemy kolejne warstwy po 500 neuronów każda\n", " model.add(Dense(500, activation='relu'))\n", " model.add(Dense(500, activation='relu'))\n", " model.add(Dense(500, activation='relu'))\n", " model.add(Dense(500, activation='relu'))\n", " # dodajemy ostatnią warstwę z 10 neuronami (liczba klas) i funkcją aktyw. 'softmax'\n", " model.add(Dense(10, activation='softmax')) # softmax, bo robimy klasyfikację i mamy 10 klas\n", " # zwracamy model\n", " return model" ] }, { "cell_type": "code", "execution_count": 6, "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "executionInfo": { "elapsed": 1903, "status": "ok", "timestamp": 1610535211248, "user": { "displayName": "Anna Dawid", "photoUrl": "https://lh3.googleusercontent.com/a-/AOh14GgUQAwZ7wyayL4BbiM0n_EANCgBjSdZ9H14lgcCFEE=s64", "userId": "02862484648310443813" }, "user_tz": -60 }, "id": "8fJ0bz3gIlw8", "outputId": "f6b14ba3-4cfd-46f3-ca86-1a7299921238" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Model: \"sequential\"\n", "_________________________________________________________________\n", "Layer (type) Output Shape Param # \n", "=================================================================\n", "dense (Dense) (None, 500) 392500 \n", "_________________________________________________________________\n", "dense_1 (Dense) (None, 500) 250500 \n", "_________________________________________________________________\n", "dense_2 (Dense) (None, 500) 250500 \n", "_________________________________________________________________\n", "dense_3 (Dense) (None, 500) 250500 \n", "_________________________________________________________________\n", "dense_4 (Dense) (None, 10) 5010 \n", "=================================================================\n", "Total params: 1,149,010\n", "Trainable params: 1,149,010\n", "Non-trainable params: 0\n", "_________________________________________________________________\n" ] } ], "source": [ "# Importujemy biblioteki do zbudowania sieci\n", "from tensorflow.keras.models import Sequential\n", "from tensorflow.keras.layers import Dense\n", "from tensorflow.keras import Input\n", "\n", "# jedna epoka to jeden trening sieci\n", "epochs = 10\n", "# rozmiar partii danych, której używamy trenując sieć\n", "batch_size = 128\n", "model = create_model()\n", "\n", "# wypiszmy informacje o sieciach\n", "model.summary(line_length=None, positions=None, print_fn=None)" ] }, { "cell_type": "markdown", "metadata": { "id": "ze2WYX4bP_E5" }, "source": [ "## Pierwszy trening\n", "\n", "Zastosujemy algorytm optymalizacyjny Adam (ze względu na jego dużą szybkość, choć w ogólności ma swoje problemy i warto pamiętać o istnieniu SGD + momentum). Będziemy obserwować dokładność i funkcję błędu modelu zarówno na danych treningowych, jak i testowych." ] }, { "cell_type": "code", "execution_count": 7, "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "executionInfo": { "elapsed": 115488, "status": "ok", "timestamp": 1610535324841, "user": { "displayName": "Anna Dawid", "photoUrl": "https://lh3.googleusercontent.com/a-/AOh14GgUQAwZ7wyayL4BbiM0n_EANCgBjSdZ9H14lgcCFEE=s64", "userId": "02862484648310443813" }, "user_tz": -60 }, "id": "4Me5x51yLqAA", "outputId": "0531cd3e-6db1-474d-b248-653c82ec7cc9" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Epoch 1/10\n", "469/469 [==============================] - 7s 15ms/step - loss: 0.2183 - accuracy: 0.9334 - val_loss: 0.1041 - val_accuracy: 0.9659\n", "Epoch 2/10\n", "469/469 [==============================] - 6s 13ms/step - loss: 0.0877 - accuracy: 0.9731 - val_loss: 0.0977 - val_accuracy: 0.9704\n", "Epoch 3/10\n", "469/469 [==============================] - 7s 14ms/step - loss: 0.0646 - accuracy: 0.9801 - val_loss: 0.1090 - val_accuracy: 0.9680\n", "Epoch 4/10\n", "469/469 [==============================] - 6s 14ms/step - loss: 0.0490 - accuracy: 0.9846 - val_loss: 0.0833 - val_accuracy: 0.9760\n", "Epoch 5/10\n", "469/469 [==============================] - 9s 19ms/step - loss: 0.0372 - accuracy: 0.9883 - val_loss: 0.0778 - val_accuracy: 0.9772\n", "Epoch 6/10\n", "469/469 [==============================] - 11s 23ms/step - loss: 0.0323 - accuracy: 0.9895 - val_loss: 0.0859 - val_accuracy: 0.9775\n", "Epoch 7/10\n", "469/469 [==============================] - 7s 16ms/step - loss: 0.0299 - accuracy: 0.9913 - val_loss: 0.0767 - val_accuracy: 0.9798\n", "Epoch 8/10\n", "469/469 [==============================] - 8s 18ms/step - loss: 0.0233 - accuracy: 0.9929 - val_loss: 0.0807 - val_accuracy: 0.9804\n", "Epoch 9/10\n", "469/469 [==============================] - 12s 26ms/step - loss: 0.0207 - accuracy: 0.9935 - val_loss: 0.0747 - val_accuracy: 0.9829\n", "Epoch 10/10\n", "469/469 [==============================] - 11s 23ms/step - loss: 0.0210 - accuracy: 0.9940 - val_loss: 0.0944 - val_accuracy: 0.9800\n" ] } ], "source": [ "# kompilujemy model\n", "model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])\n", "# fitujemy model do danych, zapisujemy zwracany obiekt do zmiennej\n", "trained_model_noreg = model.fit(X_train, Y_train, epochs=epochs, batch_size=batch_size, validation_data=(X_test, Y_test))" ] }, { "cell_type": "code", "execution_count": 8, "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 590 }, "executionInfo": { "elapsed": 116136, "status": "ok", "timestamp": 1610535325495, "user": { "displayName": "Anna Dawid", "photoUrl": "https://lh3.googleusercontent.com/a-/AOh14GgUQAwZ7wyayL4BbiM0n_EANCgBjSdZ9H14lgcCFEE=s64", "userId": "02862484648310443813" }, "user_tz": -60 }, "id": "X8BlyjLXNZh0", "outputId": "c321cd7b-b4ab-424b-ff91-2e7e7d96a1e5" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "dict_keys(['loss', 'accuracy', 'val_loss', 'val_accuracy'])\n" ] }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "# Sprawdźmy jakie dane o treningu są zapisane dla naszego treningu 'trained_model_5d'\n", "print(trained_model_noreg.history.keys())\n", "\n", "model_history = trained_model_noreg\n", "# Narysujmy wykresy dla dokładności na danych treningowych i testowych\n", "plt.plot(model_history.history['accuracy'])\n", "plt.plot(model_history.history['val_accuracy'])\n", "plt.title('Dokładność modelu')\n", "plt.ylabel('dokładność')\n", "plt.xlabel('epoki')\n", "plt.legend(['treningowe', 'testowe'], loc='upper left')\n", "plt.show()\n", "\n", "# Narysujmy wykresy dla funkcji błędu na danych treningowych i testowych\n", "plt.plot(model_history.history['loss'])\n", "plt.plot(model_history.history['val_loss'])\n", "plt.title('Funkcja błędu modelu')\n", "plt.ylabel('funkcja błędu')\n", "plt.xlabel('epoki')\n", "plt.legend(['treningowe', 'testowe'], loc='upper left')\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": { "id": "Cpkxm7mjPlIp" }, "source": [ "Co widzicie?\n", "\n", "**Odp: ??**" ] }, { "cell_type": "markdown", "metadata": { "id": "fW-ttJ-5Q3JG" }, "source": [ "## Metody regularyzacji\n", "\n", "Coś co powinno Wam dawać do myślenia to to, że jest dowód matematyczny na to, że sieć neuronowa z jedną warstwą jest w stanie dowolnie dokładnie aproksymować dowolną funkcję matematyczną. A my stosujemy nie jedną, a kilka warstw! W pierwszym przybliżeniu to dla Was sygnał, że sieci neuronowe są świetne do opisywania dowolnie skomplikowanych problemów, także tych nie istniejących :P mam na myśli, że jak dacie sieci wystarczająco dużo parametrów i czasu do treningu, to będzie w stanie wyciągnąć 100% dokładności na danych treningowych. Gwarantuję Wam jednak, że konsekwencją będzie też kiepska generalizacja, czyli dokładność na danych niewidzianych podczas treningu będzie znacząco mniejsza.\n", "\n", "Serce uczenia maszynowego nie leży w fitowaniu modelu do danych. Leży w dobrej generalizacji tego modelu na dane niewidoczne podczas treningu.\n", "\n", "Gdy widzimy, że model świetnie działa na danych treningowych, a źle generalizuje (tzw. overfitting), to możemy dokonać zmian:\n", "- w modelu\n", "- w danych\n", "\n", "Drugi sposób pokażę Wam za tydzień, dziś się skupimy na pierwszym podejściu. Zawsze można próbować uprościć architekturę, tak aby dokładność modelu na danych treningowych utrzymała się na podobnym poziomie, a wzrosła na testowych. Ponadto, na pomoc przychodzą nam metody regularyzacji, które zmieniają nam nieco model, upraszczają go i zwiększają zdolność generalizacji." ] }, { "cell_type": "markdown", "metadata": { "id": "3eh0BctQV544" }, "source": [ "### Wczesne zatrzymywanie (Early Stopping)\n", "\n", "To metoda ograniczająca czas treningu - zostaje on przerwany po wystąpieniu n epok z rzędu (n = patience), podczas których funkcja błędu walidacyjna się nie zmienia." ] }, { "cell_type": "code", "execution_count": 9, "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 1000 }, "executionInfo": { "elapsed": 231031, "status": "ok", "timestamp": 1610535440394, "user": { "displayName": "Anna Dawid", "photoUrl": "https://lh3.googleusercontent.com/a-/AOh14GgUQAwZ7wyayL4BbiM0n_EANCgBjSdZ9H14lgcCFEE=s64", "userId": "02862484648310443813" }, "user_tz": -60 }, "id": "Vk8Xe3J6VQa8", "outputId": "9f86ccd5-ad57-4f07-996d-31ea220090fb" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Model: \"sequential_1\"\n", "_________________________________________________________________\n", "Layer (type) Output Shape Param # \n", "=================================================================\n", "dense_5 (Dense) (None, 500) 392500 \n", "_________________________________________________________________\n", "dense_6 (Dense) (None, 500) 250500 \n", "_________________________________________________________________\n", "dense_7 (Dense) (None, 500) 250500 \n", "_________________________________________________________________\n", "dense_8 (Dense) (None, 500) 250500 \n", "_________________________________________________________________\n", "dense_9 (Dense) (None, 10) 5010 \n", "=================================================================\n", "Total params: 1,149,010\n", "Trainable params: 1,149,010\n", "Non-trainable params: 0\n", "_________________________________________________________________\n", "Epoch 1/10\n", "469/469 [==============================] - 7s 15ms/step - loss: 0.2184 - accuracy: 0.9334 - val_loss: 0.1148 - val_accuracy: 0.9649\n", "Epoch 2/10\n", "469/469 [==============================] - 7s 14ms/step - loss: 0.0874 - accuracy: 0.9732 - val_loss: 0.0889 - val_accuracy: 0.9718\n", "Epoch 3/10\n", "469/469 [==============================] - 7s 15ms/step - loss: 0.0640 - accuracy: 0.9803 - val_loss: 0.0786 - val_accuracy: 0.9753\n", "Epoch 4/10\n", "469/469 [==============================] - 7s 14ms/step - loss: 0.0468 - accuracy: 0.9854 - val_loss: 0.0827 - val_accuracy: 0.9781\n", "Epoch 5/10\n", "469/469 [==============================] - 7s 14ms/step - loss: 0.0373 - accuracy: 0.9882 - val_loss: 0.0978 - val_accuracy: 0.9748\n", "Epoch 6/10\n", "469/469 [==============================] - 7s 14ms/step - loss: 0.0328 - accuracy: 0.9899 - val_loss: 0.0804 - val_accuracy: 0.9766\n" ] }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "from tensorflow.keras.callbacks import EarlyStopping\n", "\n", "model_stop = create_model()\n", "model_stop.summary(line_length=None, positions=None, print_fn=None)\n", "\n", "model_stop.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])\n", "\n", "# zwróc uwagę na parametr 'callbacks'\n", "trained_model_stop = model_stop.fit(X_train, Y_train, epochs=epochs, batch_size=batch_size, validation_data=(X_test, Y_test), \n", " callbacks = [EarlyStopping(monitor='val_accuracy', patience=2)])\n", "\n", "model_history = trained_model_stop\n", "\n", "# Narysujmy wykresy dla dokładności na danych treningowych i testowych\n", "plt.plot(model_history.history['accuracy'])\n", "plt.plot(model_history.history['val_accuracy'])\n", "plt.title('Dokładność modelu')\n", "plt.ylabel('dokładność')\n", "plt.xlabel('epoki')\n", "plt.legend(['treningowe', 'testowe'], loc='upper left')\n", "plt.show()\n", "\n", "# Narysujmy wykresy dla funkcji błędu na danych treningowych i testowych\n", "plt.plot(model_history.history['loss'])\n", "plt.plot(model_history.history['val_loss'])\n", "plt.title('Funkcja błędu modelu')\n", "plt.ylabel('funkcja błędu')\n", "plt.xlabel('epoki')\n", "plt.legend(['treningowe', 'testowe'], loc='upper left')\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": { "id": "lPEnrPTsSEwF" }, "source": [ "### Regularyzacja L2 i L1\n", "\n", "To dołożenie do funkcji błędu czynników, które rosną wraz z wielkością wag w modelu - karzą model za wagi o dużych wartościach. Bazuje na założeniu, że prostsze modele mają mniejsze wagi.\n", "\n", "L1 jest \"mocniejsza\", czasem aż zeruje wagi, więc jest przydatna w poszukiwaniach optymalnej architektury, gdy szukamy, które neurony wyrzucić, do mniejszej modyfikacji sieci używana jest L2.\n", "\n" ] }, { "cell_type": "code", "execution_count": 10, "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 1000 }, "executionInfo": { "elapsed": 358652, "status": "ok", "timestamp": 1610535568019, "user": { "displayName": "Anna Dawid", "photoUrl": "https://lh3.googleusercontent.com/a-/AOh14GgUQAwZ7wyayL4BbiM0n_EANCgBjSdZ9H14lgcCFEE=s64", "userId": "02862484648310443813" }, "user_tz": -60 }, "id": "72Hipq4KPRkO", "outputId": "6232b152-4424-4a74-8396-0bf62f62a437" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Model: \"sequential_2\"\n", "_________________________________________________________________\n", "Layer (type) Output Shape Param # \n", "=================================================================\n", "dense_10 (Dense) (None, 500) 392500 \n", "_________________________________________________________________\n", "dense_11 (Dense) (None, 500) 250500 \n", "_________________________________________________________________\n", "dense_12 (Dense) (None, 500) 250500 \n", "_________________________________________________________________\n", "dense_13 (Dense) (None, 500) 250500 \n", "_________________________________________________________________\n", "dense_14 (Dense) (None, 10) 5010 \n", "=================================================================\n", "Total params: 1,149,010\n", "Trainable params: 1,149,010\n", "Non-trainable params: 0\n", "_________________________________________________________________\n", "Epoch 1/10\n", "469/469 [==============================] - 11s 24ms/step - loss: 1.0419 - accuracy: 0.9280 - val_loss: 0.5199 - val_accuracy: 0.9639\n", "Epoch 2/10\n", "469/469 [==============================] - 11s 24ms/step - loss: 0.3981 - accuracy: 0.9628 - val_loss: 0.3162 - val_accuracy: 0.9655\n", "Epoch 3/10\n", "469/469 [==============================] - 10s 21ms/step - loss: 0.2798 - accuracy: 0.9678 - val_loss: 0.2722 - val_accuracy: 0.9665\n", "Epoch 4/10\n", "469/469 [==============================] - 10s 21ms/step - loss: 0.2367 - accuracy: 0.9722 - val_loss: 0.2384 - val_accuracy: 0.9697\n", "Epoch 5/10\n", "469/469 [==============================] - 9s 19ms/step - loss: 0.2175 - accuracy: 0.9735 - val_loss: 0.2349 - val_accuracy: 0.9674\n", "Epoch 6/10\n", "469/469 [==============================] - 12s 25ms/step - loss: 0.2022 - accuracy: 0.9758 - val_loss: 0.2013 - val_accuracy: 0.9735\n", "Epoch 7/10\n", "469/469 [==============================] - 10s 21ms/step - loss: 0.1930 - accuracy: 0.9769 - val_loss: 0.2074 - val_accuracy: 0.9723\n", "Epoch 8/10\n", "469/469 [==============================] - 10s 22ms/step - loss: 0.1788 - accuracy: 0.9790 - val_loss: 0.2004 - val_accuracy: 0.9704\n", "Epoch 9/10\n", "469/469 [==============================] - 10s 21ms/step - loss: 0.1714 - accuracy: 0.9797 - val_loss: 0.1880 - val_accuracy: 0.9753\n", "Epoch 10/10\n", "469/469 [==============================] - 14s 30ms/step - loss: 0.1672 - accuracy: 0.9799 - val_loss: 0.1763 - val_accuracy: 0.9759\n" ] }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "from tensorflow.keras import regularizers\n", "\n", "l2_lambda = 0.001\n", "\n", "model_l2 = Sequential()\n", "model_l2.add(Input(shape=(784,))) # X_train[0].shape. Poza pierwszą warstwą nie trzeba już definiować \"input units\"\n", "# zwróc uwagę na regularyzację\n", "model_l2.add(Dense(500, activation='relu', kernel_regularizer=regularizers.l2(l2_lambda)))\n", "model_l2.add(Dense(500, activation='relu', kernel_regularizer=regularizers.l2(l2_lambda)))\n", "model_l2.add(Dense(500, activation='relu', kernel_regularizer=regularizers.l2(l2_lambda)))\n", "model_l2.add(Dense(500, activation='relu', kernel_regularizer=regularizers.l2(l2_lambda)))\n", "model_l2.add(Dense(10, activation='softmax')) # softmax, bo robimy klasyfikację i mamy 10 klas\n", "model_l2.summary(line_length=None, positions=None, print_fn=None)\n", "\n", "model_l2.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])\n", "\n", "trained_model_l2 = model_l2.fit(X_train, Y_train, epochs=epochs, batch_size=batch_size, validation_data=(X_test, Y_test))\n", "\n", "model_history = trained_model_l2\n", "# Narysujmy wykresy dla dokładności na danych treningowych i testowych\n", "plt.plot(model_history.history['accuracy'])\n", "plt.plot(model_history.history['val_accuracy'])\n", "plt.title('Dokładność modelu')\n", "plt.ylabel('dokładność')\n", "plt.xlabel('epoki')\n", "plt.legend(['treningowe', 'testowe'], loc='upper left')\n", "plt.show()\n", "\n", "# Narysujmy wykresy dla funkcji błędu na danych treningowych i testowych\n", "plt.plot(model_history.history['loss'])\n", "plt.plot(model_history.history['val_loss'])\n", "plt.title('Funkcja błędu modelu')\n", "plt.ylabel('funkcja błędu')\n", "plt.xlabel('epoki')\n", "plt.legend(['treningowe', 'testowe'], loc='upper left')\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": { "id": "IPaohk9pTvdP" }, "source": [ "### Dropout\n", "\n", "Bardzo ciekawe podejście, polegające na losowym zerowaniu % neuronów podczas treningu. To uczy sieć, by nie \"polegała\" za bardzo na żadnym pojedynczym neuronie." ] }, { "cell_type": "code", "execution_count": 11, "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 1000 }, "executionInfo": { "elapsed": 491440, "status": "ok", "timestamp": 1610535700811, "user": { "displayName": "Anna Dawid", "photoUrl": "https://lh3.googleusercontent.com/a-/AOh14GgUQAwZ7wyayL4BbiM0n_EANCgBjSdZ9H14lgcCFEE=s64", "userId": "02862484648310443813" }, "user_tz": -60 }, "id": "DdnQ5x7GTZQu", "outputId": "6eab3a61-a341-482c-e49e-dc7428bca9cd" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Model: \"sequential_3\"\n", "_________________________________________________________________\n", "Layer (type) Output Shape Param # \n", "=================================================================\n", "dense_15 (Dense) (None, 500) 392500 \n", "_________________________________________________________________\n", "dropout (Dropout) (None, 500) 0 \n", "_________________________________________________________________\n", "dense_16 (Dense) (None, 500) 250500 \n", "_________________________________________________________________\n", "dropout_1 (Dropout) (None, 500) 0 \n", "_________________________________________________________________\n", "dense_17 (Dense) (None, 500) 250500 \n", "_________________________________________________________________\n", "dropout_2 (Dropout) (None, 500) 0 \n", "_________________________________________________________________\n", "dense_18 (Dense) (None, 500) 250500 \n", "_________________________________________________________________\n", "dropout_3 (Dropout) (None, 500) 0 \n", "_________________________________________________________________\n", "dense_19 (Dense) (None, 10) 5010 \n", "=================================================================\n", "Total params: 1,149,010\n", "Trainable params: 1,149,010\n", "Non-trainable params: 0\n", "_________________________________________________________________\n", "Epoch 1/10\n", "469/469 [==============================] - 11s 22ms/step - loss: 0.2961 - accuracy: 0.9084 - val_loss: 0.1262 - val_accuracy: 0.9610\n", "Epoch 2/10\n", "469/469 [==============================] - 11s 23ms/step - loss: 0.1296 - accuracy: 0.9618 - val_loss: 0.0915 - val_accuracy: 0.9737\n", "Epoch 3/10\n", "469/469 [==============================] - 8s 18ms/step - loss: 0.1004 - accuracy: 0.9704 - val_loss: 0.1027 - val_accuracy: 0.9714\n", "Epoch 4/10\n", "469/469 [==============================] - 8s 18ms/step - loss: 0.0842 - accuracy: 0.9751 - val_loss: 0.0817 - val_accuracy: 0.9762\n", "Epoch 5/10\n", "469/469 [==============================] - 8s 18ms/step - loss: 0.0751 - accuracy: 0.9775 - val_loss: 0.0779 - val_accuracy: 0.9790\n", "Epoch 6/10\n", "469/469 [==============================] - 8s 18ms/step - loss: 0.0628 - accuracy: 0.9816 - val_loss: 0.0616 - val_accuracy: 0.9823\n", "Epoch 7/10\n", "469/469 [==============================] - 9s 18ms/step - loss: 0.0550 - accuracy: 0.9833 - val_loss: 0.0667 - val_accuracy: 0.9818\n", "Epoch 8/10\n", "469/469 [==============================] - 9s 19ms/step - loss: 0.0501 - accuracy: 0.9852 - val_loss: 0.0680 - val_accuracy: 0.9824\n", "Epoch 9/10\n", "469/469 [==============================] - 9s 19ms/step - loss: 0.0496 - accuracy: 0.9852 - val_loss: 0.0676 - val_accuracy: 0.9823\n", "Epoch 10/10\n", "469/469 [==============================] - 9s 19ms/step - loss: 0.0483 - accuracy: 0.9858 - val_loss: 0.0697 - val_accuracy: 0.9792\n" ] }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "from tensorflow.keras.layers import Dropout\n", "\n", "dropout_rate = 0.25\n", "\n", "model_drop = Sequential()\n", "model_drop.add(Input(shape=(784,))) # X_train[0].shape. Poza pierwszą warstwą nie trzeba już definiować \"input units\"\n", "model_drop.add(Dense(500, activation='relu'))\n", "# dropout można zaimplementować jako warstwę\n", "model_drop.add(Dropout(dropout_rate))\n", "model_drop.add(Dense(500, activation='relu'))\n", "model_drop.add(Dropout(dropout_rate))\n", "model_drop.add(Dense(500, activation='relu'))\n", "model_drop.add(Dropout(dropout_rate))\n", "model_drop.add(Dense(500, activation='relu'))\n", "model_drop.add(Dropout(dropout_rate))\n", "model_drop.add(Dense(10, activation='softmax')) # softmax, bo robimy klasyfikację i mamy 10 klas\n", "\n", "model_drop.summary(line_length=None, positions=None, print_fn=None)\n", "\n", "model_drop.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])\n", "\n", "trained_model_drop = model_drop.fit(X_train, Y_train, epochs=epochs, batch_size=batch_size, validation_data=(X_test, Y_test))\n", "\n", "model_history = trained_model_drop\n", "# Narysujmy wykresy dla dokładności na danych treningowych i testowych\n", "plt.plot(model_history.history['accuracy'])\n", "plt.plot(model_history.history['val_accuracy'])\n", "plt.title('Dokładność modelu')\n", "plt.ylabel('dokładność')\n", "plt.xlabel('epoki')\n", "plt.legend(['treningowe', 'testowe'], loc='upper left')\n", "plt.show()\n", "\n", "# Narysujmy wykresy dla funkcji błędu na danych treningowych i testowych\n", "plt.plot(model_history.history['loss'])\n", "plt.plot(model_history.history['val_loss'])\n", "plt.title('Funkcja błędu modelu')\n", "plt.ylabel('funkcja błędu')\n", "plt.xlabel('epoki')\n", "plt.legend(['treningowe', 'testowe'], loc='upper left')\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": { "id": "F1Ep13glWeZg" }, "source": [ "# Zadanie na dzisiaj\n", "\n", "Metody te można łączyć. W szczególności można myśleć o Early Stopping jako metodzie podpowiadającej jak długo trenować sieć (ile epok), L1 może pomóc przy tworzeniu architektury, L2 lub Dropout stosujemy przy finalnym treningu.\n", "\n", "Czujny uczestnik zauważy, że to co tutaj robimy to fitowanie hiperparametrów do danych, tym razem już nie treningowych, ale testowych. A zawsze podkreślaliśmy, że trening (dobieranie parametrów modelu) powinien być oddzielony od ostatecznych danych sprawdzających jakość modelu. Jako że doszedł nam dodatkowy rozbudowany etap - dobieranie hiperparametrów modelu (takich jak liczba epok, częstość Dropoutu, czy siła regularyzacji L1 czy L2), to potrzebujemy dodatkowego zestawu danych. Nazywa się on zestawem \"walidacyjnym\".\n", "\n", "Ostatecznie więc profesjonaliści dzielą cały dostępny zestaw danych na: \n", "\n", "- dane treningowe, do których fitują model, obserwując jednocześnie dokładność na zestawie walidacyjnym\n", "- dane walidacyjne, do których dobiera się hiperparametry\n", "- dane testowe, służące już wyłącznie do sprawdzenia jakości finalnego modelu\n", "\n", "Zadanie na dziś to:\n", "1) stwórz sieć z użyciem jednego lub kilku rodzajów regularyzacji\n", "\n", "2) skompiluj i dopasuj model do danych, użyj 30% zbioru treningowego do walidacji ( dokumentacja metody fit() )\n", "\n", "3) znajdź optymalne parametry sieci i regularyzacji\n", "\n", "4) sprawdź działanie sieci na danych testowych\n", "\n", "5) sporządź raport z klasyfikacji z wykresami\n", "\n", "Powodzenia! :)" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] } ], "metadata": { "colab": { "authorship_tag": "ABX9TyNgN4Ns96O4PKYyYUFlC4En", "collapsed_sections": [], "name": "10M_Sieci_głębokie_regularyzacja.ipynb", "provenance": [] }, "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.8.6" } }, "nbformat": 4, "nbformat_minor": 2 }