机器学习-梯度下降的优化

Created2022-08-16|Updated2025-02-22|技术

|Word Count:481|Reading Time:2mins|Post Views:

在回归中，我们需要解决下面的优化问题，即使得Loss函数尽可能的小

\[ \theta^*=arg\min L(\theta),L:loss function,\theta:parameters \]

假设一共有两个参数\(\theta_1,\theta_2\)，使得\(\theta^0= \begin{bmatrix}\theta^0\\\theta^1\end{bmatrix}\)，便有梯度如下

\[\nabla L(\theta)=\begin{bmatrix} \partial L(\theta_1)/ \partial \theta_1\\\ \partial L(\theta_2)/ \partial \theta_2\end{bmatrix}\]

那么参数的更新便可通过向量的形式进行

\[ \begin{bmatrix}\theta^1_1\\\theta^1_2\end{bmatrix}=\begin{bmatrix}\theta^0_1\\\theta^0_2\end{bmatrix}-\eta\begin{bmatrix} \partial L(\theta^0_1)/ \partial \theta_1\\\ \partial L(\theta^0_2)/ \partial \theta_2\end{bmatrix} \]

但是其中，\(\eta\)是一直不变的，但是我们知道，经过迭代之后，在越来约接近目标的时候，我们需要将学习率降低，使其能够愈发趋近目的地。故，我们对\(eta\)进行改进，使其经过一定的迭代后越来越小。

\[ \eta^t=\eta/\sqrt{t+1} \]

但是学习率不能一刀切，对于参数，我们也需要给予其一定的改变。一般我们的参数的改变为

\[ w^{t+1}=w^t-\eta^tg^t \]

w是一个参数，我们设置\(\eta^t\) 为参数w之前导数的均方根，使其成为一个参数依赖型的学习率。也就是说

\[ w^1=w^0-\frac{\eta^0}{\sigma^0}g^0,\sigma^0=\sqrt{(g^0)^2}\\ w^2=w^1-\frac{\eta^1}{\sigma^1}g^1,\sigma^1=\sqrt{\frac{1}{2}[(g^0)^2+(g^1)^2]}\\ \]

如此迭代，直到

\[ w^{t+1}=w^t-\frac{\eta^t}{\sigma^t}g^t,\sigma^t=\sqrt{\frac{1}{t+1}\sum^t_{i=0}(g^i)^2} \]

从上面的式子中，我们可以看到\(\eta^t\)是一个时间相关的学习率，\(\sigma^t\)是一个参数相关的学习率，且

\[ \eta^t=\frac{\eta}{\sqrt{t+1}},\sigma^t=\sqrt{\frac{1}{t+1}\sum^t_{i=0}(g^i)^2} \]

故相除之后得到下列的公式

\[ w^{t+1}=w^t-\frac{\eta}{\sqrt{\sum^t_{i=0}(g^i)^2}}g^t \]

梯度改进之后的对比如下：

20220816173111

Author: zepoch

Link: https://www.zepoch.cc/2022/3163358201.html

Copyright Notice: All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.

技术机器学习梯度下降

Related Articles

机器学习-回归

前言此次学习的课程为李宏毅机器学习，之前学过一遍吴恩达的课程，只可惜当时没记笔记，且近些时候没有写代码，逐渐疏忽了，故选择李宏毅再进行新一遍的学习，所谓温故而知新。回归是我们通常会使用的机器学习中的一类，比如日常中的我们的身高预测，股票预测等等，这些都可以看作为粗略的回归。举一个例子小时候我们会玩一个叫赛尔号的游戏，游戏里有各种各样的精力，就好比我们捕捉到了一只雷伊，然后我们可以向雷伊投经验值，让他升级，这只雷伊会有一个攻击力，我们想要预测雷伊的各种各样的属性与其攻击力之间的关系。于是我们设其血量为\(X_{hp}\)，其体重为\(x_{w}\)，其身高为\(x_{h}\)，其物种为\(x_s\)，其战斗力为\(x_{cp}\)，然后预测他进化之后的战斗力值。那么便有\(y=b+\sum w_ix_i\)，其中\(w_i:weight,b:bias\)。如果单一个\(x_{cp}\)作预测的话便是\(y=b+w\cdot x_{cp}\)。收集到了数据之后，便是可以进行预测，在此我们使用一个名为Loss函数进行Loss计算 \[ L(f) =...

机器学习-概率生成模型

理论基础概率生成模型，是概率统计和机器学习中的一类重要模型，指一系列用于随机生成可观测数据的模型。假设有两类数据，每一类都有若干个样本；概率生成模型认为每一类数据都服从某一种分布，如高斯分布；从两类训练数据中得到两个高斯分布的密度函数，具体的是获得均值和方差两个参数；测试样本输入到其中一个高斯分布函数，得到的概率值若大于0.5，则说明该样本属于该类，否则属于另一类。生成模型可以和贝叶斯概率公式进行结合，用于分类问题。原始贝叶斯概率公式为： \[ P(A|B)=\frac{P(B|A)P(A)}{P(B)}...

机器学习-逻辑回归

接着上篇博客继续，我们发现，概率生成模型最终推导函数，其本质还是寻找参数w和b，所以可以设置一个函数，直接来寻找最优的w和b \[ f_{w,b}(x)=P_{w,b}(C_1|x)=\sigma(z)\\ \sigma(z)=\frac{1}{1+exp(-z)}\\ z = w \cdot x+b \] 相较于线性回归，逻辑回归做的事情便是将 wx+b 放入 sigmoid 函数中，使其输出一直处于0~1之间。在我们确定了函数之后，便是应该再定义一个损失函数。假设有一组训练数据，其数据大小为 N，而且分别有自己的类别标签C。给定一组 w 和 b，就可以计算这组w，b下产生上图N个训练数据的概率，\(f_{w,b}(x^3)\)表示 \(x^3\) 属于C1的概率，但是其真实分类为C2，所以要用 \(1-f_{w,b}(x^3)\)。 \(L(w,b)L(w,b)\)取得的数值最大的时候，即取得最好的w和b，\(w^∗,b^∗ = argmax_{w,b}L(w,b)\) 在此我们可以做一个变换，对...

Transformer架构

rds与h5ad的相互转换

之前做过一个 rds 转 h5ad 的教程，现在看来发现有些过于繁琐，且随着时间的发展，也有了更好的方法的出现，所以这里再写一个教程。新的工具包是 https://github.com/cellgeni/sceasy ，这是一个专注于做各种单细胞文件格式转换的文件，但是作者也并没有写明一个特别完整的参数说明，所以这里我也只能根据自己的使用经验来写一下。安装可以如作者所述，直接安装即可 123conda install -c bioconda r-sceasy# 或者devtools::install_github("cellgeni/sceasy") 安装并不复杂，这里会详细讲一下其更为优秀的使用 12345678910# 首先是包的载入，只需载入这两行即可，如果你的文件没有 loom的话，那么就不需要载入 loom包library(sceasy)library(reticulate)# 单细胞的 rds 文件与 h5ad 文件之间的互相转换如下即可sceasy::convertFormat(seurat_object,...

pip install fa2

最近在学习scanpy，读scanpy文档的toturial部分的 Trajectory inference for hematopoiesis in mouse 部分的时候，出现了一个错误，在我的 jupyter notebook 运行的时候，出现了一个 warning 1WARNING: Package 'fa2' is not installed, falling back to layout 'fr'.To use the faster and better ForceAtlas2 layout, install package 'fa2' (`pip install fa2`). 这个warning会导致我之后绘制的图片与文档中的原图有区别，在执行命令sc.pl.draw_graph(adata, color='paul15_clusters', legend_loc='on data')的时候，可以看到，左边是源文档的图片，右边是我画出来的图片 ...

Comments