# 计算机代写|数据分析信号处理和机器学习中的矩阵方法代写Matrix Methods In Data Analysis, Signal Processing, And Machine Learning代考|MTH4100

## 计算机代写|数据分析信号处理和机器学习中的矩阵方法代写Matrix Methods In Data Analysis, Signal Processing, And Machine Learning代考|Stochastic Gradient Descent

The final major trick of GD enables significant speed up. Assume we want to minimize over just one function, $f$, again.

• In each step, $i$, we estimate the gradient of $f$ at $x_i$ based on one random data item
• Call this random gradient $g_i$, where $E\left(g_i\right)=\nabla f\left(x_i\right)$
• Then, using the $g_i$ ‘s we get essentially same results as if we had the true gradient

$$\eta \leftarrow \frac{D}{G \sqrt{T}}$$
Repeat for $i=0$ to $T$ :

1. $g_i \leftarrow$ a random vector, such that $E\left(g_i\right)=\nabla f\left(x_i\right)$
2. $y_{i+1} \leftarrow x_i-\eta g_i$
3. $x_{i+1} \leftarrow$ Projection of $y_{i+1}$ onto $\mathcal{K}$
Output $z=\frac{1}{T} \sum_i x_i$

\begin{aligned} E\left(f(z)-f\left(x^\right)\right) & \leq \frac{1}{T} E\left(\sum_{i=1}^T\left(f\left(x_i\right)-f\left(x^\right)\right)\right) \quad \text { By previous slide } \ & \leq \frac{1}{T} \sum_i E\left(\nabla f\left(x_i\right) \cdot\left(x_i-x^\right)\right) \quad \text { Using Fact } 1 \ &=\frac{1}{T} \sum_i E\left(g_i \cdot\left(x_i-x^\right)\right) \quad \text { Cuz } E\left(g_i \cdot x\right)=\nabla f\left(x_i\right) \cdot x \ &=\frac{1}{T} \sum_i E\left(f_i\left(x_i\right)-f_i\left(x^\right)\right) \quad \text { Letting } f_i(x)=g_i \cdot x \ &=E\left(\frac{1}{T} \sum_i\left(f_i\left(x_i\right)-f_i\left(x^\right)\right)\right) \quad \text { Linearity of Exp. } \ & \leq \frac{D G}{\sqrt{T}} \quad \text { Regret bound using Zinkevich’s Thm } \end{aligned}

## 计算机代写|数据分析信号处理和机器学习中的矩阵方法代写Matrix Methods In Data Analysis, Signal Processing, And Machine Learning代考|Two Notes on Proof

• Requirement in Step 3: $E\left(g_i \cdot x\right)=\nabla f\left(x_i\right) \cdot x$, for all $x$
• Holds since dot product is linear, and $E\left(g_i\right)=\nabla f\left(x_i\right)$
• Requirement in Last Step: $f_i(x)$ is convex. Needed to use Zinkevich
• Holds since $f_i(x)=g_i \cdot x$ is linear

Gradient Descent comes in 3 basic flavors:

• Online Gradient Descent Works even when function is changing

# 机器学习中的矩阵方法代考

## 计算机代写|数据分析信号处理和机器学习中的矩阵方法代写Matrix Methods In Data Analysis, Signal Processing, And Machine Learning代考|Stochastic Gradient Descent

$\mathrm{GD}$ 的最后一个主要技巧可以显着加快速度。假设我们只想最小化一个函数， $f$ ，再次。

• 在每一步中， $i$, 我们估计梯度 $f$ 在 $x_i$ 基于一个随机数据项
• 称这个随机梯度 $g_i$ ，在哪里 $E\left(g_i\right)=\nabla f\left(x_i\right)$
• 然后，使用 $g_i$ 我们得到的结果与真正的梯度基本相同
$$\eta \leftarrow \frac{D}{G \sqrt{T}}$$
重复 $i=0$ 至 $T$ :
1. $g_i \leftarrow$ 个随机向量，这样 $E\left(g_i\right)=\nabla f\left(x_i\right)$
2. $y_{i+1} \leftarrow x_i-\eta g_i$
3. $x_{i+1}$ ←的投影 $y_{i+1}$ 到 $\mathcal{K}$
输出 $z=\frac{1}{T} \sum_i x_i$

## 计算机代写|数据分析信号处理和机器学习中的矩阵方法代写Matrix Methods In Data Analysis, Signal Processing, And Machine Learning代考|Two Notes on Proof

• 第三步要求: $E\left(g_i \cdot x\right)=\nabla f\left(x_i\right) \cdot x$ ，对所有人 $x$
• 成立，因为点积是线性的，并且 $E\left(g_i\right)=\nabla f\left(x_i\right)$
• 最后一步的要求: $f_i(x)$ 是凸的。需要使用 Zinkevich
• 自成立以来 $f_i(x)=g_i \cdot x$ 是线性的
梯度下降有 3 种基本类型:
• 标准梯度下降
• 即使功能发生变化，在线梯度下降也能正常工作
• 随机梯庻下降 只需要正确的期望梯庹

myassignments-help数学代考价格说明

1、客户需提供物理代考的网址，相关账户，以及课程名称，Textbook等相关资料~客服会根据作业数量和持续时间给您定价~使收费透明，让您清楚的知道您的钱花在什么地方。

2、数学代写一般每篇报价约为600—1000rmb，费用根据持续时间、周作业量、成绩要求有所浮动(持续时间越长约便宜、周作业量越多约贵、成绩要求越高越贵)，报价后价格觉得合适，可以先付一周的款，我们帮你试做，满意后再继续，遇到Fail全额退款。

3、myassignments-help公司所有MATH作业代写服务支持付半款，全款，周付款，周付款一方面方便大家查阅自己的分数，一方面也方便大家资金周转，注意:每周固定周一时先预付下周的定金，不付定金不予继续做。物理代写一次性付清打9.5折。

Math作业代写、数学代写常见问题

myassignments-help擅长领域包含但不是全部: