注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

HT·生活

123

 
 
 

日志

 
 

Linear Regression  

2015-06-02 16:02:26|  分类: Deep Learning |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

线性回归算是最简单的模型,(其变种)也是实际中应用最广泛的,这里参考tornadomeet的博客以及standford大学的公开课里面的一些内容。这里面的题目用的数据是关于小孩儿年龄和身高的一个关系,包含50个数据点。首先如果画出数据的分布图的话可以很明显看出年龄和身高是一个线性关系。

假设数据满足线性关系,就应该有

采用梯度下降法估计参数公式为

这个是通过对cost函数求解得到的,cost函数如下所示

但实际我们写代码的时候基本都是采用向量形式的,求解参数的过程一般可以矩阵求逆的方式(我以前一直是这么干的),后来学了一点儿机器学习的东西之后才发现learning rate和梯度下降真是一个不错的东西

常规代码

clc;
clear all;

x = load('ex2x.dat');
y = load('ex2y.dat');

figure % open a new figure window
plot(x, y, '*');
ylabel('Height in meters');
xlabel('Age in years');

x = [ones(size(x)),x];
w=inv(x'*x)*x'*y;
hold on;
y_e = x*w;
plot(x(:,2),y_e,'r');

采用梯度下降法,更新的时候最好使用向量更新的方式

clear all; close all; clc
x = load('ex2x.dat'); y = load('ex2y.dat');

m = length(y); % number of training examples


% Plot the training data
figure; % open a new figure window
plot(x, y, 'o');
ylabel('Height in meters')
xlabel('Age in years')

% Gradient descent
x = [ones(m, 1) x]; % Add a column of ones to x
theta = zeros(size(x(1,:)))'; % initialize fitting parameters
MAX_ITR = 1500;
alpha = 0.07; %给定了学习率

for num_iterations = 1:MAX_ITR
% This is a vectorized version of the
% gradient descent update formula
% It's also fine to use the summation formula from the videos

% Here is the gradient
grad = (1/m).* x' * ((x * theta) - y);

% Here is the actual update
theta = theta - alpha .* grad;

% Sequential update: The wrong way to do gradient descent
% grad1 = (1/m).* x(:,1)' * ((x * theta) - y);
% theta(1) = theta(1) + alpha*grad1;
% grad2 = (1/m).* x(:,2)' * ((x * theta) - y);
% theta(2) = theta(2) + alpha*grad2;
end
% print theta to screen
theta

% Plot the linear fit
hold on; % keep previous plot visible
plot(x(:,2), x*theta, '-')
legend('Training data', 'Linear regression')
hold off % don't overlay any more plots on this figure

% Closed form solution for reference
% You will learn about this method in future videos
exact_theta = (x' * x)\x' * y

% Predict values for age 3.5 and 7
predict1 = [1, 3.5] *theta
predict2 = [1, 7] * theta


% Calculate J matrix

% Grid over which we will calculate J
theta0_vals = linspace(-3, 3, 100);
theta1_vals = linspace(-1, 1, 100);

% initialize J_vals to a matrix of 0's
J_vals = zeros(length(theta0_vals), length(theta1_vals));

for i = 1:length(theta0_vals)
for j = 1:length(theta1_vals)
t = [theta0_vals(i); theta1_vals(j)];
J_vals(i,j) = (0.5/m) .* (x * t - y)' * (x * t - y);
end
end

% Because of the way meshgrids work in the surf command, we need to
% transpose J_vals before calling surf, or else the axes will be flipped
J_vals = J_vals';
% Surface plot
figure;
surf(theta0_vals, theta1_vals, J_vals)
xlabel('\theta_0'); ylabel('\theta_1');

% Contour plot
figure;
% Plot J_vals as 15 contours spaced logarithmically between 0.01 and 100
contour(theta0_vals, theta1_vals, J_vals, logspace(-2, 2, 15))%画出等高线
xlabel('\theta_0'); ylabel('\theta_1');


数据分布图

 

cost与参数分布的关系

 

cost关于参数的等高线图

参考
http://www.cnblogs.com/tornadomeet/archive/2013/03/15/2961660.html
http://openclassroom.stanford.edu/MainFolder/DocumentPage.php?course=DeepLearning&doc=exercises/ex2/ex2.html
  评论这张
 
阅读(27)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017