Spark MLlib�ع��㷨LinearRegression-��ƿ��

Spark MLlib�ع��㷨LinearRegression

2017-11-19 1414

��Ȩ

��Ȩ��

��ɰ��ʵ��ע��û��Է��ף��Ȩ��ԭ��У��ƿ��ӵ��Ȩ��಻�е��Ӧ��Ρ��鿴�� ƿ��û��Э�� ƿ��֪ʶ��Ȩ��ָ��ֱ��ӳ�Ϯ��ݣ��д ��ȨͶ�߱��оٱ��һ��ʵ��ɾ��Ȩ��ݡ�

��飺

2000Ԫ��ƴ��ȯ��ȡ��2��4G�Ʒ��664Ԫ/3�꣬��û��Żݣ��>>>

��Ʋɹ��223Ԫ/3�꣩���ڣ��>>>��

��ѧ��9.5Ԫ/�£��ڣ��>>>��

�㷨˵��

��Իع��ó�Ϊ��Իع鷽�̵ĺ��һ��Ա��֮��ϵ��н�ģ��һ�ֻع��ֻ��һ��Ա��Ϊ�򵥻ع飬��һ��Ա��Ľ��Ԫ�ع飬��ʵ��д��Ƕ�Ԫ�ع顣

��Իع飨Linear Regression��ڼලѧϰ��Supervised Learning��룬�ֳƷ��ࣨClassification��ѧϰ��Inductive Learning��ѵ��ݼ��и��ȷ��ġ��ѧϰ��Ŀ��ǣ��ڸ��һ��ѵ��ݼ��ͨ��ϵķ��ѧϰ��һ��ϵ��Լ��Ϻ��꼯�ϵķ��ຯ��Classification Function��Ԥ�⺯��Prediction Function��Ϊ��ģ�ͣ�Classification Model��Ԥ��ģ�ͣ�Prediction Model��ͨ��ѧϰ�õ��ģ�Ϳ��һ��񼯡��Ҷ˹ģ�ͻ�һ��ƽ�档ͨ��ģ�Ϳ��Զ��Ԥ��Զ��з��ࡣ

��ع��ͨ��ʹ��С��ˣ�Least Squares��ŵ��ÿ��Եı��أ�ͨ��ʧ��Loss Function��Error Function)��״̬��Ϊ�ݶ��½��㷨�ıƽ��ӡ�

ʵ��

��Ӹ��ε��ѵ��ݣ��Ϊ��ǩ��RDD��Ȼ��ʹ��LinearRegressionWithSGD �㷨��һ��򵥵��ģ��Ԥ��ǩ��ֵ��˾��Ԥ��ֵ��ʵ��ֵ��Ǻ϶ȡ�

��Իع��̿��Լ��Ϊ��裺

��1��Ѱ�Һ��ʵ�Ԥ�⺯��е� h(x) ��Ԥ��ݵ��жϽ��Ƿǳ��ؼ��ģ��Ҫ��һ��˽��֪��߲²�Ԥ�⺯��ġ��š��ʽ��Ժ��Ƿ��Ժ��Ƿ��Ե��޷��Իع��ó��Ľ��

��2��һ��Loss��ʧ��ú��ʾԤ��h��ѵ��ݱ�ǩ֮��ƫ���Ƕ��֮��Ĳh-y��ʽ��ƽ����ۺϿ��ѵ��ݵġ��ʧ��Loss��ͻ��ƽ��Ϊ J(��) ��ʾ��ѵ��Ԥ��ֵ��ʵ��ƫ�

��3��Ȼ�� J(��) ��ֵԽС��ʾԤ�⺯��Խ׼ȷ��h��Խ׼ȷ��һ��Ҫ��ҵ� J(��) ��Сֵ��Һ��Сֵ�в�ͬ�ķ��Spark�в��õ��ݶ��½��stochastic gradient descent��SGD)��

��

import org.apache.log4j.{Level, Logger}
import org.apache.spark.{SparkContext, SparkConf}
import org.apache.spark.mllib.regression.LinearRegressionWithSGD
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.linalg.Vectors

 

object LinearRegression {
  def main(args:Array[String]): Unit ={
    // ���β���Ҫ����־��ʾ�ն���
    Logger.getLogger("org.apache.spark").setLevel(Level.ERROR)
    Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.OFF)

 

    // �������л���
    val conf = new SparkConf().setAppName("Kmeans").setMaster("local[4]")
    val sc = new SparkContext(conf)

 

    // Load and parse the data
    val data = sc.textFile("/home/hadoop/upload/class8/lpsa.data")
    val parsedData = data.map { line =>
      val parts = line.split(',')
      LabeledPoint(parts(0).toDouble, Vectors.dense(parts(1).split(' ').map(_.toDouble)))

    }

 

    // Building the model
    val numIterations = 100
    val model = LinearRegressionWithSGD.train(parsedData, numIterations)

 

    // Evaluate model on training examples and compute training error
    val valuesAndPreds = parsedData.map { point =>
      val prediction = model.predict(point.features)
      (point.label, prediction)
    }

 

    val MSE = valuesAndPreds.map{ case(v, p) => math.pow((v - p), 2)}.reduce (_ + _) / valuesAndPreds.count
    println("training Mean Squared Error = " + MSE)

 

    sc.stop()

  }

}

ִ��

����һ�� Spark��Ⱥ

$cd /app/hadoop/spark-1.1.0

$sbin/start-all.sh

���ڶ�� IDEA��л��

��IDEA��LinearRegression��ã��ڶ��Ѿ��ڳ��ָ��ڸ��ý��в��Ҫ��

��

���� ִ�в��۲��

��ת�Դ��ɹ��ĿӲ��԰��ͣ�ԭ��ӣ�http://www.cnblogs.com/zlslch/p/6786114.html��ת��ϵԭ��

Spark MLlib�ع��㷨LinearRegression

�㷨˵��

ʵ��

��

ִ��

��

��

��ؿγ�

��ص��

��ʵ�鳡��

Spark MLlib�ع��㷨LinearRegression

�㷨˵��

ʵ������

�������

ִ�����

��������

��������

��ؿγ�

��ص�����

���ʵ�鳡��

ʵ��

��

ִ��

��

��

��ص��

��ʵ�鳡��