Apache Doris-ԭ��ʵ��-2

2021-09-01 601

��Ȩ

��Ȩ��

��ɰ��ʵ��ע��û��Է��ף��Ȩ��ԭ��У��ƿ��ӵ��Ȩ��಻�е��Ӧ��Ρ��鿴�� ƿ��û��Э�� ƿ��֪ʶ��Ȩ��ָ��ֱ��ӳ�Ϯ��ݣ��д ��ȨͶ�߱��оٱ��һ��ʵ��ɾ��Ȩ��ݡ�

��飺 ��ݱ�sql�﷨��kafka��Դ��

��ݱ��Ĵ��鿴

2.1 ��ݿ�

CREATE DATABASE example_db;

2.2 ��ͨ�� SHOW DATABASES; �鿴��ݿ��Ϣ��

information_schema��Ϊ�˼��MySQLЭ��ڡ�

2.3 ��ʹ�� CREATE TABLE ����һ��(Table)

��л��ݿ�

USE example_db;

Doris֧�ֵ��͸��Ϸ��ֽ��ʽ��

�ڸ��Ϸ��У�

��һ��Ϊ Partition��û��ָ��ĳһά��Ϊ��У��ǰֻ֧��ͺ�ʱ��͵��У��ָ��ÿ��ȡֵ��Χ��

�ڶ��Ϊ Distribution��Ͱ��û��ָ��һ��ά��Լ�Ͱ��ݽ�� HASH �ֲ��

��³��Ƽ�ʹ�ø��Ϸ��

��ʷ��ɾ��ɾ��ʷ��ݵ��󣨱��N ��ݣ��ʹ�ø��Ϸ��ͨ��ɾ��ʷ��ﵽĿ�ġ�Ҳ��ͨ��ָ��ڷ�� DELETE ��ɾ��

��

CREATE TABLE table1
(
    siteid INT DEFAULT '10',
    citycode SMALLINT,
    username VARCHAR(32) DEFAULT '',
    pv BIGINT SUM DEFAULT '0'
)
AGGREGATE KEY(siteid, citycode, username)
DISTRIBUTED BY HASH(siteid) BUCKETS 10
PROPERTIES("replication_num" = "1");

�� schema ��£�

siteid��INT��4�ֽڣ�, Ĭ��ֵΪ10

citycode��SMALLINT��2�ֽڣ�

username��VARCHAR, ��󳤶�Ϊ32, Ĭ��ֵΪ��ַ��

pv��BIGINT��8�ֽڣ�, Ĭ��ֵ��0; ��һ��ָ��, Doris�ڲ��ָ��ۺϲ��, ��еľۺϷ��ͣ�SUM��

��Ϸ��

CREATE TABLE table2
(
    event_day DATE,
    siteid INT DEFAULT '10',
    citycode SMALLINT,
    username VARCHAR(32) DEFAULT '',
    pv BIGINT SUM DEFAULT '0'
)
AGGREGATE KEY(event_day, siteid, citycode, username)
PARTITION BY RANGE(event_day)
(
    PARTITION p201706 VALUES LESS THAN ('2017-07-01'),
    PARTITION p201707 VALUES LESS THAN ('2017-08-01'),
    PARTITION p201708 VALUES LESS THAN ('2017-09-01')
)
DISTRIBUTED BY HASH(siteid) BUCKETS 10
PROPERTIES("replication_num" = "1");

event_day��DATE��Ĭ��ֵ

siteid��INT��4�ֽڣ�, Ĭ��ֵΪ10

citycode��SMALLINT��2�ֽڣ�

username��VARCHAR, ��󳤶�Ϊ32, Ĭ��ֵΪ��ַ��

pv��BIGINT��8�ֽڣ�, Ĭ��ֵ��0; ��һ��ָ��, Doris �ڲ��ָ��ۺϲ��, ��еľۺϷ��ͣ�SUM��

��ʹ�� event_day ��Ϊ��У��3��: p201706, p201707, p201708

p201706��ΧΪ [��Сֵ, 2017-07-01)

p201707��ΧΪ [2017-07-01, 2017-08-01)

p201708��ΧΪ [2017-08-01, 2017-09-01)

ÿ��ʹ�� siteid ��й�ϣ��Ͱ��ͨ��hash��ȷ�ɢ�� ͬ�ֱ�

2.4 ��ݵĲ�ѯ

table1����
insert into table1  values(1,1,'jim',2),(2,1,'grace',2),(3,2,'tom',2),(4,3,'bush',3),(5,3,'helen',3);

table2����
insert into table2  values('2017-07-03',1,1,'jim',2),('2017-06-05',2,1,'grace',2),('2017-07-12',3,2,'tom',2),('2017-07-15',4,3,'bush',3),('2017-08-12',5,3,'helen',3);

�򵥲�ѯ

SELECT * FROM table1 LIMIT 3;
SELECT * FROM table1 ORDER BY citycode;

Join ��ѯ

SELECT SUM(table1.pv) FROM table1 JOIN table2 WHERE table1.siteid = table2.siteid;

�Ӳ�ѯ

SELECT SUM(pv) FROM table2 WHERE siteid IN (SELECT siteid FROM table1 WHERE siteid > 2);

3 ��Դ��

doris��kafka

��Դ��ȡ��ݣ��ݵ��뵽 Doris �С�Ŀǰ��֧��ͨ��֤�� SSL ��֤��ʽ�� Kakfa ��ݡ�

�﷨��

CREATE ROUTINE LOAD [db.]job_name ON tbl_name
    [load_properties]
    [job_properties]
    FROM data_source
    [data_source_properties]

1. [db.]job_name

��ҵ��ƣ��ͬһ�� database �ڣ��ͬ��ֻ��һ�� job ��С�

2.tbl_name

ָ��Ҫ��ı��ơ�

3.load_properties

��ݡ��﷨��

[column_separator],
[columns_mapping],
[where_predicates],
[partitions]

3.1 column_separator:

ָ��зָ��磺

COLUMNS TERMINATED BY ","

Ĭ��Ϊ��\t

3.2 columns_mapping:

ָ��Դ��е�ӳ��ϵ��Լ��е��ɷ�ʽ��

3.2.1ӳ��У�

��˳��ָ��Դ��и��У��ӦĿ�ı��е��Щ�С��ϣ��У��ָ��һ��ڵ��

��Ŀ�ı�� k1, k2, v1��Դ��4�У��е�1��2��4�зֱ��Ӧ k2, k1, v1��д��£�

COLUMNS (k2, k1, xxx, v1)

�� xxx Ϊ��ڵ�һ�У��Դ��еĵ��С�

3.2.2 ��У�

�� col_name = expr ��ʽ��ʾ��У��ǳ�Ϊ��С��֧��ͨ�� expr ��ó�Ŀ�ı��ж�Ӧ�е�ֵ��

��ͨ��ӳ��֮��Ȼ�ⲻ��ǿ�ƵĹ涨�� Doris ��Ƚ��ӳ��У��ٽ��С�

��һ��ʾ��Ŀ�ı��е�4�� v2��v2 �� k1 �� k2 �ĺͲ��д��£�

COLUMNS (k2, k1, xxx, v1, v2 = k1 + k2);

3.2.3 where_predicates

��ָ��Թ��˵��Ҫ��С��п��ӳ��л��С� ��ֻϣ�� k1 �� 100 �� k2 �� 1000 ��У��д��£�

WHERE k1 > 100 and k2 = 1000

3.2.4. partitions

ָ��Ŀ�ı��Щ partition �С��ָ��Զ��뵽��Ӧ�� partition �С�

ʾ��

PARTITION(p1, p2, p3)

4 job_properties

��ָ��е��ҵ��ͨ�ò��

�﷨��

PROPERTIES (
            "key1" = "val1",
            "key2" = "val2"
        )

Ŀǰ��֧��²��

4.1 desired_concurrent_number

��Ĳ��ȡ�һ��е��ҵ�ᱻ�ֳɶ��ִ�С��ָ��һ��ҵ��ж��ͬʱִ�С��0��Ĭ��Ϊ3��

��Ȳ��ʵ�ʵĲ��ȣ�ʵ�ʵĲ��ȣ��ͨ��Ⱥ�Ľڵ��Լ��Դ��ۺϿ��ǡ�

��

"desired_concurrent_number" = "3"

4.2 max_batch_interval/max_batch_rows/max_batch_size

��ֱ��ʾ��

1��ÿ��ִ��ʱ�䣬��λ��롣��ΧΪ 5 �� 60��Ĭ��Ϊ10��

2��ÿ��ȡ��ڵ��200000��Ĭ��200000��

3��ÿ��ȡ��ֽ��λ��ֽڣ��Χ�� 100MB �� 1GB��Ĭ�� 100MB��

��ڿ��һ��ִ��ʱ��ʹ��һ��ﵽ��ֵ��

��

"max_batch_interval" = "20",
              "max_batch_rows" = "300000",
              "max_batch_size" = "209715200"

4.3 max_error_number

��ڣ��ڵ��0��Ĭ�� 0��д��С�

��Ϊ max_batch_rows * 10��ڲ��ڣ�� max_error_number��ᵼ��ҵ��ͣ��Ҫ�˹��⡣ �� where ��˵��в��С�

4. 4 strict_mode

�Ƿ��ϸ�ģʽ��Ĭ��Ϊ��󣬷ǿ�ԭʼ��ݵ��ͱ任��Ϊ NULL��ᱻ��ˡ�ָ��ʽΪ "strict_mode" = "true"

5. data_source

��Դ��͡��ǰ֧�֣�

KAFKA

6. data_source_properties

ָ��Դ��ص��Ϣ��

�﷨��

(
            "key1" = "val1",
            "key2" = "val2"
        )

KAFKA ��Դ

6.1kafka_broker_list

Kafka �� broker ��Ϣ��ʽΪ ip:host��broker֮��Զ��ŷָ��

ʾ��

"kafka_broker_list" = "broker1:9092,broker2:9092"

6.2. kafka_topic

ָ��Ҫ��ĵ� Kafka �� topic��

ʾ��

"kafka_topic" = "my_topic"

6.3. kafka_partitions/kafka_offsets

ָ��Ҫ��ĵ� kafka partition��Լ��Ӧ��ÿ�� partition ��ʼ offset��

offset ��ָ��Ӵ��ڵ�� 0 �ľ�� offset��ߣ�

1) OFFSET_BEGINNING: ��ݵ�λ�ÿ�ʼ��ġ�

2) OFFSET_END: ��ĩβ��ʼ��ġ�

��û��ָ��Ĭ�ϴ� OFFSET_END ��ʼ�� topic �µ�� partition��

ʾ��

"kafka_partitions" = "0,1,2,3",
                    "kafka_offsets" = "101,0,OFFSET_BEGINNING,OFFSET_END"

ʵ��1:

Ϊ example_db �� example_tbl ��һ��Ϊ test1 �� Kafka ��е��񡣲��Զ�Ĭ��з��Ҵ�ĩβ��OFFSET_END��ʼ��

CREATE ROUTINE LOAD example_db.test1 ON example_tbl
        COLUMNS(k1, k2, k3, v1, v2, v3 = k1 * 100)
        PROPERTIES
        (
            "desired_concurrent_number"="3",
            "max_batch_interval" = "20",
            "max_batch_rows" = "300000",
            "max_batch_size" = "209715200",
            "strict_mode" = "false",
            "format" = "json"  //���ܵ�����Ϊjson��ʽ
        )
        FROM KAFKA
        (
            "kafka_broker_list" = "broker1:9092,broker2:9092",
            "kafka_topic" = "my_topic"
        );

ʵ��2��

��¯��

CREATE ROUTINE LOAD test.job3 ON ba_gua_lu_1003_log COLUMNS
( id, reserve1, reserve2, reserve3, reserve4, reserve5, user_id, channel, registerTime, holdCard, isForge, leftTime, create_time )
PROPERTIES
(
                "desired_concurrent_number" = "3",
                "max_batch_interval" = "20",
                "max_batch_rows" = "300000",
                "max_batch_size" = "209715200",
                "strict_mode" = "false",
                "format" = "json"
)
FROM
KAFKA (
        "kafka_broker_list" = "192.168.1.27:9092",
        "kafka_topic" = "kafka-pull",
        "property.kafka_default_offsets" = "OFFSET_BEGINNING"
);

�鿴��״̬

SHOW ROUTINE LOAD;

Apache Doris-ԭ��ʵ��-2

���ݱ��Ĵ�����鿴

2.1 �������ݿ�

2.2 ����ͨ�� SHOW DATABASES; �鿴���ݿ���Ϣ��

2.3 ����ʹ�� CREATE TABLE �����һ����(Table)

Doris֧�ֵ������͸��Ϸ������ֽ�����ʽ��

�ڸ��Ϸ����У�

��һ����Ϊ Partition�����������û�����ָ��ĳһά������Ϊ�����У���ǰֻ֧�����ͺ�ʱ�����͵��У�����ָ��ÿ��������ȡֵ��Χ��

�ڶ�����Ϊ Distribution������Ͱ���û�����ָ��һ������ά�����Լ�Ͱ�������ݽ��� HASH �ֲ���

���³����Ƽ�ʹ�ø��Ϸ���

����������

������� schema ���£�

siteid��������INT��4�ֽڣ�, Ĭ��ֵΪ10

citycode��������SMALLINT��2�ֽڣ�

username��������VARCHAR, ��󳤶�Ϊ32, Ĭ��ֵΪ���ַ���

pv��������BIGINT��8�ֽڣ�, Ĭ��ֵ��0; ����һ��ָ����, Doris�ڲ����ָ�������ۺϲ���, ����еľۺϷ�������ͣ�SUM��

���Ϸ�������

event_day��������DATE����Ĭ��ֵ

siteid��������INT��4�ֽڣ�, Ĭ��ֵΪ10

citycode��������SMALLINT��2�ֽڣ�

username��������VARCHAR, ��󳤶�Ϊ32, Ĭ��ֵΪ���ַ���

pv��������BIGINT��8�ֽڣ�, Ĭ��ֵ��0; ����һ��ָ����, Doris �ڲ����ָ�������ۺϲ���, ����еľۺϷ�������ͣ�SUM��

����ʹ�� event_day ����Ϊ�����У�����3������: p201706, p201707, p201708

p201706����ΧΪ [��Сֵ, 2017-07-01)

p201707����ΧΪ [2017-07-01, 2017-08-01)

p201708����ΧΪ [2017-08-01, 2017-09-01)

ÿ������ʹ�� siteid ���й�ϣ��Ͱ��ͨ��hash���ȷ�ɢ�� ��ͬ�ֱ�

2.4 ���ݵĲ�ѯ

�򵥲�ѯ

Join ��ѯ

�Ӳ�ѯ

3 ����Դ��������

doris����kafka

����Դ��ȡ���ݣ������ݵ��뵽 Doris �С�Ŀǰ��֧��ͨ������֤���� SSL ��֤��ʽ���� Kakfa ��������ݡ�

�﷨��

1. [db.]job_name

������ҵ�����ƣ���ͬһ�� database �ڣ���ͬ����ֻ����һ�� job �����С�

2.tbl_name

ָ����Ҫ����ı������ơ�

3.load_properties

���������������ݡ��﷨��

3.1 column_separator:

ָ���зָ������磺

COLUMNS TERMINATED BY ","

Ĭ��Ϊ��\t

3.2 columns_mapping:

ָ��Դ�������е�ӳ���ϵ���Լ����������е����ɷ�ʽ��

3.2.1ӳ���У�

��˳��ָ����Դ�����и����У���ӦĿ�ı��е���Щ�С�����ϣ���������У�����ָ��һ�������ڵ�������

����Ŀ�ı������� k1, k2, v1��Դ������4�У����е�1��2��4�зֱ��Ӧ k2, k1, v1������д���£�

���� xxx Ϊ�����ڵ�һ�У���������Դ�����еĵ����С�

3.2.2 �����У�

�� col_name = expr ����ʽ��ʾ���У����ǳ�Ϊ�����С���֧��ͨ�� expr ����ó�Ŀ�ı��ж�Ӧ�е�ֵ��

������ͨ��������ӳ����֮����Ȼ�ⲻ��ǿ�ƵĹ涨������ Doris �����Ƚ���ӳ���У��ٽ��������С�

����һ��ʾ��������Ŀ�ı����е�4�� v2��v2 �� k1 �� k2 �ĺͲ������������д���£�

3.2.3 where_predicates

3.2.4. partitions

ָ������Ŀ�ı�����Щ partition �С������ָ��������Զ����뵽��Ӧ�� partition �С�

ʾ����

4 job_properties

����ָ�����е�����ҵ��ͨ�ò�����

�﷨��

Ŀǰ����֧�����²�����

4.1 desired_concurrent_number

�����Ĳ����ȡ�һ�����е�����ҵ�ᱻ�ֳɶ��������ִ�С��������ָ��һ����ҵ����ж����������ͬʱִ�С��������0��Ĭ��Ϊ3��

��������Ȳ�����ʵ�ʵĲ����ȣ�ʵ�ʵĲ����ȣ���ͨ����Ⱥ�Ľڵ���������������Լ�����Դ������ۺϿ��ǡ�

����

4.2 max_batch_interval/max_batch_rows/max_batch_size

�����������ֱ��ʾ��

1��ÿ�����������ִ��ʱ�䣬��λ���롣��ΧΪ 5 �� 60��Ĭ��Ϊ10��

2��ÿ������������ȡ��������������ڵ���200000��Ĭ����200000��

3��ÿ������������ȡ���ֽ�������λ���ֽڣ���Χ�� 100MB �� 1GB��Ĭ���� 100MB��

���������������ڿ���һ���������ִ��ʱ��ʹ�������������һ���ﵽ��ֵ�������������

����

4.3 max_error_number

���������ڣ�������������������������ڵ���0��Ĭ���� 0�����������д����С�

4. 4 strict_mode

�Ƿ����ϸ�ģʽ��Ĭ��Ϊ��������������󣬷ǿ�ԭʼ���ݵ������ͱ任������Ϊ NULL����ᱻ���ˡ�ָ����ʽΪ "strict_mode" = "true"

5. data_source

����Դ�����͡���ǰ֧�֣�

��ݱ��Ĵ��鿴

2.1 ��ݿ�

2.2 ��ͨ�� SHOW DATABASES; �鿴��ݿ��Ϣ��

2.3 ��ʹ�� CREATE TABLE ����һ��(Table)

Doris֧�ֵ��͸��Ϸ��ֽ��ʽ��

�ڸ��Ϸ��У�

��һ��Ϊ Partition��û��ָ��ĳһά��Ϊ��У��ǰֻ֧��ͺ�ʱ��͵��У��ָ��ÿ��ȡֵ��Χ��

�ڶ��Ϊ Distribution��Ͱ��û��ָ��һ��ά��Լ�Ͱ��ݽ�� HASH �ֲ��

��³��Ƽ�ʹ�ø��Ϸ��

��

�� schema ��£�

siteid��INT��4�ֽڣ�, Ĭ��ֵΪ10

citycode��SMALLINT��2�ֽڣ�

username��VARCHAR, ��󳤶�Ϊ32, Ĭ��ֵΪ��ַ��

pv��BIGINT��8�ֽڣ�, Ĭ��ֵ��0; ��һ��ָ��, Doris�ڲ��ָ��ۺϲ��, ��еľۺϷ��ͣ�SUM��

��Ϸ��

event_day��DATE��Ĭ��ֵ

siteid��INT��4�ֽڣ�, Ĭ��ֵΪ10

citycode��SMALLINT��2�ֽڣ�

username��VARCHAR, ��󳤶�Ϊ32, Ĭ��ֵΪ��ַ��

pv��BIGINT��8�ֽڣ�, Ĭ��ֵ��0; ��һ��ָ��, Doris �ڲ��ָ��ۺϲ��, ��еľۺϷ��ͣ�SUM��

��ʹ�� event_day ��Ϊ��У��3��: p201706, p201707, p201708

p201706��ΧΪ [��Сֵ, 2017-07-01)

p201707��ΧΪ [2017-07-01, 2017-08-01)

p201708��ΧΪ [2017-08-01, 2017-09-01)

ÿ��ʹ�� siteid ��й�ϣ��Ͱ��ͨ��hash��ȷ�ɢ�� ͬ�ֱ�

2.4 ��ݵĲ�ѯ

3 ��Դ��

doris��kafka

��Դ��ȡ��ݣ��ݵ��뵽 Doris �С�Ŀǰ��֧��ͨ��֤�� SSL ��֤��ʽ�� Kakfa ��ݡ�

��ҵ��ƣ��ͬһ�� database �ڣ��ͬ��ֻ��һ�� job ��С�

ָ��Ҫ��ı��ơ�

��ݡ��﷨��

ָ��зָ��磺

ָ��Դ��е�ӳ��ϵ��Լ��е��ɷ�ʽ��

3.2.1ӳ��У�

��˳��ָ��Դ��и��У��ӦĿ�ı��е��Щ�С��ϣ��У��ָ��һ��ڵ��

��Ŀ�ı�� k1, k2, v1��Դ��4�У��е�1��2��4�зֱ��Ӧ k2, k1, v1��д��£�

�� xxx Ϊ��ڵ�һ�У��Դ��еĵ��С�

3.2.2 ��У�

�� col_name = expr ��ʽ��ʾ��У��ǳ�Ϊ��С��֧��ͨ�� expr ��ó�Ŀ�ı��ж�Ӧ�е�ֵ��

��ͨ��ӳ��֮��Ȼ�ⲻ��ǿ�ƵĹ涨�� Doris ��Ƚ��ӳ��У��ٽ��С�

��һ��ʾ��Ŀ�ı��е�4�� v2��v2 �� k1 �� k2 �ĺͲ��д��£�

ָ��Ŀ�ı��Щ partition �С��ָ��Զ��뵽��Ӧ�� partition �С�

ʾ��

��ָ��е��ҵ��ͨ�ò��

Ŀǰ��֧��²��

��Ĳ��ȡ�һ��е��ҵ�ᱻ�ֳɶ��ִ�С��ָ��һ��ҵ��ж��ͬʱִ�С��0��Ĭ��Ϊ3��

��Ȳ��ʵ�ʵĲ��ȣ�ʵ�ʵĲ��ȣ��ͨ��Ⱥ�Ľڵ��Լ��Դ��ۺϿ��ǡ�

��

��ֱ��ʾ��

1��ÿ��ִ��ʱ�䣬��λ��롣��ΧΪ 5 �� 60��Ĭ��Ϊ10��

2��ÿ��ȡ��ڵ��200000��Ĭ��200000��

3��ÿ��ȡ��ֽ��λ��ֽڣ��Χ�� 100MB �� 1GB��Ĭ�� 100MB��

��ڿ��һ��ִ��ʱ��ʹ��һ��ﵽ��ֵ��

��

��ڣ��ڵ��0��Ĭ�� 0��д��С�

�Ƿ��ϸ�ģʽ��Ĭ��Ϊ��󣬷ǿ�ԭʼ��ݵ��ͱ任��Ϊ NULL��ᱻ��ˡ�ָ��ʽΪ "strict_mode" = "true"

��Դ��͡��ǰ֧�֣�

ָ��Դ��ص��Ϣ��

KAFKA ��Դ

Kafka �� broker ��Ϣ��ʽΪ ip:host��broker֮��Զ��ŷָ��

ʾ��

ָ��Ҫ��ĵ� Kafka �� topic��

ʾ��

ָ��Ҫ��ĵ� kafka partition��Լ��Ӧ��ÿ�� partition ��ʼ offset��

offset ��ָ��Ӵ��ڵ�� 0 �ľ�� offset��ߣ�

1) OFFSET_BEGINNING: ��ݵ�λ�ÿ�ʼ��ġ�

2) OFFSET_END: ��ĩβ��ʼ��ġ�

��û��ָ��Ĭ�ϴ� OFFSET_END ��ʼ�� topic �µ�� partition��

Ϊ example_db �� example_tbl ��һ��Ϊ test1 �� Kafka ��е��񡣲��Զ�Ĭ��з��Ҵ�ĩβ��OFFSET_END��ʼ��

�鿴��״̬

DORIS��ʹ�ø��

�Ӹ��˵�ʹ��У��Ҿ��DORIS�Ƚ��ʺ�ʵʱ/��ߵ�ҵ��ݵļ��㡣

Doris��ϲ��࣬ʹ��ѧϰ��ά�ɱ��ߡ��մ󡣳��⣬�Ƚ��ά��Ҫ��ϤԴ�룬��ȥ�� bug ��

��

��

��ص��

��ʵ�鳡��

�Ƽ��