Flink CDC产品常见问题之mysql整库同步到starrock时任务挂掉如何解决-阿里云开发者社区

Flink CDC产品常见问题之mysql整库同步到starrock时任务挂掉如何解决

2024-03-17 57

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

检索分析服务 Elasticsearch 版，2核4GB开发者规格 1个月

大数据开发治理平台 DataWorks，不限时长

简介： Flink CDC产品常见问题之mysql整库同步到starrock时任务挂掉如何解决

2000元阿里云代金券免费领取，2核4G云服务器仅664元/3年，新老用户都有优惠，立即抢购>>>

阿里云采购季（云主机223元/3年）活动入口：请点击进入>>>，

阿里云学生服务器（9.5元/月）购买入口：请点击进入>>>，

问题一：flink cdc 这个错是什么问题导致的呢？
flink cdc insert-only records but DataStream API record contains: UPDATE_BEFORE 这个错是什么问题导致的呢？
参考回答：
在 Apache Flink CDC 的应用场景中，如果配置为仅处理 INSERT 操作（insert-only mode），但在 DataStream API 中仍收到了 UPDATE_BEFORE 类型的记录，这可能由以下几个原因造成：

配置问题：
? 确保在设置 Flink CDC 连接器时指定了正确的同步模式，例如在使用 MySQL CDC 连接器时，应将 sync-mode 参数设置为 SYNC_MODE_INSERT_ONLY。这样，连接器只会生成 INSERT 类型的事件，而忽略 UPDATE 和 DELETE 操作。
源表变更：
? 检查是否有变更发生在 Flink CDC 作业运行期间，比如表结构或 CDC 配置的变更，导致原本应该是 INSERT_ONLY 的表出现了 UPDATE_BEFORE 记录。
旧数据重复处理：
? 如果作业曾经使用过全量同步模式，后来改为 INSERT_ONLY 模式，但历史数据中的 UPDATE_BEFORE 记录仍然存在于 Kafka 等中间存储中，Flink 作业重新消费时可能会再次处理这些记录。
连接器内部逻辑错误：
? 极少数情况下，可能是连接器自身逻辑的 bug 导致，即使在 INSERT_ONLY 模式下也会错误地生成了 UPDATE_BEFORE 记录。这种情况下，建议检查连接器版本并查看官方文档或 issue tracker，如有必要升级到最新稳定版本或联系社区寻求帮助。
其他组件配置影响：
? 如果使用了其他中间组件（如 Debezium 等），也需要检查这些组件的配置是否与 Flink CDC 的 INSERT_ONLY 模式相匹配。
关于本问题的更多回答可点击原文查看：/ask/592267
问题二：我使用Flink CDC 3.0对mysql整库同步到starrock中，任务挂掉是为啥？
我使用Flink CDC 3.0对mysql整库同步到starrock中，现在任务已经创建好了，mysql的表和数据都同步到starrock中了，现在发现的问题是，我在源表加了新字段，接着flink的任务就挂掉了是为什么？
参考回答：
将时间调长一点。你这个问题我也遇到了我给你解释下 FlinkCDC捕捉到了一个Schema变更的日志，然后交给StartRocks的sink去执行，StarRocks的sink执行完Schema变更后，需要向jobmaster那边去汇报这个operatorEvent，然后这个汇报超时了：
超时的原因可能是StarRocks更新schema花费的时间太长了，jobmanger等的时间是默认的时间pekko.ask.timeout=10s，但是StarRocks还没更新列成功，这时JobManager就会抛出异常通信超时。
你尝试修改pekko.ask.timeout这个参数为120s，不过当JobManager等待StarRocks的sink汇报operatorEvent的过程中JobManager的resutapi是无法访问的，这个会引起Flink任务状态不准确的问题。
关于本问题的更多回答可点击原文查看：/ask/592268
问题三：Flink CDC 3.0对PostgreSQL的同步问题是否有专门的debezium 代码分支？
Flink CDC 3.0对PostgreSQL的同步问题，另外，我发现Flink CDC 3.0里面使用的debezium 1.9.7.Final，下载它的源码发现它只能支持JDK11以上版本，但是Flink CDC 3.0支持的JDK版本可以是1.8，请问是否有专门的debezium 代码分支？
参考回答：
用1.8也可以。
关于本问题的更多回答可点击原文查看：/ask/592270
问题四：Flink CDC里mysql8 然后不是默认开始了binlog吗？
Flink CDC里我用的mysql8 然后不是默认开始了binlog吗。然后我运行github上面的demo 并且设置了 startupOptions 但是控制台还是没有输出数据这是怎么回事？
参考回答：
是binlog生成日志的问题。
关于本问题的更多回答可点击原文查看：/ask/592271
问题五：Flink CDC里阿里flink云服务，流代码访问有白名单策略的数据库，需要添加白名单吗？
Flink CDC里阿里flink云服务，流代码访问有白名单策略的数据库，需要添加白名单吗？
参考回答：
关于本问题的更多回答可点击原文查看：/ask/592273

Flink CDC产品常见问题之mysql整库同步到starrock时任务挂掉如何解决

大数据与机器学习

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景

推荐镜像