Spark内存迭代计算

news/2025/2/27 8:19:38

一、宽窄依赖

窄依赖：父RDD的一个分区数据全部发往子RDD的一个分区

宽依赖：父RDD的一个分区数据发往子RDD的多个分区，也称为shuffle

二、Spark是如何进行内存计算的？DAG的作用？Stage阶段划分的作用？

（1）Spark生成DAG图

（2）基于宽窄依赖对DAG图进行阶段划分

（3）每个stage内部都是窄依赖，窄依赖内，前后形成1：1的分区关系，一个stage的多个并行任务就成为了多个内存迭代计算管道

（4）这些内存迭代计算的管道，就是一个个具体的执行Task

（5）一个Task是一个具体的线程，任务跑在一个线程之中，就是走内存计算了。

http://www.niftyadmin.cn/n/5869790.html

WSL2下，向github进行push时出现timeout的问题

昨晚在完成15445 Project2.2后，笔者兴致冲冲地准备把代码提交到github上，谁知一连提交几次都出现 ssh:connect to host github.com port 22: Connection timed out 这个问题。我开始还以为是网络波动，测试了多次之后才发现应该是22端口出问题…

Linux:(3)

一：Linux和Linux互传（压缩包） scp:Linux scp 命令用于 Linux 之间复制文件和目录。 scp 是 secure copy 的缩写, scp 是 linux 系统下基于 ssh 登陆进行安全的远程文件拷贝命令。 scp 是加密的，rcp 是不加密的，scp 是…

【图形学入门笔记】线性代数的本质

【笔记未完待续】如果我的分享对你有帮助，请记得点赞关注不迷路。视频源地址：https://www.youtube.com/watch?vfNk_zzaMoSs 作者：3Blue1Brown 此处仅做个人笔记使用。 01 - 向量究竟是什么？ 线性代数中最基础、最根源的…

Tomcat 目录结构和应用实现

Tomcat 是一款开源的、轻量级的 Web 服务器，它不仅能够提供 HTTP 服务，还能够运行 Java Servlet 和 JavaServer Pages（JSP）。对于许多开发者来说，理解 Tomcat 的目录结构以及如何在该结构中组织应用，往往是…

解决Deepseek“服务器繁忙，请稍后再试”问题，基于硅基流动和chatbox的解决方案

文章目录前言操作步骤步骤1：注册账号步骤2：在线体验步骤3：获取API密钥步骤4：安装chatbox步骤5：chatbox设置价格方面前言最近在使用DeepSeek时，开启深度思考功能后，频繁遇到“服务器繁忙&am…

C++ Primer Plus第八章课后习题总结

1. 编写通常接受一个参数（字符串的地址），并打印该字符串的函数。然而，如果提供了第二个参数（int类型），且该参数不为0，则该函数打印字符串的次数将为该函数被调用的次数（注…

JVM垃圾回收器深度底层原理分析与知识体系构建

一、垃圾回收的基本步骤标记（Marking） 从GC Roots（如虚拟机栈、方法区静态变量、本地方法栈等）出发，遍历对象引用链，标记所有可达对象为存活对象，未被标记的则视为垃圾。此阶段需暂停用户线程&…

224Gb/s信号完整性测试治具设计（二）

第一篇看这里： 224Gb/s信号完整性测试治具设计（一）-CSDN博客聚焦解决方案空间始终满足 1.6T 测试夹具的目标插入损耗要求 IEEE P802.3dj 中当前的插入损耗规范要求，在 53.125 GHz 频率下，主机合规板&#xff08…