【越南离深圳源码】【liveapp源码】【blkid 源码】八源码-皮皮网

【越南离深圳源码】【liveapp源码】【blkid 源码】八源码

时间:2024-12-26 03:34:27 来源：红米源码

1.[转]Megatron-LM源码系列(八)： Context Parallel并行
2.八数码C++源代码
3.源码详解系列(八)--全面讲解HikariCP的源码使用和源码

八源码

[转]Megatron-LM源码系列(八)： Context Parallel并行

原文链接： Megatron-LM源码系列(八)： Context Parallel并行

Context Parallel并行(CP)与sequence并行(SP)相比，核心差异在于SP只针对Layernorm和Dropout输出的源码activation在sequence维度进行切分，而CP则进一步扩展，源码对所有input输入和所有输出activation在sequence维度上进行切分，源码形成更高效的源码并行处理策略。除了Attention模块外，源码越南离深圳源码其他如Layernorm、源码Dropout等模块在CP并行中无需任何修改，源码因为它们在处理过程中没有涉及多token间的源码交互。

Attention模块之所以特殊，源码是源码因为在计算过程中，每个token的源码查询(query)需要与同一sequence中其他token的键(key)和值(value)进行交互计算，存在内在依赖性。源码因此，源码在进行CP并行时，源码计算开始前需要通过allgather通信手段获取所有token的KV向量，反向计算时则通过reduce_scatter分发gradient梯度。liveapp源码

为了降低显存使用，前向计算阶段每个GPU仅保存部分KV块，反向阶段则通过allgather通信获取全部KV数据。这些通信操作在特定的rank位置（相同TP组内）进行，底层通过send和recv等操作实现allgather和reduce_scatter。

以TP2-CP2的transformer网络为例，CP并行的通信操作在Attention之前执行，其他则为TP通信。blkid 源码AG表示allgather，RS表示reduce_scatter，AG/RS表示前向allgather反向reduce_scatter，RS/AG表示前向reduce_scatter反向allgather。

TP2对应为[GPU0, GPU1], [GPU2, GPU3]，CP2指的就是TP组相同位置的rank号，即[GPU0, GPU2], [GPU1, GPU3]。CP并行类似于Ring Attention，nzt源码但提供了OSS与FlashAttention版本，并去除了冗余的low-triangle causal masking计算。

LLM常因序列长度过长而导致显存耗尽（OOM）。传统解决方法包括重计算或扩大TP（tensor parallel）大小，但各自存在计算代价增加或线性fc计算时间减少与通信难以掩盖的问题。CP则能更高效地解决这一问题，每个GPU处理一部分序列，同时减少CP倍的filterchain 源码通信和计算量，同时保持TP不变，使得activation量也减少CP倍。性能优化结果展示于图表中，用户可通过指定--context-parallel-size在Megatron中实现CP。

具体源码实现以Megatron-Core 0.5.0版本为例进行说明。

参考资料：

[链接]

八数码C++源代码

#include<cstdio>

#include<vector>

#include<queue>

#include<ctime>

#define maxhash

#define hash(x) x%maxhash

using namespace std;

typedef unsigned long long ULL;

vector<ULL>list[maxhash];

vector<int>dist[maxhash];

inline int abs(int x)

{

return x<0?-x:x;

}

int hval[][];

void fill_hval(int *d)

{

for(int i=0;i<=8;i++)//number i

{

int pos;

for(int k=1;k<=9;k++)//i's position

if(d[k]==i)

{

pos=k;

break;

}

for(int j=1;j<=9;j++)

{

hval[i][j]=abs((j-1)/3-(pos-1)/3)+abs((j-1)%3-(pos-1)%3);

}

int h(ULL d)

{

int answer=0;

for(int i=9;i>=1;i--)

{

int x=d%;

d/=;

answer+=hval[x][i];

}

return answer;

}

int ToARR(ULL s,int *d)

{

int z=0;

for(int i=9;i>=1;i--)

{

d[i]=s%;

if(d[i]==0) z=i;

s/=;

}

return z;

}

ULL ToULL(int *d)

{

ULL ans=0;

for(int i=1;i<=9;i++)

ans=ans*+d[i];

return ans;

}

void insert(ULL x,int di)

{

ULL hx=hash(x);

list[hx].push_back(x);

dist[hx].push_back(di);

}

int find(ULL x)

{

ULL hx=hash(x);

int size=list[hx].size();

for(int i=0;i<size;i++)

if(x==list[hx][i]) return dist[hx][i];

return -1;

}

inline void swap(int &x,int &y)

{

int t=x;

x=y;

y=t;

}

struct state{

int step;

ULL x;

friend bool operator <(state a,state b)

{

return a.step>b.step;

}

};

int cnt=0;

void AStar(int *from,int *to)

{

priority_queue<state>q;

ULL x=ToULL(from);

ULL y=ToULL(to);

fill_hval(to);

q.push((state){ h(x),x});

insert(x,0);

int d[];

while(!q.empty())

{

cnt++;

state s=q.top();

ULL i=s.x; q.pop();

int step=find(i);

int z=ToARR(i,d);

//printf("%lld %d %d\n",i,step,z);

if(i==y) return;

if(z-3>0)

{

swap(d[z],d[z-3]);

ULL j=ToULL(d);

swap(d[z],d[z-3]);

if(find(j)!=-1) goto out1;

q.push((state){ step+h(j),j});

insert(j,step+1);

}

out1:

if(z+3<)

{

swap(d[z],d[z+3]);

ULL j=ToULL(d);

swap(d[z],d[z+3]);

if(find(j)!=-1) goto out2;

q.push((state){ step+h(j),j});

insert(j,step+1);

}

out2:

if(z%3!=0)

{

swap(d[z],d[z+1]);

ULL j=ToULL(d);

swap(d[z],d[z+1]);

if(find(j)!=-1) goto out3;

q.push((state){ step+h(j),j});

insert(j,step+1);

}

out3:

if(z%3!=1)

{

swap(d[z],d[z-1]);

ULL j=ToULL(d);

swap(d[z],d[z-1]);

if(find(j)!=-1) continue;

q.push((state){ step+h(j),j});

insert(j,step+1);

}

int from[],to[];

void work()

{

for(int i=1;i<=9;i++)

scanf("%d",&from[i]);

for(int i=1;i<=9;i++)

scanf("%d",&to[i]);

AStar(from,to);

ULL y=ToULL(to);

printf("%d ",find(y));

#ifdef DEBUG

printf("%d ",clock());

printf("%d ",cnt);

#endif

}

int main()

{

#ifdef DEBUG

freopen("debug.in","r",stdin);

freopen("debug.out","w",stdout);

#endif

work();

return 0;

}

这是基于曼哈顿距离的估价函数的Astar

源码详解系列(八)--全面讲解HikariCP的使用和源码

源码详解系列(八)：HikariCP深度剖析

HikariCP是一个高效数据库连接池，它的核心在于通过“池”复用连接，减少创建和关闭连接的开销。本文将全面介绍HikariCP的使用方法和源码细节。

使用场景与内容

本文将涉及HikariCP的以下内容：

如何获取连接对象并进行基本操作

项目环境设置，包括JDK、Maven版本和依赖库

如何配置HikariCP，包括依赖引入和配置文件编写

初始化连接池，以及通过JMX进行管理

源码分析，重点讲解ConcurrentBag和HikariPool类，以及其创新的“标记模型”

HikariDataSource的两个HikariPool的用意和加载配置

核心原理

HikariCP的性能优势主要源于其“标记模型”，通过减少锁的使用，提高并发性能。它使用CopyOnWriteArrayList来保证读操作的效率，结合CAS机制实现无锁的借出和归还操作。

源码亮点

源码简洁且易读，特别是ConcurrentBag类，它是HikariCP的核心组件。类结构与DBCP2类似，包含一个通用的资源池，可以应用于其他需要池化管理的场景。

总结

通过本文，读者可以深入了解HikariCP的工作原理，掌握其配置和使用技巧，以及源码实现。希望本文对数据库连接池有深入理解的开发者有所帮助。

参考资料：

HikariCP官方GitHub地址

想知道更多资讯>>>点击进入“探索”频道

【越南离深圳源码】【liveapp源码】【blkid 源码】八源码

精选图文

热点推荐