yuanyuan
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于

tensorcore学习笔记

写在前面也算是cuda的经典领域之一了,之前一直偷懒,嫌弃全英文文档学习难度太高,但是架不住这部分真的太重要,根本避不开,只能硬着头皮看下去。 先是把《gpgpu编程模型与架构原理》中tensorcore部分大概看了下,写的很好,但是全是干货,读起来太过枯燥+难度过大。不过也算是对tensorcore有一个基本的认识了。我说真的,这玩意比炼丹难度大不知道多少倍… 知乎介绍:我觉得这篇写的非常通俗易
2025-03-03

pagedattention学习笔记

paged_attention算是vllm最核心的部分了,之前有看过,再结合具体代码复习一下,顺便看看llama3,有机会可以把这个引入自己的项目里包装下 参考资料代码:python代码傻子都能看得懂 知乎:写的不赖
2025-02-28

flashattention学习笔记

之前面ailab是把我送走的最后一个问题就是flashattention的原理,现学习一下 资料讲解视频:虽然说播放量只有6000多,但我感觉算是讲的很好了,就是在softmax部分,稍微有一点点没看懂。 参考的代码:一开场一个pybind把我愉悦送走了 原论文:一眼没看 公式推导 写在前面 这份代码的实现,整体上没有什么大问题,但是在block_dim的设计上,即一个线程块中应该有多少个线程部分
2025-02-26

gemm学习笔记

写在前面经过了一个寒假,发现之前自己学习的gemm都快忘的差不多了,好记性还是不如烂笔头嘛,于是开个新专栏,记录下自己的学习 参考:github 初始化使用的环境是之前构建的docker,首先ssh连接上电脑(ssh siyuan@dell),然后在vscode中找到该docker并选择attach to terminal,然后输入 service start ssh,此后便可通过ssh si
2025-02-23

使用nsight-compute分析核函数性能

在使用nvcc编译获得可执行文件后 即可使用nsight-compute完成性能分析 使用nvidia- container构建的镜像已安装好nsight-compute-cli 也可安装图形化界面 使用实例基本使用1$ ncu ./my_cuda_speedup_solutions 512 6 其中my_cuda_speedup_solutions为可执行文件名 512 6 为参数 获取
2025-01-06

使用代理构建nvidia-docker

DockerFile123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081# 使用官方的 nvidia/cuda:11.8.0-devel-ubun
2024-12-04

github工作流

修改 git clone从github上获取项目 git checkout -b feature_branch 创建新分支 修改代码 git add xxx 将需要的文件存入缓存区 git commit -m "xxxx" 提交缓存区文件 git push origin feature_branch 上传至云端 检查 git checkout main 切换分支 git p
2024-08-30

vim快速上手

资料最简单的方法莫过于把官方的指导过一遍,在终端输入vimtutor即可,若添加zh即可看到中文版 是一个实践指南,个人感觉看一遍就能学的差不多,后面再练练,基本的使用包没问题qaq 忘了的话就把下面的小结看一下吧~ 常用指令总结摘抄自vimtutor zh 第一讲小结 光标在屏幕文本中的移动既可以用箭头键,也可以使用 hjkl 字母键。 h (左移) j (下行) k
2024-07-26
#vim

gdb快速上手

仅存档供个人使用,源项目地址:https://github.com/DAN-AND-DNA/learn-gdb-by-example-for-c GDB 教程本人做服务器开发,看日志和重审代码可以解决90%左右的问题,前者而且可以打印调用栈,剩下的很多问题要依赖工具,比如gdb,gdb查看崩溃时的core也是极好。写这个目的就是给想要快速入门gdb的同学的,如果要深入理解gdb,还是要从源码入手才
2024-07-24
#linux gdb

我的常用docker环境

个人比较喜欢使用xmake作为cmake的代替、mamba作为conda的代替: xmake的语法比cmake简洁不少 mamba是多线程版的conda,用起来比conda快 docker打包直接贴一个Dockerfile吧 1234567891011121314151617181920212223242526272829303132333435363738394041# 使用官方的 Ubun
2024-07-24
#linux docker
12

搜索

Hexo Fluid