FastAPI部署PyTorch CPU inference项目内存泄漏以及解决方案

起因

最近需要在一个2c4g的一个服务器上做VITS-fast-finetuning项目的边缘部署,VITS算一个不大不小的模型,实测下来服务器的内存只有3.6G,刨开乱七八糟的服务也就只剩下少得可怜的2G左右内存可用,因此需要相当地精打细算才能得到比较好的效果。

前端没啥好说的,自己和copilot合作了一下撸了一个又不是不能用的,之后就轮到重量级的后端登场了。

还在漏还在漏

首先我们的需求和一些现实情况如下:

阅读更多

一次WSL上使用clangd编写cuda的踩坑

起因

最近在WSL上学习CUDA,不假思索地选择了clangd作为lsp,使用的软件如下:

  • Arch WSL2
  • CMake 3.28.1
  • Cuda compilation tools, release 12.3, V12.3.103
  • LLVM 16.0.6
  • VSCode 1.85.1

但是使用的过程中,遇到了一个非常神秘的问题,对于C++的源代码*.h*.cpp等,clangd的代码补全一切正常,但是一遇到.cu文件,completion的延迟会长达几秒钟:

阅读更多