CANN/asc-devkit Atan函数API
Atan【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit产品支持情况产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品 / Atlas A3 推理系列产品√Atlas A2 训练系列产品 / Atlas A2 推理系列产品√Kirin X90√Kirin 9030√功能说明按元素做三角函数反正切运算计算公式如下函数原型通过sharedTmpBuffer入参传入临时空间源操作数Tensor全部/部分参与计算template typename T, bool isReuseSource false, const AtanConfig config defaultAtanConfig __aicore__ inline void Atan(const LocalTensorT dstTensor, const LocalTensorT srcTensor, const LocalTensoruint8_t sharedTmpBuffer, const uint32_t calCount)源操作数Tensor全部参与计算template typename T, bool isReuseSource false, const AtanConfig config defaultAtanConfig __aicore__ inline void Atan(const LocalTensorT dstTensor, const LocalTensorT srcTensor, const LocalTensoruint8_t sharedTmpBuffer)接口框架申请临时空间源操作数Tensor全部/部分参与计算template typename T, bool isReuseSource false, const AtanConfig config defaultAtanConfig __aicore__ inline void Atan(const LocalTensorT dstTensor, const LocalTensorT srcTensor, const uint32_t calCount)源操作数Tensor全部参与计算template typename T, bool isReuseSource false, const AtanConfig config defaultAtanConfig __aicore__ inline void Atan(const LocalTensorT dstTensor, const LocalTensorT srcTensor)由于该接口的内部实现中涉及复杂的数学计算需要额外的临时空间来存储计算过程中的中间变量。临时空间支持开发者通过sharedTmpBuffer入参传入和接口框架申请两种方式。通过sharedTmpBuffer入参传入使用该tensor作为临时空间进行处理接口框架不再申请。该方式开发者可以自行管理sharedTmpBuffer内存空间并在接口调用完成后复用该部分内存内存不会反复申请释放灵活性较高内存利用率也较高。接口框架申请临时空间开发者无需申请但是需要预留临时空间的大小。通过sharedTmpBuffer传入的情况开发者需要为tensor申请空间接口框架申请的方式开发者需要预留临时空间。临时空间大小BufferSize的获取方式如下通过GetAtanMaxMinTmpSize中提供的接口获取需要预留空间范围的大小。参数说明表 1模板参数说明参数名描述T操作数的数据类型。Ascend 950PR/Ascend 950DT支持的数据类型为half、float。Atlas A3 训练系列产品 / Atlas A3 推理系列产品支持的数据类型为half、float。Atlas A2 训练系列产品 / Atlas A2 推理系列产品支持的数据类型为half、float。Kirin X90支持的数据类型为half、float。Kirin 9030支持的数据类型为half、float。isReuseSource是否允许修改源操作数。该参数预留传入默认值false即可。configAtan算法的相关配置。此参数可选配AtanConfig类型具体定义如下方代码所示其中参数的含义为algoAtan内部实现使用的算法。AtanAlgo类型支持的取值如下TAYLOR_EXPANSION默认值。该算法使用6阶泰勒展开实现Atan支持的数据类型为half、float。POLYNOMIAL_APPROXIMATION该算法是17次多项式逼近算法支持的数据类型为float。enum class AtanAlgo { TAYLOR_EXPANSION 0, POLYNOMIAL_APPROXIMATION, }; struct AtanConfig { AtanAlgo algo AtanAlgo::TAYLOR_EXPANSION; };表 2参数说明参数名输入/输出描述dstTensor输出目的操作数。类型为LocalTensor支持的TPosition为VECIN/VECCALC/VECOUT。srcTensor输入源操作数。类型为LocalTensor支持的TPosition为VECIN/VECCALC/VECOUT。源操作数的数据类型需要与目的操作数保持一致。sharedTmpBuffer输入临时缓存。类型为LocalTensor支持的TPosition为VECIN/VECCALC/VECOUT。临时空间大小BufferSize的获取方式请参考GetAtanMaxMinTmpSize。calCount输入参与计算的元素个数。返回值说明无约束说明不支持源操作数与目的操作数地址重叠。不支持sharedTmpBuffer与源操作数和目的操作数地址重叠。操作数地址对齐要求请参见通用地址对齐约束。调用示例AscendC::TPipe pipe; AscendC::TQueAscendC::TPosition::VECCALC, 1 tmpQue; pipe.InitBuffer(tmpQue, 1, bufferSize); // bufferSize 通过Host侧tiling参数获取 AscendC::LocalTensoruint8_t sharedTmpBuffer tmpQue.AllocTensoruint8_t(); // 输入tensor长度为1024, 算子输入的数据类型为half, 实际计算个数为512 AscendC::Atan(dstLocal, srcLocal, sharedTmpBuffer, 512); // 指定输入算法为POLYNOMIAL_APPROXIMATION, 输入的数据类型为float, 实际计算个数为512 static constexpr AscendC::AtanConfig atanConfig { AscendC::AtanAlgo::POLYNOMIAL_APPROXIMATION}; AscendC::Atanfloat, false, atanConfig(dstLocal, srcLocal, sharedTmpBuffer, 512);结果示例如下输入数据(srcLocal): [0.76769257 -0.23710161 ... 2.770608 1.0303017] 输出数据(dstLocal): [0.65472853 -0.23280266 ... 1.2244163 0.80032176]【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考