pytorch
diff --git a/‎BUILD.bazel
Lines changed: 1 addition & 10 deletions b/‎BUILD.bazel
Lines changed: 1 addition & 10 deletions
diff --git a/‎aten/src/ATen/CMakeLists.txt
Lines changed: 1 addition & 0 deletions b/‎aten/src/ATen/CMakeLists.txt
Lines changed: 1 addition & 0 deletions
diff --git a/‎aten/src/ATen/core/ivalue_inl.h
Lines changed: 1 addition & 1 deletion b/‎aten/src/ATen/core/ivalue_inl.h
Lines changed: 1 addition & 1 deletion
diff --git a/‎aten/src/ATen/cuda/ApplyGridUtils.cuh
Lines changed: 47 additions & 0 deletions b/‎aten/src/ATen/cuda/ApplyGridUtils.cuh
Lines changed: 47 additions & 0 deletions
diff --git a/‎aten/src/ATen/cuda/CUDAApplyUtils.cuh
Lines changed: 1 addition & 39 deletions b/‎aten/src/ATen/cuda/CUDAApplyUtils.cuh
Lines changed: 1 addition & 39 deletions
diff --git a/‎aten/src/ATen/cuda/CUDAConfig.h.in
Lines changed: 6 additions & 0 deletions b/‎aten/src/ATen/cuda/CUDAConfig.h.in
Lines changed: 6 additions & 0 deletions
diff --git a/‎aten/src/ATen/cuda/detail/CUDAHooks.cpp
Lines changed: 3 additions & 3 deletions b/‎aten/src/ATen/cuda/detail/CUDAHooks.cpp
Lines changed: 3 additions & 3 deletions
diff --git a/‎aten/src/ATen/native/Activation.h
Lines changed: 20 additions & 16 deletions b/‎aten/src/ATen/native/Activation.h
Lines changed: 20 additions & 16 deletions
diff --git a/‎aten/src/ATen/native/cpu/Activation.cpp
Lines changed: 19 additions & 22 deletions b/‎aten/src/ATen/native/cpu/Activation.cpp
Lines changed: 19 additions & 22 deletions
@@ -525,6 +525,7 @@ header_template_rule(
     substitutions = {
         "@AT_CUDNN_ENABLED@": "1",
         "@AT_ROCM_ENABLED@": "0",
+        "@AT_MAGMA_ENABLED@": "0",
         "@NVCC_FLAGS_EXTRA@": "",
     },
 )
@@ -537,15 +538,6 @@ header_template_rule(
     },
 )
 
-header_template_rule(
-    name = "aten_src_THC_THCGeneral",
-    src = "aten/src/THC/THCGeneral.h.in",
-    out = "aten/src/THC/THCGeneral.h",
-    substitutions = {
-        "#cmakedefine USE_MAGMA": "",
-    },
-)
-
 cc_library(
     name = "aten_headers",
     hdrs = [
@@ -572,7 +564,6 @@ cc_library(
     deps = [
         ":c10_headers",
         ":aten_src_TH_THGeneral",
-        ":aten_src_THC_THCGeneral",
     ],
 )
 
 
@@ -30,6 +30,7 @@ set_bool(AT_BUILD_WITH_BLAS USE_BLAS)
 set_bool(AT_BUILD_WITH_LAPACK USE_LAPACK)
 set_bool(AT_BLAS_F2C BLAS_F2C)
 set_bool(AT_BLAS_USE_CBLAS_DOT BLAS_USE_CBLAS_DOT)
+set_bool(AT_MAGMA_ENABLED USE_MAGMA)
 set_bool(CAFFE2_STATIC_LINK_CUDA_INT CAFFE2_STATIC_LINK_CUDA)
 
 configure_file(Config.h.in "${CMAKE_CURRENT_SOURCE_DIR}/Config.h")
 
@@ -579,7 +579,7 @@ struct TORCH_API Tuple : c10::intrusive_ptr_target {
   static c10::intrusive_ptr<Tuple> createNamed(
       std::initializer_list<IValue> elements_,
       std::shared_ptr<TupleType> type_) {
-    return create(std::vector<IValue>(elements_));
+    return createNamed(std::vector<IValue>(elements_), std::move(type_));
   }
 
   // MSVC apparently can't disambiguate the other two overloads of
 
@@ -0,0 +1,47 @@
+#include <ATen/cuda/CUDAContext.h>
+
+#include <cuda_runtime.h>
+
+namespace at { namespace cuda {
+
+/**
+   Computes ceil(a / b)
+*/
+template <typename T>
+__host__ __device__ __forceinline__ T ATenCeilDiv(T a, T b) {
+  return (a + b - 1) / b;
+}
+
+namespace {
+
+// Threads per block for our apply kernel
+// FIXME: use occupancy calculator instead
+constexpr uint32_t AT_APPLY_THREADS_PER_BLOCK = 512;
+constexpr uint32_t AT_APPLY_BLOCKS_PER_SM = 4;
+
+template <int step = 1>
+inline bool getApplyGrid(uint64_t totalElements, dim3& grid, int64_t curDevice, int max_threads_per_block=AT_APPLY_THREADS_PER_BLOCK) {
+  if (curDevice == -1) return false;
+  uint64_t numel_per_thread = static_cast<uint64_t>(max_threads_per_block) * static_cast<uint64_t>(step);
+  uint64_t numBlocks = ATenCeilDiv(totalElements, numel_per_thread);
+  uint64_t maxGridX = at::cuda::getDeviceProperties(curDevice)->maxGridSize[0];
+  if (numBlocks > maxGridX)
+    numBlocks = maxGridX;
+  grid = dim3(numBlocks);
+  return true;
+}
+
+constexpr int getApplyBlocksPerSM() {
+  return AT_APPLY_BLOCKS_PER_SM;
+}
+
+constexpr int getApplyBlockSize() {
+  return AT_APPLY_THREADS_PER_BLOCK;
+}
+
+inline dim3 getApplyBlock(int max_threads_per_block=AT_APPLY_THREADS_PER_BLOCK) {
+  return dim3(max_threads_per_block);
+}
+
+}
+}}  // namespace at::cuda
@@ -1,5 +1,6 @@
 #pragma once
 
+#include <ATen/cuda/ApplyGridUtils.cuh>
 #include <ATen/cuda/detail/IndexUtils.cuh>
 #include <ATen/TensorUtils.h>
 #include <ATen/ceil_div.h>
@@ -199,11 +200,6 @@ inline void rearrangeDims(detail::TensorInfo<T1, IndexType>* aInfo,
   }
 }
 
-// Threads per block for our apply kernel
-// FIXME: use occupancy calculator instead
-constexpr uint32_t AT_APPLY_THREADS_PER_BLOCK = 512;
-constexpr uint32_t AT_APPLY_BLOCKS_PER_SM = 4;
-
 // The `remaining_steps` argument is used to support Op that operates on
 // multiple elements at the same time. Generally, the strategy of ApplyOpN is to
 //  1. Initialize `remaining_steps = step`, where `step` is the template arg of
@@ -379,40 +375,6 @@ kernelPointwiseApply2(detail::TensorInfo<scalar1, IndexType> a,
 
 } // namespace
 
-/**
-   Computes ceil(a / b)
-*/
-template <typename T>
-C10_DEPRECATED_MESSAGE("at::cuda::ATenCeilDiv is deprecated. Instead use at::ceil_div in <ATen/ceil_div.h>.")
-__host__ __device__ __forceinline__ T ATenCeilDiv(T a, T b) {
-  // TODO: Delete when torchvision stops using this function
-  return at::ceil_div(a, b);
-}
-
-template <int step = 1>
-inline bool getApplyGrid(uint64_t totalElements, dim3& grid, int64_t curDevice, int max_threads_per_block=AT_APPLY_THREADS_PER_BLOCK) {
-  if (curDevice == -1) return false;
-  uint64_t numel_per_thread = static_cast<uint64_t>(max_threads_per_block) * static_cast<uint64_t>(step);
-  uint64_t numBlocks = ceil_div(totalElements, numel_per_thread);
-  uint64_t maxGridX = at::cuda::getDeviceProperties(curDevice)->maxGridSize[0];
-  if (numBlocks > maxGridX)
-      numBlocks = maxGridX;
-  grid = dim3(numBlocks);
-  return true;
-}
-
-constexpr int getApplyBlocksPerSM() {
-  return AT_APPLY_BLOCKS_PER_SM;
-}
-
-constexpr int getApplyBlockSize() {
-  return AT_APPLY_THREADS_PER_BLOCK;
-}
-
-inline dim3 getApplyBlock(int max_threads_per_block=AT_APPLY_THREADS_PER_BLOCK) {
-  return dim3(max_threads_per_block);
-}
-
 template <typename scalar1, typename scalar2, int step, typename Op,
           int max_threads_per_block=AT_APPLY_THREADS_PER_BLOCK,
           int min_blocks_per_sm=AT_APPLY_BLOCKS_PER_SM>
 
@@ -9,5 +9,11 @@
 
 #define AT_CUDNN_ENABLED() @AT_CUDNN_ENABLED@
 #define AT_ROCM_ENABLED() @AT_ROCM_ENABLED@
+#define AT_MAGMA_ENABLED() @AT_MAGMA_ENABLED@
+
+// Needed for hipMAGMA to correctly identify implementation
+#if (AT_ROCM_ENABLED() && AT_MAGMA_ENABLED())
+#define HAVE_HIP 1
+#endif
 
 #define NVCC_FLAGS_EXTRA "@NVCC_FLAGS_EXTRA@"
@@ -21,7 +21,7 @@
 #include <ATen/cudnn/cudnn-wrapper.h>
 #endif
 
-#ifdef USE_MAGMA
+#if AT_MAGMA_ENABLED()
 #include <magma_v2.h>
 #endif
 
@@ -118,7 +118,7 @@ bool CUDAHooks::hasCUDA() const {
 }
 
 bool CUDAHooks::hasMAGMA() const {
-#ifdef USE_MAGMA
+#if AT_MAGMA_ENABLED()
   return true;
 #else
   return false;
@@ -337,7 +337,7 @@ std::string CUDAHooks::showConfig() const {
   oss << "  - MIOpen " << MIOPEN_VERSION_MAJOR << "." << MIOPEN_VERSION_MINOR << "." << MIOPEN_VERSION_PATCH << "\n";
 #endif
 
-#ifdef USE_MAGMA
+#if AT_MAGMA_ENABLED()
   oss << "  - Magma " << MAGMA_VERSION_MAJOR << "." << MAGMA_VERSION_MINOR << "." << MAGMA_VERSION_MICRO << "\n";
 #endif
 
 
@@ -1,36 +1,40 @@
 #pragma once
 
-#include <ATen/ATen.h>
 #include <ATen/native/DispatchStub.h>
-#include <c10/core/Scalar.h>
 
-namespace at {
+namespace c10 {
+class Scalar;
+}
 
+namespace at {
 struct TensorIterator;
+struct TensorIteratorBase;
+class TensorBase;
+}
 
-namespace native {
+namespace at { namespace native {
 
 using structured_activation_fn = void (*)(TensorIteratorBase&);
 using structured_activation_backward_fn = void (*)(TensorIteratorBase&);
 
 using activation_fn = void (*)(TensorIterator&);
 using activation_backward_fn = void (*)(TensorIterator&);
-using softplus_fn = void (*)(TensorIteratorBase&, const Scalar&, const Scalar&);
-using softplus_backward_fn = void (*)(TensorIteratorBase&, const Scalar&, const Scalar&);
-using threshold_fn = void (*)(TensorIteratorBase&, const Scalar&, const Scalar&);
-using hardtanh_backward_fn = void (*)(TensorIterator&, const Scalar&, const Scalar&);
+using softplus_fn = void (*)(TensorIteratorBase&, const c10::Scalar&, const c10::Scalar&);
+using softplus_backward_fn = void (*)(TensorIteratorBase&, const c10::Scalar&, const c10::Scalar&);
+using threshold_fn = void (*)(TensorIteratorBase&, const c10::Scalar&, const c10::Scalar&);
+using hardtanh_backward_fn = void (*)(TensorIterator&, const c10::Scalar&, const c10::Scalar&);
 using hardsigmoid_fn = void(*)(TensorIteratorBase&);
 using hardsigmoid_backward_fn = void(*)(TensorIteratorBase&);
 using hardswish_fn = void(*)(TensorIterator&);
 using hardswish_backward_fn = void(*)(TensorIterator&);
-using shrink_fn = void (*)(TensorIteratorBase&, const Scalar&);
-using softshrink_fn = void (*)(TensorIteratorBase&, const Scalar&);
-using shrink_backward_fn = void (*)(TensorIteratorBase&, const Scalar&);
-using elu_fn = void (*)(TensorIteratorBase&, const Scalar&, const Scalar&, const Scalar&);
-using elu_backward_fn = void (*)(TensorIteratorBase&, const Scalar&, const Scalar&, const Scalar&, bool);
-using leaky_relu_fn = void (*)(TensorIteratorBase&, const Scalar&);
-using leaky_relu_backward_fn = void (*)(TensorIteratorBase&, const Scalar&);
-using log_sigmoid_cpu_fn = void (*)(Tensor& , Tensor&, const Tensor& );
+using shrink_fn = void (*)(TensorIteratorBase&, const c10::Scalar&);
+using softshrink_fn = void (*)(TensorIteratorBase&, const c10::Scalar&);
+using shrink_backward_fn = void (*)(TensorIteratorBase&, const c10::Scalar&);
+using elu_fn = void (*)(TensorIteratorBase&, const c10::Scalar&, const c10::Scalar&, const c10::Scalar&);
+using elu_backward_fn = void (*)(TensorIteratorBase&, const c10::Scalar&, const c10::Scalar&, const c10::Scalar&, bool);
+using leaky_relu_fn = void (*)(TensorIteratorBase&, const c10::Scalar&);
+using leaky_relu_backward_fn = void (*)(TensorIteratorBase&, const c10::Scalar&);
+using log_sigmoid_cpu_fn = void (*)(TensorBase&, TensorBase&, const TensorBase&);
 
 DECLARE_DISPATCH(elu_fn, elu_stub);
 DECLARE_DISPATCH(elu_backward_fn, elu_backward_stub);
 
@@ -1,3 +1,4 @@
+#define TORCH_ASSERT_NO_OPERATORS
 #ifndef _USE_MATH_DEFINES
 #define _USE_MATH_DEFINES
 #endif
@@ -7,24 +8,22 @@
 #include <cmath>
 #include <functional>
 
-#include <ATen/ATen.h>
-#include <ATen/Config.h>
+#include <ATen/Dispatch.h>
+#include <ATen/core/TensorBase.h>
 #include <ATen/cpu/vec/vec.h>
 #include <ATen/native/TensorIterator.h>
 #include <ATen/native/cpu/Loops.h>
 #include <ATen/Parallel.h>
 
-#if AT_MKL_ENABLED()
-#include <mkl.h>
-#endif // AT_MKL_ENABLED()
+#include <c10/core/Scalar.h>
 
 namespace at {
 namespace native {
 
 namespace {
 
 template <typename scalar_t>
-inline void _vec_log_sigmoid(Tensor& output, Tensor& buffer, const Tensor& input) {
+inline void _vec_log_sigmoid(TensorBase &output, TensorBase &buffer, const TensorBase &input) {
   using Vec = Vectorized<scalar_t>;
   scalar_t* output_data = output.data_ptr<scalar_t>();
   scalar_t* buffer_data = buffer.data_ptr<scalar_t>();
@@ -34,24 +33,25 @@ inline void _vec_log_sigmoid(Tensor& output, Tensor& buffer, const Tensor& input
     int64_t d = 0;
     for (; d < size - (size % Vec::size()); d += Vec::size()) {
       Vec data_vec = Vec::loadu(input_data + begin+ d);
-      Vec max_vec = vec::maximum(data_vec.neg(), Vec(scalar_t(0)));
-      Vec buffer_vec =  max_vec.neg().exp() + (data_vec.neg() - max_vec).exp();
-      Vec output_vec = (max_vec + buffer_vec.log()).neg();
+      Vec min_vec = vec::minimum(data_vec, Vec(scalar_t(0)));
+      Vec buffer_vec = data_vec.abs().neg().exp();
+      Vec output_vec = min_vec - buffer_vec.log1p();
       buffer_vec.store(buffer_data + begin + d);
       output_vec.store(output_data + begin + d);
     }
     if (size - d > 0) {
       Vec data_vec = Vec::loadu(input_data + begin + d, size - d);
-      Vec max_vec = vec::maximum(data_vec.neg(), Vec(scalar_t(0)));
-      Vec buffer_vec =  max_vec.neg().exp() + (data_vec.neg() - max_vec).exp();
-      Vec output_vec = (max_vec + buffer_vec.log()).neg();
+      Vec min_vec = vec::minimum(data_vec, Vec(scalar_t(0)));
+      Vec buffer_vec = data_vec.abs().neg().exp();
+      Vec output_vec = min_vec - buffer_vec.log1p();
       buffer_vec.store(buffer_data + begin + d, size - d);
       output_vec.store(output_data + begin + d, size - d);
     }
   });
 }
 
-static void log_sigmoid_cpu_kernel(Tensor& output, Tensor& buffer, const Tensor& input) {
+static void log_sigmoid_cpu_kernel(
+    TensorBase &output, TensorBase &buffer, const TensorBase &input) {
   AT_DISPATCH_FLOATING_TYPES(input.scalar_type(), "log_sigmoid_cpu", [&] {
     _vec_log_sigmoid<scalar_t>(output, buffer, input);
   });
@@ -66,19 +66,16 @@ static void log_sigmoid_backward_cpu_kernel(TensorIterator& iter) {
     auto one_vec = Vec(one_val);
     cpu_kernel_vec(iter,
       [=](scalar_t a, scalar_t b, scalar_t c) -> scalar_t {
-        auto max_deriv_val = zero_val;
-        auto sign_val = -one_val;
-        if (a < zero_val) {
-          max_deriv_val = -one_val;
-          sign_val = one_val;
-        }
-        return (-max_deriv_val - sign_val * ((b - one_val) / b)) * c;
+        auto in_negative = a < scalar_t(0);
+        auto max_deriv = in_negative ? scalar_t(1) : scalar_t(0);
+        auto sign = in_negative ? scalar_t(1) : -scalar_t(1);
+        return (max_deriv - sign * (b / (scalar_t(1) + b))) * c;
       },
       [=](Vec a, Vec b, Vec c) -> Vec {
         auto mask = a < zero_vec;
-        auto max_deriv_vec = Vec::blendv(zero_vec, one_vec.neg(), mask);
+        auto max_deriv_vec = Vec::blendv(zero_vec, one_vec, mask);
         auto sign_vec = Vec::blendv(one_vec.neg(), one_vec, mask);
-        return (max_deriv_vec + sign_vec * ((b - one_vec) / b)).neg() * c;
+        return (max_deriv_vec - sign_vec * (b / (one_vec + b))) * c;
       });
   });
 }
Original file line number	Diff line number	Diff line change
`@@ -579,7 +579,7 @@ struct TORCH_API Tuple : c10::intrusive_ptr_target {`
`579`	`579`	`static c10::intrusive_ptr<Tuple> createNamed(`
`580`	`580`	`std::initializer_list<IValue> elements_,`
`581`	`581`	`std::shared_ptr<TupleType> type_) {`
`582`		`- return create(std::vector<IValue>(elements_));`
	`582`	`+ return createNamed(std::vector<IValue>(elements_), std::move(type_));`
`583`	`583`	`}`
`584`	`584`
`585`	`585`	`// MSVC apparently can't disambiguate the other two overloads of`