vboold4_avx.h 7.2 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174
  1. // Copyright 2009-2021 Intel Corporation
  2. // SPDX-License-Identifier: Apache-2.0
  3. #pragma once
  4. #define vboolf vboolf_impl
  5. #define vboold vboold_impl
  6. #define vint vint_impl
  7. #define vuint vuint_impl
  8. #define vllong vllong_impl
  9. #define vfloat vfloat_impl
  10. #define vdouble vdouble_impl
  11. namespace embree
  12. {
  13. /* 4-wide AVX bool type for 64bit data types*/
  14. template<>
  15. struct vboold<4>
  16. {
  17. ALIGNED_STRUCT_(32);
  18. typedef vboold4 Bool;
  19. enum { size = 4 }; // number of SIMD elements
  20. union { // data
  21. __m256d v;
  22. struct { __m128d vl,vh; };
  23. long long i[4];
  24. };
  25. ////////////////////////////////////////////////////////////////////////////////
  26. /// Constructors, Assignment & Cast Operators
  27. ////////////////////////////////////////////////////////////////////////////////
  28. __forceinline vboold() {}
  29. __forceinline vboold(const vboold4& a) { v = a.v; }
  30. __forceinline vboold4& operator =(const vboold4& a) { v = a.v; return *this; }
  31. __forceinline vboold(__m256d a) : v(a) {}
  32. __forceinline vboold(__m256i a) : v(_mm256_castsi256_pd(a)) {}
  33. __forceinline operator const __m256() const { return _mm256_castpd_ps(v); }
  34. __forceinline operator const __m256i() const { return _mm256_castpd_si256(v); }
  35. __forceinline operator const __m256d() const { return v; }
  36. __forceinline vboold(int a)
  37. {
  38. assert(a >= 0 && a <= 255);
  39. #if defined (__AVX2__)
  40. const __m256i mask = _mm256_set_epi64x(0x8, 0x4, 0x2, 0x1);
  41. const __m256i b = _mm256_set1_epi64x(a);
  42. const __m256i c = _mm256_and_si256(b,mask);
  43. v = _mm256_castsi256_pd(_mm256_cmpeq_epi64(c,mask));
  44. #else
  45. vl = mm_lookupmask_pd[a & 0x3];
  46. vh = mm_lookupmask_pd[a >> 2];
  47. #endif
  48. }
  49. ////////////////////////////////////////////////////////////////////////////////
  50. /// Constants
  51. ////////////////////////////////////////////////////////////////////////////////
  52. __forceinline vboold(FalseTy) : v(_mm256_setzero_pd()) {}
  53. #if !defined(__aarch64__)
  54. __forceinline vboold(TrueTy) : v(_mm256_cmp_pd(_mm256_setzero_pd(), _mm256_setzero_pd(), _CMP_EQ_OQ)) {}
  55. #else
  56. __forceinline vboold(TrueTy) : v(_mm256_cmpeq_pd(_mm256_setzero_pd(), _mm256_setzero_pd())) {}
  57. #endif
  58. ////////////////////////////////////////////////////////////////////////////////
  59. /// Array Access
  60. ////////////////////////////////////////////////////////////////////////////////
  61. __forceinline bool operator [](size_t index) const { assert(index < 4); return (_mm256_movemask_pd(v) >> index) & 1; }
  62. __forceinline long long& operator [](size_t index) { assert(index < 4); return i[index]; }
  63. };
  64. ////////////////////////////////////////////////////////////////////////////////
  65. /// Unary Operators
  66. ////////////////////////////////////////////////////////////////////////////////
  67. __forceinline vboold4 operator !(const vboold4& a) { return _mm256_xor_pd(a, vboold4(embree::True)); }
  68. ////////////////////////////////////////////////////////////////////////////////
  69. /// Binary Operators
  70. ////////////////////////////////////////////////////////////////////////////////
  71. __forceinline vboold4 operator &(const vboold4& a, const vboold4& b) { return _mm256_and_pd(a, b); }
  72. __forceinline vboold4 operator |(const vboold4& a, const vboold4& b) { return _mm256_or_pd (a, b); }
  73. __forceinline vboold4 operator ^(const vboold4& a, const vboold4& b) { return _mm256_xor_pd(a, b); }
  74. __forceinline vboold4 andn(const vboold4& a, const vboold4& b) { return _mm256_andnot_pd(b, a); }
  75. __forceinline vboold4& operator &=(vboold4& a, const vboold4& b) { return a = a & b; }
  76. __forceinline vboold4& operator |=(vboold4& a, const vboold4& b) { return a = a | b; }
  77. __forceinline vboold4& operator ^=(vboold4& a, const vboold4& b) { return a = a ^ b; }
  78. ////////////////////////////////////////////////////////////////////////////////
  79. /// Comparison Operators + Select
  80. ////////////////////////////////////////////////////////////////////////////////
  81. __forceinline vboold4 operator !=(const vboold4& a, const vboold4& b) { return _mm256_xor_pd(a, b); }
  82. __forceinline vboold4 operator ==(const vboold4& a, const vboold4& b) { return _mm256_xor_pd(_mm256_xor_pd(a,b),vboold4(embree::True)); }
  83. __forceinline vboold4 select(const vboold4& mask, const vboold4& t, const vboold4& f) {
  84. return _mm256_blendv_pd(f, t, mask);
  85. }
  86. ////////////////////////////////////////////////////////////////////////////////
  87. /// Movement/Shifting/Shuffling Functions
  88. ////////////////////////////////////////////////////////////////////////////////
  89. #if !defined(__aarch64__)
  90. __forceinline vboold4 unpacklo(const vboold4& a, const vboold4& b) { return _mm256_unpacklo_pd(a, b); }
  91. __forceinline vboold4 unpackhi(const vboold4& a, const vboold4& b) { return _mm256_unpackhi_pd(a, b); }
  92. #endif
  93. #if defined(__AVX2__)
  94. template<int i0, int i1, int i2, int i3>
  95. __forceinline vboold4 shuffle(const vboold4& v) {
  96. return _mm256_permute4x64_pd(v, _MM_SHUFFLE(i3, i2, i1, i0));
  97. }
  98. template<int i>
  99. __forceinline vboold4 shuffle(const vboold4& v) {
  100. return _mm256_permute4x64_pd(v, _MM_SHUFFLE(i, i, i, i));
  101. }
  102. #endif
  103. ////////////////////////////////////////////////////////////////////////////////
  104. /// Reduction Operations
  105. ////////////////////////////////////////////////////////////////////////////////
  106. __forceinline bool reduce_and(const vboold4& a) { return _mm256_movemask_pd(a) == (unsigned int)0xf; }
  107. __forceinline bool reduce_or (const vboold4& a) { return !_mm256_testz_pd(a,a); }
  108. __forceinline bool all (const vboold4& a) { return _mm256_movemask_pd(a) == (unsigned int)0xf; }
  109. __forceinline bool any (const vboold4& a) { return !_mm256_testz_pd(a,a); }
  110. __forceinline bool none(const vboold4& a) { return _mm256_testz_pd(a,a) != 0; }
  111. __forceinline bool all (const vboold4& valid, const vboold4& b) { return all((!valid) | b); }
  112. __forceinline bool any (const vboold4& valid, const vboold4& b) { return any(valid & b); }
  113. __forceinline bool none(const vboold4& valid, const vboold4& b) { return none(valid & b); }
  114. __forceinline unsigned int movemask(const vboold4& a) { return _mm256_movemask_pd(a); }
  115. __forceinline size_t popcnt (const vboold4& a) { return popcnt((size_t)_mm256_movemask_pd(a)); }
  116. ////////////////////////////////////////////////////////////////////////////////
  117. /// Get/Set Functions
  118. ////////////////////////////////////////////////////////////////////////////////
  119. __forceinline bool get(const vboold4& a, size_t index) { return a[index]; }
  120. __forceinline void set (vboold4& a, size_t index) { a[index] = -1; }
  121. __forceinline void clear(vboold4& a, size_t index) { a[index] = 0; }
  122. ////////////////////////////////////////////////////////////////////////////////
  123. /// Output Operators
  124. ////////////////////////////////////////////////////////////////////////////////
  125. __forceinline embree_ostream operator <<(embree_ostream cout, const vboold4& a) {
  126. return cout << "<" << a[0] << ", " << a[1] << ", " << a[2] << ", " << a[3] << ", "
  127. << a[4] << ", " << a[5] << ", " << a[6] << ", " << a[7] << ">";
  128. }
  129. }
  130. #undef vboolf
  131. #undef vboold
  132. #undef vint
  133. #undef vuint
  134. #undef vllong
  135. #undef vfloat
  136. #undef vdouble