vboold4_avx.h 8.0 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162
  1. // ======================================================================== //
  2. // Copyright 2009-2017 Intel Corporation //
  3. // //
  4. // Licensed under the Apache License, Version 2.0 (the "License"); //
  5. // you may not use this file except in compliance with the License. //
  6. // You may obtain a copy of the License at //
  7. // //
  8. // http://www.apache.org/licenses/LICENSE-2.0 //
  9. // //
  10. // Unless required by applicable law or agreed to in writing, software //
  11. // distributed under the License is distributed on an "AS IS" BASIS, //
  12. // WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. //
  13. // See the License for the specific language governing permissions and //
  14. // limitations under the License. //
  15. // ======================================================================== //
  16. #pragma once
  17. namespace embree
  18. {
  19. /* 4-wide AVX bool type for 64bit data types*/
  20. template<>
  21. struct vboold<4>
  22. {
  23. typedef vboold4 Bool;
  24. enum { size = 4 }; // number of SIMD elements
  25. union { // data
  26. __m256d v;
  27. struct { __m128d vl,vh; };
  28. long long i[4];
  29. };
  30. ////////////////////////////////////////////////////////////////////////////////
  31. /// Constructors, Assignment & Cast Operators
  32. ////////////////////////////////////////////////////////////////////////////////
  33. __forceinline vboold () {}
  34. __forceinline vboold ( const vboold4& a ) { v = a.v; }
  35. __forceinline vboold4& operator=( const vboold4& a ) { v = a.v; return *this; }
  36. __forceinline vboold( const __m256d a ) : v(a) {}
  37. __forceinline vboold( const __m256i a ) : v(_mm256_castsi256_pd(a)) {}
  38. __forceinline operator const __m256( void ) const { return _mm256_castpd_ps(v); }
  39. __forceinline operator const __m256i( void ) const { return _mm256_castpd_si256(v); }
  40. __forceinline operator const __m256d( void ) const { return v; }
  41. __forceinline vboold ( const int a )
  42. {
  43. assert(a >= 0 && a <= 255);
  44. #if defined (__AVX2__)
  45. const __m256i mask = _mm256_set_epi64x(0x8, 0x4, 0x2, 0x1);
  46. const __m256i b = _mm256_set1_epi64x(a);
  47. const __m256i c = _mm256_and_si256(b,mask);
  48. v = _mm256_castsi256_pd(_mm256_cmpeq_epi64(c,mask));
  49. #else
  50. vl = _mm_lookupmask_pd[a & 0x3];
  51. vh = _mm_lookupmask_pd[a >> 2];
  52. #endif
  53. }
  54. __forceinline vboold ( const __m128d a, const __m128d b) : vl(a), vh(b) {}
  55. ////////////////////////////////////////////////////////////////////////////////
  56. /// Constants
  57. ////////////////////////////////////////////////////////////////////////////////
  58. __forceinline vboold( FalseTy ) : v(_mm256_setzero_pd()) {}
  59. __forceinline vboold( TrueTy ) : v(_mm256_cmp_pd(_mm256_setzero_pd(), _mm256_setzero_pd(), _CMP_EQ_OQ)) {}
  60. ////////////////////////////////////////////////////////////////////////////////
  61. /// Array Access
  62. ////////////////////////////////////////////////////////////////////////////////
  63. __forceinline bool operator []( const size_t index ) const { assert(index < 4); return (_mm256_movemask_pd(v) >> index) & 1; }
  64. __forceinline long long& operator []( const size_t index ) { assert(index < 4); return i[index]; }
  65. };
  66. ////////////////////////////////////////////////////////////////////////////////
  67. /// Unary Operators
  68. ////////////////////////////////////////////////////////////////////////////////
  69. __forceinline const vboold4 operator !( const vboold4& a ) { return _mm256_xor_pd(a, vboold4(embree::True)); }
  70. ////////////////////////////////////////////////////////////////////////////////
  71. /// Binary Operators
  72. ////////////////////////////////////////////////////////////////////////////////
  73. __forceinline const vboold4 operator &( const vboold4& a, const vboold4& b ) { return _mm256_and_pd(a, b); }
  74. __forceinline const vboold4 operator |( const vboold4& a, const vboold4& b ) { return _mm256_or_pd (a, b); }
  75. __forceinline const vboold4 operator ^( const vboold4& a, const vboold4& b ) { return _mm256_xor_pd(a, b); }
  76. __forceinline vboold4 operator &=( vboold4& a, const vboold4& b ) { return a = a & b; }
  77. __forceinline vboold4 operator |=( vboold4& a, const vboold4& b ) { return a = a | b; }
  78. __forceinline vboold4 operator ^=( vboold4& a, const vboold4& b ) { return a = a ^ b; }
  79. ////////////////////////////////////////////////////////////////////////////////
  80. /// Comparison Operators + Select
  81. ////////////////////////////////////////////////////////////////////////////////
  82. __forceinline const vboold4 operator !=( const vboold4& a, const vboold4& b ) { return _mm256_xor_pd(a, b); }
  83. __forceinline const vboold4 operator ==( const vboold4& a, const vboold4& b ) { return _mm256_xor_pd(_mm256_xor_pd(a,b),vboold4(embree::True)); }
  84. __forceinline const vboold4 select( const vboold4& mask, const vboold4& t, const vboold4& f ) {
  85. return _mm256_blendv_pd(f, t, mask);
  86. }
  87. ////////////////////////////////////////////////////////////////////////////////
  88. /// Movement/Shifting/Shuffling Functions
  89. ////////////////////////////////////////////////////////////////////////////////
  90. __forceinline vboold4 unpacklo( const vboold4& a, const vboold4& b ) { return _mm256_unpacklo_pd(a.v, b.v); }
  91. __forceinline vboold4 unpackhi( const vboold4& a, const vboold4& b ) { return _mm256_unpackhi_pd(a.v, b.v); }
  92. #if defined(__AVX2__)
  93. template<size_t i0, size_t i1, size_t i2, size_t i3> __forceinline const vboold4 shuffle( const vboold4& a ) {
  94. return _mm256_permute4x64_pd(a, _MM_SHUFFLE(i3, i2, i1, i0));
  95. }
  96. template<size_t i> __forceinline const vboold4 shuffle( const vboold4& a ) {
  97. return _mm256_permute4x64_pd(a, _MM_SHUFFLE(i, i, i, i));
  98. }
  99. #endif
  100. ////////////////////////////////////////////////////////////////////////////////
  101. /// Reduction Operations
  102. ////////////////////////////////////////////////////////////////////////////////
  103. __forceinline bool reduce_and( const vboold4& a ) { return _mm256_movemask_pd(a) == (unsigned int)0xf; }
  104. __forceinline bool reduce_or ( const vboold4& a ) { return !_mm256_testz_pd(a,a); }
  105. __forceinline bool all ( const vboold4& a ) { return _mm256_movemask_pd(a) == (unsigned int)0xf; }
  106. __forceinline bool any ( const vboold4& a ) { return !_mm256_testz_pd(a,a); }
  107. __forceinline bool none ( const vboold4& a ) { return _mm256_testz_pd(a,a) != 0; }
  108. __forceinline bool all ( const vboold4& valid, const vboold4& b ) { return all((!valid) | b); }
  109. __forceinline bool any ( const vboold4& valid, const vboold4& b ) { return any( valid & b); }
  110. __forceinline bool none ( const vboold4& valid, const vboold4& b ) { return none(valid & b); }
  111. __forceinline unsigned int movemask( const vboold4& a ) { return _mm256_movemask_pd(a); }
  112. __forceinline size_t popcnt ( const vboold4& a ) { return __popcnt((size_t)_mm256_movemask_pd(a)); }
  113. ////////////////////////////////////////////////////////////////////////////////
  114. /// Get/Set Functions
  115. ////////////////////////////////////////////////////////////////////////////////
  116. __forceinline bool get(const vboold4& a, size_t index) { return a[index]; }
  117. __forceinline void set (vboold4& a, size_t index) { a[index] = -1; }
  118. __forceinline void clear(vboold4& a, size_t index) { a[index] = 0; }
  119. ////////////////////////////////////////////////////////////////////////////////
  120. /// Output Operators
  121. ////////////////////////////////////////////////////////////////////////////////
  122. inline std::ostream& operator<<(std::ostream& cout, const vboold4& a) {
  123. return cout << "<" << a[0] << ", " << a[1] << ", " << a[2] << ", " << a[3] << ", "
  124. << a[4] << ", " << a[5] << ", " << a[6] << ", " << a[7] << ">";
  125. }
  126. }