vboolf8_avx.h 9.9 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190
  1. // ======================================================================== //
  2. // Copyright 2009-2017 Intel Corporation //
  3. // //
  4. // Licensed under the Apache License, Version 2.0 (the "License"); //
  5. // you may not use this file except in compliance with the License. //
  6. // You may obtain a copy of the License at //
  7. // //
  8. // http://www.apache.org/licenses/LICENSE-2.0 //
  9. // //
  10. // Unless required by applicable law or agreed to in writing, software //
  11. // distributed under the License is distributed on an "AS IS" BASIS, //
  12. // WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. //
  13. // See the License for the specific language governing permissions and //
  14. // limitations under the License. //
  15. // ======================================================================== //
  16. #pragma once
  17. namespace embree
  18. {
  19. /* 8-wide AVX bool type */
  20. template<>
  21. struct vboolf<8>
  22. {
  23. typedef vboolf8 Bool;
  24. typedef vint8 Int;
  25. typedef vfloat8 Float;
  26. enum { size = 8 }; // number of SIMD elements
  27. union { // data
  28. __m256 v;
  29. struct { __m128 vl,vh; };
  30. int i[8];
  31. };
  32. ////////////////////////////////////////////////////////////////////////////////
  33. /// Constructors, Assignment & Cast Operators
  34. ////////////////////////////////////////////////////////////////////////////////
  35. __forceinline vboolf () {}
  36. __forceinline vboolf ( const vboolf8& a ) { v = a.v; }
  37. __forceinline vboolf8& operator=( const vboolf8& a ) { v = a.v; return *this; }
  38. __forceinline vboolf( const __m256 a ) : v(a) {}
  39. __forceinline operator const __m256&( void ) const { return v; }
  40. __forceinline operator const __m256i( void ) const { return _mm256_castps_si256(v); }
  41. __forceinline operator const __m256d( void ) const { return _mm256_castps_pd(v); }
  42. __forceinline vboolf ( const int a )
  43. {
  44. assert(a >= 0 && a <= 255);
  45. #if defined (__AVX2__)
  46. const __m256i mask = _mm256_set_epi32(0x80, 0x40, 0x20, 0x10, 0x8, 0x4, 0x2, 0x1);
  47. const __m256i b = _mm256_set1_epi32(a);
  48. const __m256i c = _mm256_and_si256(b,mask);
  49. v = _mm256_castsi256_ps(_mm256_cmpeq_epi32(c,mask));
  50. #else
  51. vl = _mm_lookupmask_ps[a & 0xF];
  52. vh = _mm_lookupmask_ps[a >> 4];
  53. #endif
  54. }
  55. __forceinline vboolf ( const vboolf4& a ) : v(_mm256_insertf128_ps(_mm256_castps128_ps256(a),a,1)) {}
  56. __forceinline vboolf ( const vboolf4& a, const vboolf4& b) : v(_mm256_insertf128_ps(_mm256_castps128_ps256(a),b,1)) {}
  57. __forceinline vboolf ( const __m128 a, const __m128 b) : vl(a), vh(b) {}
  58. __forceinline vboolf ( bool a ) : v(vboolf8(vboolf4(a), vboolf4(a))) {}
  59. __forceinline vboolf ( bool a, bool b) : v(vboolf8(vboolf4(a), vboolf4(b))) {}
  60. __forceinline vboolf ( bool a, bool b, bool c, bool d) : v(vboolf8(vboolf4(a,b), vboolf4(c,d))) {}
  61. __forceinline vboolf ( bool a, bool b, bool c, bool d, bool e, bool f, bool g, bool vh ) : v(vboolf8(vboolf4(a,b,c,d), vboolf4(e,f,g,vh))) {}
  62. /* return int32 mask */
  63. __forceinline __m256i mask32() const {
  64. return _mm256_castps_si256(v);
  65. }
  66. ////////////////////////////////////////////////////////////////////////////////
  67. /// Constants
  68. ////////////////////////////////////////////////////////////////////////////////
  69. __forceinline vboolf( FalseTy ) : v(_mm256_setzero_ps()) {}
  70. __forceinline vboolf( TrueTy ) : v(_mm256_cmp_ps(_mm256_setzero_ps(), _mm256_setzero_ps(), _CMP_EQ_OQ)) {}
  71. ////////////////////////////////////////////////////////////////////////////////
  72. /// Array Access
  73. ////////////////////////////////////////////////////////////////////////////////
  74. __forceinline bool operator []( const size_t index ) const { assert(index < 8); return (_mm256_movemask_ps(v) >> index) & 1; }
  75. __forceinline int& operator []( const size_t index ) { assert(index < 8); return i[index]; }
  76. };
  77. ////////////////////////////////////////////////////////////////////////////////
  78. /// Unary Operators
  79. ////////////////////////////////////////////////////////////////////////////////
  80. __forceinline const vboolf8 operator !( const vboolf8& a ) { return _mm256_xor_ps(a, vboolf8(embree::True)); }
  81. ////////////////////////////////////////////////////////////////////////////////
  82. /// Binary Operators
  83. ////////////////////////////////////////////////////////////////////////////////
  84. __forceinline const vboolf8 operator &( const vboolf8& a, const vboolf8& b ) { return _mm256_and_ps(a, b); }
  85. __forceinline const vboolf8 operator |( const vboolf8& a, const vboolf8& b ) { return _mm256_or_ps (a, b); }
  86. __forceinline const vboolf8 operator ^( const vboolf8& a, const vboolf8& b ) { return _mm256_xor_ps(a, b); }
  87. __forceinline vboolf8 operator &=( vboolf8& a, const vboolf8& b ) { return a = a & b; }
  88. __forceinline vboolf8 operator |=( vboolf8& a, const vboolf8& b ) { return a = a | b; }
  89. __forceinline vboolf8 operator ^=( vboolf8& a, const vboolf8& b ) { return a = a ^ b; }
  90. ////////////////////////////////////////////////////////////////////////////////
  91. /// Comparison Operators + Select
  92. ////////////////////////////////////////////////////////////////////////////////
  93. __forceinline const vboolf8 operator !=( const vboolf8& a, const vboolf8& b ) { return _mm256_xor_ps(a, b); }
  94. __forceinline const vboolf8 operator ==( const vboolf8& a, const vboolf8& b ) { return _mm256_xor_ps(_mm256_xor_ps(a,b),vboolf8(embree::True)); }
  95. __forceinline const vboolf8 select( const vboolf8& mask, const vboolf8& t, const vboolf8& f ) {
  96. return _mm256_blendv_ps(f, t, mask);
  97. }
  98. ////////////////////////////////////////////////////////////////////////////////
  99. /// Movement/Shifting/Shuffling Functions
  100. ////////////////////////////////////////////////////////////////////////////////
  101. __forceinline vboolf8 unpacklo( const vboolf8& a, const vboolf8& b ) { return _mm256_unpacklo_ps(a.v, b.v); }
  102. __forceinline vboolf8 unpackhi( const vboolf8& a, const vboolf8& b ) { return _mm256_unpackhi_ps(a.v, b.v); }
  103. template<size_t i> __forceinline const vboolf8 shuffle( const vboolf8& a ) {
  104. return _mm256_permute_ps(a, _MM_SHUFFLE(i, i, i, i));
  105. }
  106. template<size_t i0, size_t i1> __forceinline const vboolf8 shuffle4( const vboolf8& a ) {
  107. return _mm256_permute2f128_ps(a, a, (i1 << 4) | (i0 << 0));
  108. }
  109. template<size_t i0, size_t i1> __forceinline const vboolf8 shuffle4( const vboolf8& a, const vboolf8& b) {
  110. return _mm256_permute2f128_ps(a, b, (i1 << 4) | (i0 << 0));
  111. }
  112. template<size_t i0, size_t i1, size_t i2, size_t i3> __forceinline const vboolf8 shuffle( const vboolf8& a ) {
  113. return _mm256_permute_ps(a, _MM_SHUFFLE(i3, i2, i1, i0));
  114. }
  115. template<size_t i0, size_t i1, size_t i2, size_t i3> __forceinline const vboolf8 shuffle( const vboolf8& a, const vboolf8& b ) {
  116. return _mm256_shuffle_ps(a, b, _MM_SHUFFLE(i3, i2, i1, i0));
  117. }
  118. template<> __forceinline const vboolf8 shuffle<0, 0, 2, 2>( const vboolf8& b ) { return _mm256_moveldup_ps(b); }
  119. template<> __forceinline const vboolf8 shuffle<1, 1, 3, 3>( const vboolf8& b ) { return _mm256_movehdup_ps(b); }
  120. template<> __forceinline const vboolf8 shuffle<0, 1, 0, 1>( const vboolf8& b ) { return _mm256_castpd_ps(_mm256_movedup_pd(_mm256_castps_pd(b))); }
  121. template<size_t i> __forceinline const vboolf8 insert4(const vboolf8& a, const vboolf4& b) { return _mm256_insertf128_ps(a, b, i); }
  122. template<size_t i> __forceinline const vboolf4 extract4 (const vboolf8& a) { return _mm256_extractf128_ps(a, i); }
  123. template<> __forceinline const vboolf4 extract4<0>(const vboolf8& a) { return _mm256_castps256_ps128(a); }
  124. ////////////////////////////////////////////////////////////////////////////////
  125. /// Reduction Operations
  126. ////////////////////////////////////////////////////////////////////////////////
  127. __forceinline bool reduce_and( const vboolf8& a ) { return _mm256_movemask_ps(a) == (unsigned int)0xff; }
  128. __forceinline bool reduce_or ( const vboolf8& a ) { return !_mm256_testz_ps(a,a); }
  129. __forceinline bool all ( const vboolf8& a ) { return _mm256_movemask_ps(a) == (unsigned int)0xff; }
  130. __forceinline bool any ( const vboolf8& a ) { return !_mm256_testz_ps(a,a); }
  131. __forceinline bool none ( const vboolf8& a ) { return _mm256_testz_ps(a,a) != 0; }
  132. __forceinline bool all ( const vboolf8& valid, const vboolf8& b ) { return all((!valid) | b); }
  133. __forceinline bool any ( const vboolf8& valid, const vboolf8& b ) { return any( valid & b); }
  134. __forceinline bool none ( const vboolf8& valid, const vboolf8& b ) { return none(valid & b); }
  135. __forceinline unsigned int movemask( const vboolf8& a ) { return _mm256_movemask_ps(a); }
  136. __forceinline size_t popcnt ( const vboolf8& a ) { return __popcnt((size_t)_mm256_movemask_ps(a)); }
  137. ////////////////////////////////////////////////////////////////////////////////
  138. /// Get/Set Functions
  139. ////////////////////////////////////////////////////////////////////////////////
  140. __forceinline bool get(const vboolf8& a, size_t index) { return a[index]; }
  141. __forceinline void set(vboolf8& a, size_t index) { a[index] = -1; }
  142. __forceinline void clear(vboolf8& a, size_t index) { a[index] = 0; }
  143. ////////////////////////////////////////////////////////////////////////////////
  144. /// Output Operators
  145. ////////////////////////////////////////////////////////////////////////////////
  146. inline std::ostream& operator<<(std::ostream& cout, const vboolf8& a) {
  147. return cout << "<" << a[0] << ", " << a[1] << ", " << a[2] << ", " << a[3] << ", "
  148. << a[4] << ", " << a[5] << ", " << a[6] << ", " << a[7] << ">";
  149. }
  150. }