5 years ago · 1721258910
--- a/sse2/.gitignore
+++ b/sse2/.gitignore
@@ -0,0 +1 @@
 
				+blend
			
--- a/sse2/Makefile
+++ b/sse2/Makefile
@@ -0,0 +1,2 @@
 
				+blend: main.cpp
			
 
				+	g++ -msse4 -O0 -o blend -ggdb main.cpp
			
--- a/sse2/main.cpp
+++ b/sse2/main.cpp
@@ -0,0 +1,145 @@
 
				+#include <stdio.h>
			
 
				+#include <stdlib.h>
			
 
				+#include <stdint.h>
			
 
				+
			
 
				+#include <tmmintrin.h>
			
 
				+#include <smmintrin.h>
			
 
				+
			
 
				+#define SIMD
			
 
				+
			
 
				+typedef struct {
			
 
				+    uint8_t r, g, b, a;
			
 
				+} __attribute__((packed)) Pixel32;
			
 
				+
			
 
				+Pixel32 mix_pixels(Pixel32 a32, Pixel32 b32)
			
 
				+{
			
 
				+    const float a32_alpha = a32.a / 255.0;
			
 
				+    const float b32_alpha = b32.a / 255.0;
			
 
				+    const float r_alpha = b32_alpha + a32_alpha * (1.0f - b32_alpha);
			
 
				+
			
 
				+    Pixel32 r = {};
			
 
				+
			
 
				+    r.r = (uint8_t) ((b32.r * b32_alpha + a32.r * a32_alpha * (1.0f - b32_alpha)) / r_alpha);
			
 
				+    r.g = (uint8_t) ((b32.g * b32_alpha + a32.g * a32_alpha * (1.0f - b32_alpha)) / r_alpha);
			
 
				+    r.b = (uint8_t) ((b32.b * b32_alpha + a32.b * a32_alpha * (1.0f - b32_alpha)) / r_alpha);
			
 
				+    r.a = (uint8_t) (r_alpha * 255.0);
			
 
				+
			
 
				+    return r;
			
 
				+}
			
 
				+
			
 
				+const __m128i _swap_mask =
			
 
				+    _mm_set_epi8(7,  6,   5,  4,
			
 
				+                 3,  2,   1,  0,
			
 
				+                 15, 14, 13, 12,
			
 
				+                 11, 10,  9,  8
			
 
				+                 );
			
 
				+
			
 
				+const __m128i _aa =
			
 
				+    _mm_set_epi8( 15,15,15,15,
			
 
				+                  11,11,11,11,
			
 
				+                  7,7,7,7,
			
 
				+                  3,3,3,3 );
			
 
				+
			
 
				+const __m128i _mask1 = _mm_set_epi16(-1,0,0,0, -1,0,0,0);
			
 
				+const __m128i _mask2 = _mm_set_epi16(0,-1,-1,-1, 0,-1,-1,-1);
			
 
				+const __m128i _v1 = _mm_set1_epi16( 1 );
			
 
				+
			
 
				+// https://stackoverflow.com/questions/53643637/simd-for-alpha-blending-how-to-operate-on-every-nth-byte
			
 
				+void mix_pixels_sse(Pixel32 *src, Pixel32 *dst, Pixel32 *c)
			
 
				+{
			
 
				+    __m128i _src = _mm_loadu_si128((__m128i*)src);
			
 
				+    __m128i _src_a = _mm_shuffle_epi8(_src, _aa);
			
 
				+
			
 
				+    __m128i _dst = _mm_loadu_si128((__m128i*)dst);
			
 
				+    __m128i _dst_a = _mm_shuffle_epi8(_dst, _aa);
			
 
				+    __m128i _one_minus_src_a = _mm_subs_epu8(_mm_set1_epi8(-1), _src_a);
			
 
				+
			
 
				+    ////////////////////
			
 
				+    // __m128i _swapped_src = _mm_shuffle_epi8(_src, _swap_mask);
			
 
				+    // __m128i _extended_swapped_src = _mm_cvtepu8_epi16(_swapped_src);
			
 
				+    ////////////////////
			
 
				+    __m128i _out = {};
			
 
				+    {
			
 
				+        __m128i _s_a = _mm_cvtepu8_epi16( _src_a );
			
 
				+        __m128i _s = _mm_cvtepu8_epi16( _src );
			
 
				+        __m128i _d = _mm_cvtepu8_epi16( _dst );
			
 
				+        __m128i _d_a = _mm_cvtepu8_epi16( _one_minus_src_a );
			
 
				+        _out = _mm_adds_epu16(
			
 
				+            _mm_mullo_epi16(_s, _s_a),
			
 
				+            _mm_mullo_epi16(_d, _d_a));
			
 
				+        _out = _mm_srli_epi16(
			
 
				+            _mm_adds_epu16(
			
 
				+                _mm_adds_epu16( _v1, _out ),
			
 
				+                _mm_srli_epi16( _out, 8 ) ), 8 );
			
 
				+        _out = _mm_or_si128(
			
 
				+            _mm_and_si128(_out,_mask2),
			
 
				+            _mm_and_si128(
			
 
				+                _mm_adds_epu16(
			
 
				+                    _s_a,
			
 
				+                    _mm_cvtepu8_epi16(_dst_a)), _mask1));
			
 
				+    }
			
 
				+
			
 
				+    // compute _out2 using high quadword of of the _src and _dst
			
 
				+    //...
			
 
				+    __m128i _out2 = {};
			
 
				+    {
			
 
				+        __m128i _s_a = _mm_cvtepu8_epi16(_mm_shuffle_epi8(_src_a, _swap_mask));
			
 
				+        __m128i _s = _mm_cvtepu8_epi16(_mm_shuffle_epi8(_src, _swap_mask));
			
 
				+        __m128i _d = _mm_cvtepu8_epi16(_mm_shuffle_epi8(_dst, _swap_mask));
			
 
				+        __m128i _d_a = _mm_cvtepu8_epi16(_mm_shuffle_epi8(_one_minus_src_a, _swap_mask));
			
 
				+        _out2 = _mm_adds_epu16(
			
 
				+            _mm_mullo_epi16(_s, _s_a),
			
 
				+            _mm_mullo_epi16(_d, _d_a));
			
 
				+        _out2 = _mm_srli_epi16(
			
 
				+            _mm_adds_epu16(
			
 
				+                _mm_adds_epu16( _v1, _out2 ),
			
 
				+                _mm_srli_epi16( _out2, 8 ) ), 8 );
			
 
				+        _out2 = _mm_or_si128(
			
 
				+            _mm_and_si128(_out2,_mask2),
			
 
				+            _mm_and_si128(
			
 
				+                _mm_adds_epu16(
			
 
				+                    _s_a,
			
 
				+                    _mm_cvtepu8_epi16(_dst_a)), _mask1));
			
 
				+    }
			
 
				+
			
 
				+    __m128i _ret = _mm_packus_epi16( _out, _out2 );
			
 
				+
			
 
				+    _mm_storeu_si128( (__m128i_u*) c, _ret );
			
 
				+}
			
 
				+
			
 
				+int main(int argc, char *argv[])
			
 
				+{
			
 
				+    Pixel32 a[] = {
			
 
				+        {1, 2, 3, 0},
			
 
				+        {5, 6, 7, 255},
			
 
				+        {9, 10, 11, 255},
			
 
				+        {13, 14, 15, 255},
			
 
				+
			
 
				+        // {1, 2, 3, 4},
			
 
				+        // {5, 6, 7, 8},
			
 
				+        // {9, 10, 11, 12},
			
 
				+        // {13, 14, 15, 16},
			
 
				+    };
			
 
				+    Pixel32 b[] = {
			
 
				+        {17, 18, 19, 255},
			
 
				+        {21, 22, 23, 255},
			
 
				+        {25, 26, 27, 255},
			
 
				+        {29, 30, 31, 255},
			
 
				+
			
 
				+        // {17, 18, 19, 20},
			
 
				+        // {21, 22, 23, 24},
			
 
				+        // {25, 26, 27, 28},
			
 
				+        // {29, 30, 31, 32},
			
 
				+    };
			
 
				+    Pixel32 c[4] = {};
			
 
				+
			
 
				+#ifndef SIMD
			
 
				+    for (size_t i = 0; i < 4; ++i) {
			
 
				+        c[i] = mix_pixels(a[i], b[i]);
			
 
				+    }
			
 
				+#else
			
 
				+    mix_pixels_sse(a, b, c);
			
 
				+#endif  // SIMD
			
 
				+
			
 
				+    return 0;
			
 
				+}