11 лет назад · 499dd078e3
--- a/compiler/nadd.pas
+++ b/compiler/nadd.pas
@@ -73,6 +73,10 @@ interface
 
				           { full 64 bit multiplies.                                }
			
 
				           function use_generic_mul64bit: boolean; virtual;
			
 
				 
			
 
				+          { shall be overriden if the target cpu supports
			
 
				+            an fma instruction
			
 
				+          }
			
 
				+          function use_fma : boolean; virtual;
			
 
				           { This routine calls internal runtime library helpers
			
 
				             for all floating point arithmetic in the case
			
 
				             where the emulation switches is on. Otherwise
			
@@ -80,18 +84,22 @@ interface
 
				             the code generation phase.
			
 
				           }
			
 
				           function first_addfloat : tnode; virtual;
			
 
				-         private
			
 
				-           { checks whether a muln can be calculated as a 32bit }
			
 
				-           { * 32bit -> 64 bit                                  }
			
 
				-           function try_make_mul32to64: boolean;
			
 
				-           { Match against the ranges, i.e.:
			
 
				-             var a:1..10;
			
 
				-             begin
			
 
				-               if a>0 then
			
 
				-                 ...
			
 
				-             always evaluates to true. (DM)
			
 
				-           }
			
 
				-           function cmp_of_disjunct_ranges(var res : boolean) : boolean;
			
 
				+       private
			
 
				+          { checks whether a muln can be calculated as a 32bit }
			
 
				+          { * 32bit -> 64 bit                                  }
			
 
				+          function try_make_mul32to64: boolean;
			
 
				+
			
 
				+          { Match against the ranges, i.e.:
			
 
				+            var a:1..10;
			
 
				+            begin
			
 
				+              if a>0 then
			
 
				+                ...
			
 
				+            always evaluates to true. (DM)
			
 
				+          }
			
 
				+          function cmp_of_disjunct_ranges(var res : boolean) : boolean;
			
 
				+
			
 
				+          { tries to replace the current node by a fma node }
			
 
				+          function try_fma(ld,rd : tdef) : tnode;
			
 
				        end;
			
 
				        taddnodeclass = class of taddnode;
			
 
				 
			
@@ -2612,6 +2620,127 @@ implementation
 
				       end;
			
 
				 
			
 
				 
			
 
				+    function taddnode.use_fma : boolean;
			
 
				+      begin
			
 
				+        result:=false;
			
 
				+      end;
			
 
				+
			
 
				+
			
 
				+    function taddnode.try_fma(ld,rd : tdef) : tnode;
			
 
				+      var
			
 
				+        inlinennr : Integer;
			
 
				+      begin
			
 
				+        result:=nil;
			
 
				+        if (cs_opt_fastmath in current_settings.optimizerswitches) and
			
 
				+          use_fma and
			
 
				+          (nodetype in [addn,subn]) and
			
 
				+          (rd.typ=floatdef) and (ld.typ=floatdef) and
			
 
				+          (is_single(rd) or is_double(rd)) and
			
 
				+          equal_defs(rd,ld) and
			
 
				+          { transforming a*b+c into fma(a,b,c) makes only sense if c can be
			
 
				+            calculated easily. Consider a*b+c*d which results in
			
 
				+
			
 
				+            fmul
			
 
				+            fmul
			
 
				+            fadd
			
 
				+
			
 
				+            and in
			
 
				+
			
 
				+            fmul
			
 
				+            fma
			
 
				+
			
 
				+            when using the fma optimization. On a super scalar architecture, the first instruction
			
 
				+            sequence requires clock_cycles(fmul)+clock_cycles(fadd) clock cycles because the fmuls can be executed in parallel.
			
 
				+            The second sequence requires clock_cycles(fmul)+clock_cycles(fma) because the fma has to wait for the
			
 
				+            result of the fmul. Since typically clock_cycles(fma)>clock_cycles(fadd) applies, the first sequence is better.
			
 
				+          }
			
 
				+          (((left.nodetype=muln) and (node_complexity(right)<3)) or
			
 
				+           ((right.nodetype=muln) and (node_complexity(left)<3)) or
			
 
				+           ((left.nodetype=inlinen) and
			
 
				+            (tinlinenode(left).inlinenumber=in_sqr_real) and
			
 
				+             (node_complexity(right)<3)) or
			
 
				+           ((right.nodetype=inlinen) and
			
 
				+            (tinlinenode(right).inlinenumber=in_sqr_real) and
			
 
				+            (node_complexity(left)<3))
			
 
				+          ) then
			
 
				+          begin
			
 
				+            case tfloatdef(ld).floattype of
			
 
				+              s32real:
			
 
				+               inlinennr:=in_fma_single;
			
 
				+              s64real:
			
 
				+               inlinennr:=in_fma_double;
			
 
				+              s80real:
			
 
				+               inlinennr:=in_fma_extended;
			
 
				+              s128real:
			
 
				+               inlinennr:=in_fma_float128;
			
 
				+              else
			
 
				+                internalerror(2014042601);
			
 
				+            end;
			
 
				+            if left.nodetype=muln then
			
 
				+              begin
			
 
				+                if nodetype=subn then
			
 
				+                  result:=cinlinenode.create(inlinennr,false,ccallparanode.create(cunaryminusnode.create(right),
			
 
				+                    ccallparanode.create(taddnode(left).right,
			
 
				+                    ccallparanode.create(taddnode(left).left,nil
			
 
				+                    ))))
			
 
				+                else
			
 
				+                  result:=cinlinenode.create(inlinennr,false,ccallparanode.create(right,
			
 
				+                    ccallparanode.create(taddnode(left).right,
			
 
				+                    ccallparanode.create(taddnode(left).left,nil
			
 
				+                    ))));
			
 
				+                right:=nil;
			
 
				+                taddnode(left).right:=nil;
			
 
				+                taddnode(left).left:=nil;
			
 
				+              end
			
 
				+            else if right.nodetype=muln then
			
 
				+              begin
			
 
				+                if nodetype=subn then
			
 
				+                  result:=cinlinenode.create(inlinennr,false,ccallparanode.create(left,
			
 
				+                    ccallparanode.create(cunaryminusnode.create(taddnode(right).right),
			
 
				+                    ccallparanode.create(taddnode(right).left,nil
			
 
				+                    ))))
			
 
				+                else
			
 
				+                  result:=cinlinenode.create(inlinennr,false,ccallparanode.create(left,
			
 
				+                    ccallparanode.create(taddnode(right).right,
			
 
				+                    ccallparanode.create(taddnode(right).left,nil
			
 
				+                    ))));
			
 
				+                left:=nil;
			
 
				+                taddnode(right).right:=nil;
			
 
				+                taddnode(right).left:=nil;
			
 
				+              end
			
 
				+            else if (left.nodetype=inlinen) and (tinlinenode(left).inlinenumber=in_sqr_real) then
			
 
				+              begin
			
 
				+                if nodetype=subn then
			
 
				+                  result:=cinlinenode.create(inlinennr,false,ccallparanode.create(cunaryminusnode.create(right),
			
 
				+                    ccallparanode.create(tinlinenode(left).left.getcopy,
			
 
				+                    ccallparanode.create(tinlinenode(left).left.getcopy,nil
			
 
				+                    ))))
			
 
				+                else
			
 
				+                  result:=cinlinenode.create(inlinennr,false,ccallparanode.create(right,
			
 
				+                    ccallparanode.create(tinlinenode(left).left.getcopy,
			
 
				+                    ccallparanode.create(tinlinenode(left).left.getcopy,nil
			
 
				+                    ))));
			
 
				+                right:=nil;
			
 
				+              end
			
 
				+            { we get here only if right is a sqr node }
			
 
				+            else if (right.nodetype=inlinen) and (tinlinenode(right).inlinenumber=in_sqr_real) then
			
 
				+              begin
			
 
				+                if nodetype=subn then
			
 
				+                  result:=cinlinenode.create(inlinennr,false,ccallparanode.create(left,
			
 
				+                    ccallparanode.create(cunaryminusnode.create(tinlinenode(right).left.getcopy),
			
 
				+                    ccallparanode.create(tinlinenode(right).left.getcopy,nil
			
 
				+                    ))))
			
 
				+                else
			
 
				+                  result:=cinlinenode.create(inlinennr,false,ccallparanode.create(left,
			
 
				+                    ccallparanode.create(tinlinenode(right).left.getcopy,
			
 
				+                    ccallparanode.create(tinlinenode(right).left.getcopy,nil
			
 
				+                    ))));
			
 
				+                left:=nil;
			
 
				+              end;
			
 
				+          end;
			
 
				+      end;
			
 
				+
			
 
				+
			
 
				     function taddnode.first_add64bitint: tnode;
			
 
				       var
			
 
				         procname: string[31];
			
@@ -3109,6 +3238,10 @@ implementation
 
				                 expectloc:=LOC_FPUREGISTER
			
 
				               else
			
 
				                 expectloc:=LOC_FLAGS;
			
 
				+
			
 
				+              result:=try_fma(ld,rd);
			
 
				+              if assigned(result) then
			
 
				+                exit;
			
 
				             end
			
 
				 
			
 
				          { pointer comperation and subtraction }
			
--- a/compiler/x86/nx86add.pas
+++ b/compiler/x86/nx86add.pas
@@ -47,6 +47,7 @@ unit nx86add;
 
				         procedure second_addfloatsse;
			
 
				         procedure second_addfloatavx;
			
 
				       public
			
 
				+        function use_fma : boolean;override;
			
 
				         procedure second_addfloat;override;
			
 
				 {$ifndef i8086}
			
 
				         procedure second_addsmallset;override;
			
@@ -273,6 +274,15 @@ unit nx86add;
 
				     procedure tx86addnode.prepare_x87_locations(out refnode: tnode);
			
 
				       begin
			
 
				         refnode:=nil;
			
 
				+
			
 
				+        { later on, no mm registers are allowed, so transfer everything to memory here
			
 
				+          below it is loaded into an fpu register if neede }
			
 
				+        if left.location.loc in [LOC_CMMREGISTER,LOC_MMREGISTER] then
			
 
				+          hlcg.location_force_mem(current_asmdata.CurrAsmList,left.location,left.resultdef);
			
 
				+
			
 
				+        if right.location.loc in [LOC_CMMREGISTER,LOC_MMREGISTER] then
			
 
				+          hlcg.location_force_mem(current_asmdata.CurrAsmList,right.location,right.resultdef);
			
 
				+
			
 
				         case ord(left.location.loc=LOC_FPUREGISTER)+ord(right.location.loc=LOC_FPUREGISTER) of
			
 
				           0:
			
 
				             begin
			
@@ -1072,6 +1082,18 @@ unit nx86add;
 
				       end;
			
 
				 
			
 
				 
			
 
				+    function tx86addnode.use_fma : boolean;
			
 
				+      begin
			
 
				+{$ifndef i8086}
			
 
				+        { test if the result stays in an xmm register, fiddeling with fpu registers and fma makes no sense }
			
 
				+        Result:=use_vectorfpu(resultdef) and
			
 
				+          ((cpu_capabilities[current_settings.cputype]*[CPUX86_HAS_FMA,CPUX86_HAS_FMA4])<>[]);
			
 
				+{$else i8086}
			
 
				+        Result:=inherited use_fma;
			
 
				+{$endif i8086}
			
 
				+      end;
			
 
				+
			
 
				+
			
 
				     procedure tx86addnode.second_cmpfloatvector;
			
 
				       var
			
 
				         op : tasmop;